このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231206となっている論文です。

PDF登録状況(公開日: 20231206)

TitleAuthorsAbstract論文公表日・翻訳日
# PyraTrans: 悪意のあるURL検出のための注意深いピラミッド変換器

PyraTrans: Attention-Enriched Pyramid Transformer for Malicious URL Detection ( http://arxiv.org/abs/2312.00508v2 )

ライセンス: Link先を確認
Ruitong Liu, Yanbin Wang, Zhenhao Guo, Haitao Xu, Zhan Qin, Wenrui Ma, Fan Zhang, (参考訳) マシンラーニングの進歩は、悪意のあるURL検出技術の開発を加速させたが、現在のテクニックは、一般化する能力と、進化する脅威に対するレジリエンスにおいて、依然として重大な課題に直面している。 本稿では、事前学習されたトランスフォーマーとピラミッド特徴学習を統合し、悪意のあるURLを検出する新しい方法であるPiraTransを提案する。 PyraTransは、事前訓練されたCharBERTを基礎として、3つの相互接続機能モジュールで拡張している。 1)各CharBERTエンコーダ層から多階特徴行列を抽出するエンコーダ特徴抽出 2 マルチスケール特徴学習、様々な規模における局所的文脈的洞察の収集、エンコーダ層間の情報の集約、及び 3)空間的ピラミッドの注意,表現情報に富む地域を強調する地域レベルの注意に焦点をあてる。 提案手法は,URL固有の単語パターン,文字の組み合わせ,構造的異常を捉える上で不可欠な,局所的特徴学習と地域関係認識におけるTransformerの限界に対処する。 いくつかの挑戦的な実験シナリオにおいて、提案手法は、悪意のあるURL検出における精度、一般化、堅牢性を著しく改善した。 例えば、クラス不均衡のシナリオでは最大40%のF1スコア向上を達成し、敵の攻撃シナリオでは14.13%の精度で最高のベースラインを突破した。 さらに,本手法では,30のアクティブなWebページを正確に識別するケーススタディを実施し,一方,2つのピアSOTAメソッドは,それぞれ4と7の悪意のあるWebページを欠いている。 コードとデータは、https://github.com/Alixyvtte/PyraTransで公開されている。

Although advancements in machine learning have driven the development of malicious URL detection technology, current techniques still face significant challenges in their capacity to generalize and their resilience against evolving threats. In this paper, we propose PyraTrans, a novel method that integrates pretrained Transformers with pyramid feature learning to detect malicious URL. PyraTrans utilizes a pretrained CharBERT as its foundation and is augmented with three interconnected feature modules: 1) Encoder Feature Extraction, extracting multi-order feature matrices from each CharBERT encoder layer; 2) Multi-Scale Feature Learning, capturing local contextual insights at various scales and aggregating information across encoder layers; and 3) Spatial Pyramid Attention, focusing on regional-level attention to emphasize areas rich in expressive information. The proposed approach addresses the limitations of the Transformer in local feature learning and regional relational awareness, which are vital for capturing URL-specific word patterns, character combinations, or structural anomalies. In several challenging experimental scenarios, the proposed method has shown significant improvements in accuracy, generalization, and robustness in malicious URL detection. For instance, it achieved a peak F1-score improvement of 40% in class-imbalanced scenarios, and exceeded the best baseline result by 14.13% in accuracy in adversarial attack scenarios. Additionally, we conduct a case study where our method accurately identifies all 30 active malicious web pages, whereas two pior SOTA methods miss 4 and 7 malicious web pages respectively. Codes and data are available at:https://github.com/Alixyvtte/PyraTrans.
翻訳日:2024-03-18 13:25:19 公開日:2023-12-06
# 誰がモデルを漏らしたのか? アカウンタブル・フェデレーション・ラーニングにおけるIP侵害者追跡

Who Leaked the Model? Tracking IP Infringers in Accountable Federated Learning ( http://arxiv.org/abs/2312.03205v1 )

ライセンス: Link先を確認
Shuyang Yu, Junyuan Hong, Yi Zeng, Fei Wang, Ruoxi Jia, Jiayu Zhou, (参考訳) フェデレートラーニング(FL)は、トレーニングにおいて、大規模で分散したクライアントからのデータと計算リソースを調整する効果的な協調学習フレームワークとして登場した。 このようなコラボレーションは、個々のユーザではなく、パーティー全体によって保護され、共有されるべきモデルパラメータによって表現される非自明な知的財産(IP)をもたらす。 一方、FLの分散した性質は、不正なモデルリークを通じて不正な第三者にIPを侵害する利便性を悪意のあるクライアントに認めている。 このようなIPリークをブロックするためには、IPを共有モデルで識別し、最初にリークした匿名の侵害者を特定することが不可欠である。 集合的課題は、モデルの検証可能な所有権を必要とし、漏洩時に侵害者の身元を明らかにすることができる「emph{accountable Federated Learning}」である。 本稿では,説明責任FLの要件を満たすために,Duodable Unique Watermarking (DUW)を提案する。 具体的には、グローバルモデルがFLラウンドでクライアントに送信される前に、DUWはバックドアベースの透かしインジェクションを利用して、クライアント・ユニクキーをモデルにエンコードする。 漏洩したモデルの侵害者を特定するために、DUWはモデルを調べ、トリガーが対応するキーとして復号化できるかどうかをチェックする。 広範にわたる実証実験の結果, DUWは高い有効性と堅牢性を示し, 異種FL設定下でのDigits, CIFAR-10, CIFAR-100データセットに対して99 %以上の透かし成功率を達成し, 共通透かし除去試験後のIP侵害者を100 %以上の精度で同定した。

Federated learning (FL) emerges as an effective collaborative learning framework to coordinate data and computation resources from massive and distributed clients in training. Such collaboration results in non-trivial intellectual property (IP) represented by the model parameters that should be protected and shared by the whole party rather than an individual user. Meanwhile, the distributed nature of FL endorses a malicious client the convenience to compromise IP through illegal model leakage to unauthorized third parties. To block such IP leakage, it is essential to make the IP identifiable in the shared model and locate the anonymous infringer who first leaks it. The collective challenges call for \emph{accountable federated learning}, which requires verifiable ownership of the model and is capable of revealing the infringer's identity upon leakage. In this paper, we propose Decodable Unique Watermarking (DUW) for complying with the requirements of accountable FL. Specifically, before a global model is sent to a client in an FL round, DUW encodes a client-unique key into the model by leveraging a backdoor-based watermark injection. To identify the infringer of a leaked model, DUW examines the model and checks if the triggers can be decoded as the corresponding keys. Extensive empirical results show that DUW is highly effective and robust, achieving over $99\%$ watermark success rate for Digits, CIFAR-10, and CIFAR-100 datasets under heterogeneous FL settings, and identifying the IP infringer with $100\%$ accuracy even after common watermark removal attempts.
翻訳日:2024-03-18 13:05:51 公開日:2023-12-06
# 安全・安全のための行動認証

Behavioral Authentication for Security and Safety ( http://arxiv.org/abs/2312.03429v1 )

ライセンス: Link先を確認
Cheng Wang, Hao Tang, Hangyu Zhu, Junhan Zheng, Changjun Jiang, (参考訳) システムのセキュリティと安全性の問題は、行動的な \emph{aptness} の観点から、完全に分離することができる。 すなわち、あるシステムが安全であるか安全かは、あるエージェントの振る舞いが \emph{ appropriate} であるかどうかによって判断できる。 具体的には、いわゆる"emph{ appropriate behavior"は、特定の条件下で適切なタイミングで適切なアクションを実行する適切なエージェントを含む。 そして、適切な度合いと度合いに応じて、行動認証は3つのレベル、すなわち振る舞いの「emph{Identity}」、「emph{Conformity}」、そして「emph{Benignity}」に分類することができる。 広義には、安全性と安全性の問題において、行動認証は、その固有の利点から革新的で有望な手法であるだけでなく、行動生成の普遍性と、あらゆるシステムにおける行動規制の必要性によって、決定的かつ根本的な問題でもある。 本分類では,行動認証の背景と基礎を包括的に検討する。 さらに、それぞれの焦点領域と特徴に基づいて、既存の研究を要約する。 現状の行動認証手法に直面する課題を分析し,行動認証の多様化と統合化を促進するための潜在的研究の方向性について考察する。

The issues of both system security and safety can be dissected integrally from the perspective of behavioral \emph{appropriateness}. That is, a system is secure or safe can be judged by whether the behavior of certain agent(s) is \emph{appropriate} or not. Specifically, a so-called \emph{appropriate behavior} involves the right agent performing the right actions at the right time under certain conditions. Then, according to different levels of appropriateness and degrees of custodies, behavioral authentication can be graded into three levels, i.e., the authentication of behavioral \emph{Identity}, \emph{Conformity}, and \emph{Benignity}. In a broad sense, for the security and safety issue, behavioral authentication is not only an innovative and promising method due to its inherent advantages but also a critical and fundamental problem due to the ubiquity of behavior generation and the necessity of behavior regulation in any system. By this classification, this review provides a comprehensive examination of the background and preliminaries of behavioral authentication. It further summarizes existing research based on their respective focus areas and characteristics. The challenges confronted by current behavioral authentication methods are analyzed, and potential research directions are discussed to promote the diversified and integrated development of behavioral authentication.
翻訳日:2024-03-18 12:56:06 公開日:2023-12-06
# Fed-urlBERT: URL脅威分析のためのクライアント側軽量フェデレーショントランス

Fed-urlBERT: Client-side Lightweight Federated Transformers for URL Threat Analysis ( http://arxiv.org/abs/2312.03636v1 )

ライセンス: Link先を確認
Yujie Li, Yanbin Wang, Haitao Xu, Zhenhao Guo, Fan Zhang, Ruitong Liu, Wenrui Ma, (参考訳) サイバーランドスケープの進化において、悪意のあるURLの検出は、ドメイン間の協調と知識共有を要求する。 しかし、プライバシやビジネス上の感受性に関する懸念によって、コラボレーションが妨げられていることが多い。 フェデレーション学習は、直接データ交換なしでマルチクライアントのコラボレーションを可能にすることで、これらの問題に対処する。 残念ながら、高度に表現力のあるTransformerモデルを使用すると、クライアントは計算負荷が耐え難い場合があり、重みの交換はネットワーク帯域幅を急速に減らす可能性がある。 本稿では,プライバシの懸念とサイバーセキュリティにおけるクロスドメインコラボレーションの必要性に対処するために,フェデレーション付きURL事前トレーニングモデルであるFed-urlBERTを提案する。 Fed-urlBERTは分割学習を利用して、事前学習されたモデルをクライアントとサーバに分割する。 本報告では,独立および同一分散(IID)および2つの非IIDデータシナリオの下で,集中型モデルに匹敵する性能を実現する。 その結果,FPRは中央集権モデルに比べて約7%減少していることがわかった。 さらに、クライアント間の不均一性を緩和し、有望な性能改善を示す適応的な局所集約戦略を実装した。 全体として,提案するトランスフォーマーフェデレーション学習のURL脅威分析への適用性を検証するとともに,現実の協調型サイバーセキュリティ活動の基盤を確立する。 ソースコードはhttps://github.com/Davidup1/FedURLBERTでアクセスできる。

In evolving cyber landscapes, the detection of malicious URLs calls for cooperation and knowledge sharing across domains. However, collaboration is often hindered by concerns over privacy and business sensitivities. Federated learning addresses these issues by enabling multi-clients collaboration without direct data exchange. Unfortunately, if highly expressive Transformer models are used, clients may face intolerable computational burdens, and the exchange of weights could quickly deplete network bandwidth. In this paper, we propose Fed-urlBERT, a federated URL pre-trained model designed to address both privacy concerns and the need for cross-domain collaboration in cybersecurity. Fed-urlBERT leverages split learning to divide the pre-training model into client and server part, so that the client part takes up less extensive computation resources and bandwidth. Our appraoch achieves performance comparable to centralized model under both independently and identically distributed (IID) and two non-IID data scenarios. Significantly, our federated model shows about an 7% decrease in the FPR compared to the centralized model. Additionally, we implement an adaptive local aggregation strategy that mitigates heterogeneity among clients, demonstrating promising performance improvements. Overall, our study validates the applicability of the proposed Transformer federated learning for URL threat analysis, establishing a foundation for real-world collaborative cybersecurity efforts. The source code is accessible at https://github.com/Davidup1/FedURLBERT.
翻訳日:2024-03-18 12:56:06 公開日:2023-12-06
# ライトニングネットワーク上でのクローズドペイメントネットワークの最適化:デュアル中央ノードアプローチ

Optimizing Closed Payment Networks on the Lightning Network: Dual Central Node Approach ( http://arxiv.org/abs/2312.03920v1 )

ライセンス: Link先を確認
Jeffy Yu, (参考訳) Lightning Networkは、ミリ秒の決済速度と取引手数料の低いことで知られており、従来の決済プロセッサに代わる魅力的な代替手段を提供する。 これは、標準的な金融サービスへのアクセスが欠如している銀行人口にとって特に重要である。 私たちの研究は、クライアントをB2B請求、送金、国境を越えた取引といったクライアント支払いプロセスからLightning Networkに移行しようとしている企業をターゲットにしています。 我々は、相互接続されたメッシュノード(完全グラフトポロジ)と中央ルーティングノード(スターグラフトポロジ)の効率を、双対中央ノードアプローチに特化して比較する。 このアプローチでは、円形リバランシング、冗長性、クローズドネットワークシステムなどの機能を導入している。 基本SimPyモデルを用いて,ネットワークのスループットを100ノードのシナリオで評価する。 このアプローチは、当初分散化のために設計されたテクノロジを中央集権化する一方で、Bitcoinベースの決済ネットワークの広範な採用を促進し、分散化された金融エコシステムへの参加を促進する。 本研究は,MTL(Money Transmission Laws)に基づく決済処理系に分類される中央ルーティングノードの利用の規制的意味についても考察した。 これらの知見は、Lightning Networkのビジネスにおける応用に関する議論に寄与することを目的としており、金融技術のより分散化されたシステムへのシフトを促進する可能性を強調している。

The Lightning Network, known for its millisecond settlement speeds and low transaction fees, offers a compelling alternative to traditional payment processors, which often have higher fees and longer processing times. This is particularly significant for the unbanked population, which lacks access to standard financial services. Our research targets businesses looking to shift their client to client payment processes, such as B2B invoicing, remittances, and cross-border transactions, to the Lightning Network. We compare the efficiency of interconnected mesh nodes (complete graph topology) with central routing nodes (star graph topology), with a specific focus on the dual central node approach. This approach introduces features like circular rebalancing, redundancy, and a closed network system. Through a basic SimPy model, we assess the network's throughput in a 100 node scenario. While this approach centralizes a technology initially designed for decentralization, it fosters broader enterprise adoption of Bitcoin-based payment networks and encourages participation in the decentralized financial ecosystem. Our study also considers the regulatory implications of using central routing nodes, possibly classified as payment processors under Money Transmission Laws (MTL). These findings aim to contribute to the discourse on the Lightning Network's application in business, highlighting its potential to drive shifts in financial technology towards more decentralized systems.
翻訳日:2024-03-18 12:56:06 公開日:2023-12-06
# wake-sleep統合学習

Wake-Sleep Consolidated Learning ( http://arxiv.org/abs/2401.08623v1 )

ライセンス: Link先を確認
Amelia Sorrenti, Giovanni Bellitto, Federica Proietto Salanitri, Matteo Pennisi, Simone Palazzo, Concetto Spampinato(参考訳) 本研究では,視覚分類タスクのための深層ニューラルネットワークの性能を向上させるために,補足的な学習システム理論と人間の脳のwake-sleepフェーズを活用した学習戦略であるwake-sleep integrated learning (wscl)を提案する。 本手法は,覚醒相と睡眠相の同期によって継続的に学習する。 ウェイクフェーズの間、モデルは感覚入力に曝され、その表現に適応し、動的パラメータ凍結機構を通じて安定性を確保し、短期の一時的な記憶(海馬で起こるのと同様に)にエピソディック記憶を格納する。 睡眠期には、トレーニング過程をNREMおよびREMステージに分割する。 NREM段階では、短期記憶と長期記憶の再生サンプルを用いてモデルのシナプス重量を集約し、シナプス可塑性機構を活性化し、重要な接続を強化し、重要でないものを弱める。 REMの段階では、モデルは未確認のリアルな視覚感覚体験に晒され、夢のプロセスが活性化され、モデルが潜在的な特徴空間を探索し、将来の知識にシナプスを準備できる。 CIFAR-10, Tiny-ImageNet, FG-ImageNetの3つのベンチマークデータセットに対して, 提案手法の有効性を評価する。 いずれの場合も,本手法はベースラインや先行作業よりも優れており,連続的な視覚的分類タスクにおいて顕著な性能向上をもたらす。 さらに,全ての処理段階の有用性と,前向き転送を実現するための夢の実現の重要性を示す。

We propose Wake-Sleep Consolidated Learning (WSCL), a learning strategy leveraging Complementary Learning System theory and the wake-sleep phases of the human brain to improve the performance of deep neural networks for visual classification tasks in continual learning settings. Our method learns continually via the synchronization between distinct wake and sleep phases. During the wake phase, the model is exposed to sensory input and adapts its representations, ensuring stability through a dynamic parameter freezing mechanism and storing episodic memories in a short-term temporary memory (similarly to what happens in the hippocampus). During the sleep phase, the training process is split into NREM and REM stages. In the NREM stage, the model's synaptic weights are consolidated using replayed samples from the short-term and long-term memory and the synaptic plasticity mechanism is activated, strengthening important connections and weakening unimportant ones. In the REM stage, the model is exposed to previously-unseen realistic visual sensory experience, and the dreaming process is activated, which enables the model to explore the potential feature space, thus preparing synapses to future knowledge. We evaluate the effectiveness of our approach on three benchmark datasets: CIFAR-10, Tiny-ImageNet and FG-ImageNet. In all cases, our method outperforms the baselines and prior work, yielding a significant performance gain on continual visual classification tasks. Furthermore, we demonstrate the usefulness of all processing stages and the importance of dreaming to enable positive forward transfer.
翻訳日:2024-01-22 09:49:39 公開日:2023-12-06
# エンド・ツー・エンド自動運転における速度と遅延の影響

Combating the effects of speed and delays in end-to-end self-driving ( http://arxiv.org/abs/2312.06670v1 )

ライセンス: Link先を確認
Ardi Tampuu, Ilmar Uduste and Kristjan Roosild(参考訳) エンドツーエンドの運転に対する行動クローニングアプローチでは、専門家駆動のデータセットが収集され、モデルが専門家が異なる状況で何をするかを推測する。 状況は観測で要約され、出力は低または中程度のコマンド(ブレーキ、スロットル、ステアリング、軌道など)である。 モデルは、時間Tでの観測とTで記録された行動とを可能な限り同時に一致させることを学ぶ。 しかし、モデルを実世界(あるいは非同期シミュレーション)にデプロイする場合、Tの観測値に基づいて予測されるアクションは、T + $\Delta$Tで適用される。 まず、2つの異なる速度での運転が事実上2つの異なるタスクであることを実証する。 遅延は部分的にこの差を引き起こし、線形に増幅する。 演算遅延がなくても、慣性によるアクチュエータの遅延と滑りは、高速運転時にプリエンプティブな動作を行う必要がある。 コマンドへの関数マッピングの観測は、遅い駆動と比較すると異なる。 高速運転を訓練したモデルでは、遅い運転と逆運転という一見簡単な作業が実行できないことを実験的に示す。 良い運転モデルは、彼らが実行できないタスクである「安全な低速度」でテストするため、貧弱であると判断されるかもしれない。 次に,エンド・ツー・エンドのネットワークにおける遅延の影響を,対象ラベルを変更することで対処する方法を示す。 これは、遅延を最小化しようとするアプローチ、すなわち原因を最小化しようとするアプローチとは対照的である。 実世界の問題を実証するために、エンド・ツー・エンド・ドライブの動作クローンを用いて、限られた計算能力を持つ1:10スケールのミニカーを使用する。 ここで議論されているアイデアのいくつかは、より計算力のある車やエンドツーエンドまたはモジュラーなアプローチに、より広範な自動運転のコンテキストに移行できるかもしれない。

In the behavioral cloning approach to end-to-end driving, a dataset of expert driving is collected and the model learns to guess what the expert would do in different situations. Situations are summarized in observations and the outputs are low or mid-level commands (e.g. brake, throttle, and steering; or trajectories). The models learn to match observations at time T to actions recorded at T or as simultaneously as possible. However, when deploying the models to the real world (or to an asynchronous simulation), the action predicted based on observations at time T gets applied at T + $\Delta$ T. In a variety of cases, $\Delta$ T can be considerable and significantly influence performance. We first demonstrate that driving at two different speeds is effectively two different tasks. Delays partially cause this difference and linearly amplify it. Even without computational delays, actuator delays and slipping due to inertia result in the need to perform actions preemptively when driving fast. The function mapping observations to commands becomes different compared to slow driving. We experimentally show that models trained to drive fast cannot perform the seemingly easier task of driving slow and vice-versa. Good driving models may be judged to be poor due to testing them at "a safe low speed", a task they cannot perform. Secondly, we show how to counteract the effect of delays in end-to-end networks by changing the target labels. This is in contrast to the approaches attempting to minimize the delays, i.e. the cause, not the effect. To exemplify the problems and solutions in the real world, we use 1:10 scale minicars with limited computing power, using behavioral cloning for end-to-end driving. Some of the ideas discussed here may be transferable to the wider context of self-driving, to vehicles with more compute power and end-to-mid or modular approaches.
翻訳日:2024-01-15 14:51:14 公開日:2023-12-06
# 複雑な遺伝的関連解析のためのカーネルベースニューラルネットワークに基づく連想テスト

An Association Test Based on Kernel-Based Neural Networks for Complex Genetic Association Analysis ( http://arxiv.org/abs/2312.06669v1 )

ライセンス: Link先を確認
Tingting Hou, Chang Jiang and Qing Lu(参考訳) 人工知能の出現、特にディープニューラルネットワークの進歩は、遺伝子研究に革命をもたらし、遺伝子変異体と疾患表現型の間の複雑な関係を解読する前例のない可能性をもたらすことが期待されている。 ディープニューラルネットワークは遺伝子関連解析に大きな可能性を秘めているが、複雑な遺伝子型とフェノタイプを区別する神経ネットワークベースのテストの開発に注力している。 この複雑さは、ニューラルネットワークの不透明な性質と定義された制限分布の欠如から生じる。 我々は以前,従来のニューラルネットワークと線形混合モデルの強度を相乗化するカーネルベースニューラルネットワークモデル(KNN)を開発した。 KNNは計算効率のよい最小ノルム2次非バイアス推定器(MINQUE)アルゴリズムを採用し、KNN構造を用いて大規模シーケンシングデータと関心の病型との関係を捉える。 KNN フレームワークでは,遺伝子変異と表現型との結合性を評価する MINQUE ベースのテストを導入し,非線形および非付加的効果を考慮し,カイ二乗分布の混合に従う。 また、線形および非線形/非付加的遺伝子効果の評価と解釈のための2つの追加試験を構築した。 シミュレーションにより,本手法は様々な条件下でのI型エラー率を一定に制御し,特に非線形および相互作用効果の場合によく用いられるシーケンスカーネルアソシエーションテスト (SKAT) よりも高いパワーを達成することを示す。 イギリスのバイオバンクの実際のデータに適用すると、海馬の体積に関連する遺伝子が同定され、アルツハイマー病の病態におけるその役割がさらに複製され評価された。

The advent of artificial intelligence, especially the progress of deep neural networks, is expected to revolutionize genetic research and offer unprecedented potential to decode the complex relationships between genetic variants and disease phenotypes, which could mark a significant step toward improving our understanding of the disease etiology. While deep neural networks hold great promise for genetic association analysis, limited research has been focused on developing neural-network-based tests to dissect complex genotype-phenotype associations. This complexity arises from the opaque nature of neural networks and the absence of defined limiting distributions. We have previously developed a kernel-based neural network model (KNN) that synergizes the strengths of linear mixed models with conventional neural networks. KNN adopts a computationally efficient minimum norm quadratic unbiased estimator (MINQUE) algorithm and uses KNN structure to capture the complex relationship between large-scale sequencing data and a disease phenotype of interest. In the KNN framework, we introduce a MINQUE-based test to assess the joint association of genetic variants with the phenotype, which considers non-linear and non-additive effects and follows a mixture of chi-square distributions. We also construct two additional tests to evaluate and interpret linear and non-linear/non-additive genetic effects, including interaction effects. Our simulations show that our method consistently controls the type I error rate under various conditions and achieves greater power than a commonly used sequence kernel association test (SKAT), especially when involving non-linear and interaction effects. When applied to real data from the UK Biobank, our approach identified genes associated with hippocampal volume, which can be further replicated and evaluated for their role in the pathogenesis of Alzheimer's disease.
翻訳日:2024-01-15 14:50:43 公開日:2023-12-06
# 台湾語hokkienコーパスにおける自己教師あり音声モデルの評価

Evaluating Self-supervised Speech Models on a Taiwanese Hokkien Corpus ( http://arxiv.org/abs/2312.06668v1 )

ライセンス: Link先を確認
Yi-Hui Chou, Kalvin Chang, Meng-Ju Wu, Winston Ou, Alice Wen-Hsin Bi, Carol Yang, Bryan Y. Chen, Rong-Wei Pai, Po-Yen Yeh, Jo-Peng Chiang, Iu-Tshian Phoann, Winnie Chang, Chenxuan Cui, Noel Chen, Jiatong Shi(参考訳) 台湾のホッキエンは、台湾のマンダリンへの言語シフトにより、使用と地位が低下している。 これは、今日のNLPや音声研究において、低リソース言語である理由のひとつだ。 音声処理における技術の現状が台湾のホッキエンを置き去りにしないよう、我々は台湾のホッキエンの1.5時間データセットをML-SUPERBの隠れ集合に寄贈する。 ML-SUPERBの自己教師付き学習(SSL)音声表現スイートをデータセット上で評価した結果,モデルサイズが常に性能を判断できないことがわかった。 実際、一部の小さなモデルはより大きなモデルよりも優れています。 さらに,事前学習データと対象言語との言語的アライメントも重要である。

Taiwanese Hokkien is declining in use and status due to a language shift towards Mandarin in Taiwan. This is partly why it is a low resource language in NLP and speech research today. To ensure that the state of the art in speech processing does not leave Taiwanese Hokkien behind, we contribute a 1.5-hour dataset of Taiwanese Hokkien to ML-SUPERB's hidden set. Evaluating ML-SUPERB's suite of self-supervised learning (SSL) speech representations on our dataset, we find that model size does not consistently determine performance. In fact, certain smaller models outperform larger ones. Furthermore, linguistic alignment between pretraining data and the target language plays a crucial role.
翻訳日:2024-01-15 14:50:13 公開日:2023-12-06
# ハッブル・テンションの解決策としての宇宙の複雑さの成長

The growth of the Universe complexity as a possible solution to the Hubble tension ( http://arxiv.org/abs/2312.05267v1 )

ライセンス: Link先を確認
Carlos Silva(参考訳) 本稿では、ハッブル・レマ・シュヴェット定数と宇宙のホログラフィック複雑性の関係を、量子相関でエンコードされた量子情報から時空が現れるべき時空の発生に関する新しい提案の文脈で確立できることを示す。 このようなハッブル・レマ・テア定数と宇宙ホログラフィックの複雑さの間の橋は、ハッブルテンションの問題にいくらか光を当てることができる。

In this paper, we show that a possible relationship between the Hubble-Lema\^{i}tre constant and the universe holographic complexity can be established in the context of a new proposal for the emergence of spacetime, according to which spacetime must emerge from quantum information encoded in quantum correlations without correlate. Such a bridge between the Hubble-Lema\^{i}tre constant and the universe holographic complexity can shed some light on the issue of the Hubble tension.
翻訳日:2024-01-15 14:46:06 公開日:2023-12-06
# プライバシー対応機能を用いたマルチモーダルグループ感情認識

Multimodal Group Emotion Recognition In-the-wild Using Privacy-Compliant Features ( http://arxiv.org/abs/2312.05265v1 )

ライセンス: Link先を確認
Anderson Augusma (M-PSI, SVH), Dominique Vaufreydaz (M-PSI), Fr\'ed\'erique Letu\'e (SVH)(参考訳) 本稿では,EmotiW Challenge 2023の中で,プライバシに適合したグループレベルの感情認識について検討する。 グループレベルの感情認識は、社会ロボティクス、会話エージェント、e-coaching、学習分析など、多くの分野で有用である。 本研究は、ビデオ中の人物(顔のランドマーク、ボディポーズ、オーディオダイアリゼーションなど)を識別または追跡するために使用できるすべての特徴を、個々の特徴を避けるためのグローバルな機能のみを使用することを強制する。 提案するマルチモーダルモデルは,モダリティ間のクロスアテンションを有するビデオとオーディオブランチで構成されている。 ビデオブランチは、微調整されたViTアーキテクチャに基づいている。 オーディオブランチはメルスペクトルを抽出し、CNNブロックを介してトランスフォーマーエンコーダに供給する。 トレーニングパラダイムには、生成した合成データセットが含まれており、データ駆動方式で画像内の表情に対するモデルの感度を高める。 広範な実験は我々の方法論の意義を示している。 当社のプライバシに準拠した提案はemotiwの課題に対して,79.24%と75.13%の精度で,最良モデルのバリデーションとテストセット上で,それぞれ公平に実施しています。 注目すべきなのは,ビデオ上に均一に分散された5フレームのみを使用して,プライバシに準拠した機能によって,この精度レベルに到達することができることだ。

This paper explores privacy-compliant group-level emotion recognition ''in-the-wild'' within the EmotiW Challenge 2023. Group-level emotion recognition can be useful in many fields including social robotics, conversational agents, e-coaching and learning analytics. This research imposes itself using only global features avoiding individual ones, i.e. all features that can be used to identify or track people in videos (facial landmarks, body poses, audio diarization, etc.). The proposed multimodal model is composed of a video and an audio branches with a cross-attention between modalities. The video branch is based on a fine-tuned ViT architecture. The audio branch extracts Mel-spectrograms and feed them through CNN blocks into a transformer encoder. Our training paradigm includes a generated synthetic dataset to increase the sensitivity of our model on facial expression within the image in a data-driven way. The extensive experiments show the significance of our methodology. Our privacy-compliant proposal performs fairly on the EmotiW challenge, with 79.24% and 75.13% of accuracy respectively on validation and test set for the best models. Noticeably, our findings highlight that it is possible to reach this accuracy level with privacy-compliant features using only 5 frames uniformly distributed on the video.
翻訳日:2024-01-15 14:45:41 公開日:2023-12-06
# elastic resetによる言語モデルアライメント

Language Model Alignment with Elastic Reset ( http://arxiv.org/abs/2312.07551v1 )

ライセンス: Link先を確認
Michael Noukhovitch, Samuel Lavoie, Florian Strub, Aaron Courville(参考訳) 強化学習(rl)による言語モデルの微調整(例えば、人的フィードバック(hf))は、アライメントの顕著な方法である。 しかし、報酬モデルに対する最適化は、報酬ハッキング、アライメント税、言語ドリフトとして知られる他の領域のパフォーマンスを低下させながら、報酬を改善できる。 まず、一般的に使用されるテストメトリクスは不十分であり、代わりに、報酬とドリフトの間の異なるアルゴリズムのトレードオフを測定する。 標準方法は、オンラインモデルと初期モデルの間のkullback-lieber(kl)ペナルティで報酬を変更した。 本研究では,学習目標を明示的に修正することなく,ドリフトを少なくして高い報酬を得る新しいアルゴリズムであるelastic resetを提案する。 オンラインモデルを指数移動平均(EMA)に定期的にリセットし、EMAモデルを初期モデルにリセットします。 EMAを用いることで、リセット後にモデルが迅速に回復し、同じステップ数でのドリフトを少なくして高い報酬を得る。 我々は、Elastic Resetを用いた微調整言語モデルにより、小規模のピボット翻訳ベンチマークにおける最先端のパフォーマンスが向上し、中規模のRLHFのようなIMDBモック感情タスクにおいて全てのベースラインを上回り、LLaMA-7Bによるより高性能で整合した技術的QAチャットボットが実現されることを示した。 github.com/mnoukhov/elastic-resetで利用可能なコード。

Finetuning language models with reinforcement learning (RL), e.g. from human feedback (HF), is a prominent method for alignment. But optimizing against a reward model can improve on reward while degrading performance in other areas, a phenomenon known as reward hacking, alignment tax, or language drift. First, we argue that commonly-used test metrics are insufficient and instead measure how different algorithms tradeoff between reward and drift. The standard method modified the reward with a Kullback-Lieber (KL) penalty between the online and initial model. We propose Elastic Reset, a new algorithm that achieves higher reward with less drift without explicitly modifying the training objective. We periodically reset the online model to an exponentially moving average (EMA) of itself, then reset the EMA model to the initial model. Through the use of an EMA, our model recovers quickly after resets and achieves higher reward with less drift in the same number of steps. We demonstrate that fine-tuning language models with Elastic Reset leads to state-of-the-art performance on a small scale pivot-translation benchmark, outperforms all baselines in a medium-scale RLHF-like IMDB mock sentiment task and leads to a more performant and more aligned technical QA chatbot with LLaMA-7B. Code available at github.com/mnoukhov/elastic-reset.
翻訳日:2024-01-15 14:35:30 公開日:2023-12-06
# テキスト・画像生成モデルにおける意図しない記憶の理解

Understanding (Un)Intended Memorization in Text-to-Image Generative Models ( http://arxiv.org/abs/2312.07550v1 )

ライセンス: Link先を確認
Ali Naseh, Jaechul Roh, Amir Houmansadr(参考訳) マルチモーダル機械学習、特にStable DiffusionやDALL-E 3のようなテキストから画像への変換モデルは、テキストを詳細な画像に変換する上で重要である。 それらの使用量の増加と顕著な生成能力にもかかわらず、これらのモデルの振る舞い、特に記憶に関する詳細な検証が必要である。 歴史的に、機械学習の記憶は文脈に依存しており、分類タスクからLarge Language Models (LLM)やDiffusion Modelのような複雑なモデルまで様々に定義されている。 しかし、テキストから画像への合成の複雑さと一致する暗記という決定的な概念はいまだに解明されていない。 この理解は、記憶化がユーザーの期待を満たすために、特に表現不足のエンティティの表現を生成する際には、プライバシー上のリスクを生じるため不可欠である。 本稿では,テキスト対画像モデルに合わせた暗記の専用定義を提案し,ユーザの期待に応じて3つのタイプに分類する。 ユーザのプライバシとモデル出力の生成的品質のバランスの重要性を強調しながら,意図しない記憶と意図しない記憶の微妙な区別を詳細に検討した。 安定拡散モデルを用いて,記憶の定義を検証し,それらの応用を明らかにする例を示す。

Multimodal machine learning, especially text-to-image models like Stable Diffusion and DALL-E 3, has gained significance for transforming text into detailed images. Despite their growing use and remarkable generative capabilities, there is a pressing need for a detailed examination of these models' behavior, particularly with respect to memorization. Historically, memorization in machine learning has been context-dependent, with diverse definitions emerging from classification tasks to complex models like Large Language Models (LLMs) and Diffusion models. Yet, a definitive concept of memorization that aligns with the intricacies of text-to-image synthesis remains elusive. This understanding is vital as memorization poses privacy risks yet is essential for meeting user expectations, especially when generating representations of underrepresented entities. In this paper, we introduce a specialized definition of memorization tailored to text-to-image models, categorizing it into three distinct types according to user expectations. We closely examine the subtle distinctions between intended and unintended memorization, emphasizing the importance of balancing user privacy with the generative quality of the model outputs. Using the Stable Diffusion model, we offer examples to validate our memorization definitions and clarify their application.
翻訳日:2024-01-15 14:35:04 公開日:2023-12-06
# Make-A-Storyboard: アンタングルとマージによるストーリーボードの汎用フレームワーク

Make-A-Storyboard: A General Framework for Storyboard with Disentangled and Merged Control ( http://arxiv.org/abs/2312.07549v1 )

ライセンス: Link先を確認
Sitong Su, Litao Guo, Lianli Gao, Heng Tao Shen, Jingkuan Song(参考訳) Story Visualization aims to generate images aligned with story prompts, reflecting the coherence of storybooks through visual consistency among characters and scenes.Whereas current approaches exclusively concentrate on characters and neglect the visual consistency among contextually correlated scenes, resulting in independent character images without inter-image coherence.To tackle this issue, we propose a new presentation form for Story Visualization called Storyboard, inspired by film-making, as illustrated in Fig.1.Specifically, a Storyboard unfolds a story into visual representations scene by scene. ストーリーボードの各シーンにおいて、キャラクターは同じ場所で活動し、視覚的に一貫したシーンとキャラクタの両方を必要とする。ストーリーボードでは、コンテキストの関連したキャラクタとシーンの整合性に対する不整合制御を施したMake-A-Storyboardと呼ばれる一般的なフレームワークを設計し、それらをマージして調和したイメージを形成する。 1) 効果. ストーリーアライメント, キャラクタ一貫性, シーン相関における方法の有効性 2)一般化。 当社の手法は,主流のイメージカスタマイズ手法にシームレスに統合され,ストーリービジュアライゼーションの能力を活用できる。

Story Visualization aims to generate images aligned with story prompts, reflecting the coherence of storybooks through visual consistency among characters and scenes.Whereas current approaches exclusively concentrate on characters and neglect the visual consistency among contextually correlated scenes, resulting in independent character images without inter-image coherence.To tackle this issue, we propose a new presentation form for Story Visualization called Storyboard, inspired by film-making, as illustrated in Fig.1.Specifically, a Storyboard unfolds a story into visual representations scene by scene. Within each scene in Storyboard, characters engage in activities at the same location, necessitating both visually consistent scenes and characters.For Storyboard, we design a general framework coined as Make-A-Storyboard that applies disentangled control over the consistency of contextual correlated characters and scenes and then merge them to form harmonized images.Extensive experiments demonstrate 1) Effectiveness.the effectiveness of the method in story alignment, character consistency, and scene correlation; 2) Generalization. Our method could be seamlessly integrated into mainstream Image Customization methods, empowering them with the capability of story visualization.
翻訳日:2024-01-15 14:34:42 公開日:2023-12-06
# 高チャネルNIRSデータからのn-backタスク時のワーキングメモリ負荷のデコード

Decoding Working-Memory Load During n-Back Task Performance from High Channel NIRS Data ( http://arxiv.org/abs/2312.07546v1 )

ライセンス: Link先を確認
Christian Kothe (1), Grant Hanada (1), Sean Mullen (1), Tim Mullen (1) ((1) Intheon, La Jolla, United States)(参考訳) nirs(near-infrared spectroscopy)は、ウェアラブルフォームファクターで脳の血液酸素化の変化を計測し、研究室内外の研究に特有の応用を可能にする。 NIRSは、しばしば機械学習(ML)ベースの脳-コンピュータインターフェース(BCI)を使用して、メンタルワークロードなどの認知状態を計測できることが証明されている。 これまで、NIRSの研究は10から数百のチャネルを持つプローブに大きく依存していたが、最近は何千ものチャネルを持つ新しいタイプのウェアラブルNIRSデバイスが出現した。 このことはML分類に固有の課題をもたらし、NIRSは典型的には少数のトレーニングトライアルによって制限され、重大な過小評価問題を引き起こす。 これまでのところ、このような高解像度データが実際的なBCIでどのように活用されているか、また、最先端(SotA)やより良いパフォーマンスが達成できるかはよく分かっていない。 これらの課題に対処するために,従来のNIRS BCIでは使われていない組み合わせで,時空間正規化と他者からの伝達学習に依存する作業記憶負荷を分類するML戦略を提案する。 このアプローチは、エンドツーエンドの一般化線形モデルとして解釈することができ、チャネルレベルまたは皮質イメージングアプローチを用いた高い解釈可能性を実現する。 提案手法を用いることで,高解像度NIRSデータを用いてSotA復号化性能を実現することができることを示す。 また,n-backタスクを実行中に3198個のデュアルチャネルnirsデバイスを装着した43名の参加者のデータセット上でsomaアプローチを再現し,既存の手法がハイチャネル処理に支障をきたし,提案手法に匹敵することを示した。 我々のアプローチは、SotA BCIの実行可能なプラットフォームとして高チャネルNIRSデバイスを確立するのに役立ち、このタイプのヘッドセットを使って新しいアプリケーションを開きながら、高解像度のモデルイメージングと解釈を可能にします。

Near-infrared spectroscopy (NIRS) can measure neural activity through blood oxygenation changes in the brain in a wearable form factor, enabling unique applications for research in and outside the lab. NIRS has proven capable of measuring cognitive states such as mental workload, often using machine learning (ML) based brain-computer interfaces (BCIs). To date, NIRS research has largely relied on probes with under ten to several hundred channels, although recently a new class of wearable NIRS devices with thousands of channels has emerged. This poses unique challenges for ML classification, as NIRS is typically limited by few training trials which results in severely under-determined estimation problems. So far, it is not well understood how such high-resolution data is best leveraged in practical BCIs and whether state-of-the-art (SotA) or better performance can be achieved. To address these questions, we propose an ML strategy to classify working-memory load that relies on spatio-temporal regularization and transfer learning from other subjects in a combination that has not been used in previous NIRS BCIs. The approach can be interpreted as an end-to-end generalized linear model and allows for a high degree of interpretability using channel-level or cortical imaging approaches. We show that using the proposed methodology, it is possible to achieve SotA decoding performance with high-resolution NIRS data. We also replicated several SotA approaches on our dataset of 43 participants wearing a 3198 dual-channel NIRS device while performing the n-Back task and show that these existing methods struggle in the high-channel regime and are largely outperformed by the proposed method. Our approach helps establish high-channel NIRS devices as a viable platform for SotA BCI and opens new applications using this class of headset while also enabling high-resolution model imaging and interpretation.
翻訳日:2024-01-15 14:34:21 公開日:2023-12-06
# GutGPTの有用性を評価する:消化器出血リスクに対するAI臨床診断支援システムのシミュレーション的検討

Assessing the Usability of GutGPT: A Simulation Study of an AI Clinical Decision Support System for Gastrointestinal Bleeding Risk ( http://arxiv.org/abs/2312.10072v1 )

ライセンス: Link先を確認
Colleen Chan, Kisung You, Sunny Chung, Mauro Giuffr\`e, Theo Saarinen, Niroop Rajashekar, Yuan Pu, Yeo Eun Shin, Loren Laine, Ambrose Wong, Ren\'e Kizilcec, Jasjeet Sekhon, Dennis Shung(参考訳) ChatGPTのような大規模言語モデル(LLM)の応用は、会話インタフェースによる臨床的意思決定を支援する可能性がある。 しかし、人間とアルゴリズムの相互作用と臨床医の信頼の課題は理解されていない。 消化器感染症(GI)出血リスク予測と管理指導のためのLLMであるGutGPTは,救急医療医,内科医,医学生らと共に臨床シミュレーションシナリオに展開し,医師の受け入れとAI臨床決定支援システム(AI-CDSS)に対する信頼度を評価する。 GutGPTは、検証された機械学習モデルからのリスク予測と、抽出された臨床ガイドラインをクエリすることでエビデンスベースの回答を提供する。 参加者はGutGPTとインタラクティブダッシュボード、あるいはインタラクティブダッシュボードと検索エンジンにランダム化された。 測定された技術受容とコンテンツ熟達の前後における調査と教育評価。 予備実験では, gutgpt をダッシュボードや検索エンジンと比較した場合, 受入者に対する影響は異なっていたが, シミュレーション性能にもとづいて, コンテンツの熟達度が向上した。 全体として、GutGPTのようなLLMは、最適に実装され、対話型インターフェースと組み合わせることで、効果的なAI-CDSSを向上できることを示した。

Applications of large language models (LLMs) like ChatGPT have potential to enhance clinical decision support through conversational interfaces. However, challenges of human-algorithmic interaction and clinician trust are poorly understood. GutGPT, a LLM for gastrointestinal (GI) bleeding risk prediction and management guidance, was deployed in clinical simulation scenarios alongside the electronic health record (EHR) with emergency medicine physicians, internal medicine physicians, and medical students to evaluate its effect on physician acceptance and trust in AI clinical decision support systems (AI-CDSS). GutGPT provides risk predictions from a validated machine learning model and evidence-based answers by querying extracted clinical guidelines. Participants were randomized to GutGPT and an interactive dashboard, or the interactive dashboard and a search engine. Surveys and educational assessments taken before and after measured technology acceptance and content mastery. Preliminary results showed mixed effects on acceptance after using GutGPT compared to the dashboard or search engine but appeared to improve content mastery based on simulation performance. Overall, this study demonstrates LLMs like GutGPT could enhance effective AI-CDSS if implemented optimally and paired with interactive interfaces.
翻訳日:2024-01-15 13:47:39 公開日:2023-12-06
# Gaussian-SLAM:Gaussian Splattingを用いたフォトリアリスティックDense SLAM

Gaussian-SLAM: Photo-realistic Dense SLAM with Gaussian Splatting ( http://arxiv.org/abs/2312.10070v1 )

ライセンス: Link先を確認
Vladimir Yugay, Yue Li, Theo Gevers, Martin R. Oswald(参考訳) 本稿では,ガウススプレートをシーン表現として用いた高密度同時局所化マッピング(SLAM)手法を提案する。 新しい表現は、実世界のシーンと合成シーンのインタラクティブな再構築と写真リアルレンダリングを可能にする。 本稿では,マルチビューオフラインシナリオから逐次単眼型rgbd入力データ設定へ拡張するための,ガウス型スプレートのシードと最適化のための新しい戦略を提案する。 さらに,ガウス平面を拡張して幾何学を符号化し,このシーン表現に対する追跡実験を行う。 提案手法は,実世界および合成データセットのレンダリング品質を再現性能と実行性能の両面で向上させる。

We present a new dense simultaneous localization and mapping (SLAM) method that uses Gaussian splats as a scene representation. The new representation enables interactive-time reconstruction and photo-realistic rendering of real-world and synthetic scenes. We propose novel strategies for seeding and optimizing Gaussian splats to extend their use from multiview offline scenarios to sequential monocular RGBD input data setups. In addition, we extend Gaussian splats to encode geometry and experiment with tracking against this scene representation. Our method achieves state-of-the-art rendering quality on both real-world and synthetic datasets while being competitive in reconstruction performance and runtime.
翻訳日:2024-01-15 13:47:15 公開日:2023-12-06
# エージェント計画における補助損失を考慮した表現の理解

Understanding Representations Pretrained with Auxiliary Losses for Embodied Agent Planning ( http://arxiv.org/abs/2312.10069v1 )

ライセンス: Link先を確認
Yuxuan Li, Luca Weihs(参考訳) 大規模視覚モデルの事前表現は、下流の具体的政策学習の性能を高める。 現実的な環境下での具体的計画を支援するために,これらの汎用的な視覚表現に基づいて,探索軌道上での自己指導型事前訓練が構築できるかどうかを考察する。 エージェントの視覚圧縮モジュールと状態信念表現を各目的に事前学習し,クリップを代表的視覚バックボーンとして使用することにより,具体化aiにおける4つの補助的損失,後視に基づく損失,および標準模倣学習損失を評価した。 学習した表現は2つの目標指向タスクの下流マルチステップ評価のために凍結される。 驚くべきことに、これらの探索軌道上の模倣学習は、下流の作業と異なる探索軌道であっても、他の補助的損失よりも優れていた。 これは、探索の模倣が、強力な計画表現を構築するのに'すべて必要'である可能性を示唆している。 さらに,下流計画能力の向上に資する簡易な改良によって,一般的な補助的損失の恩恵が得られている。

Pretrained representations from large-scale vision models have boosted the performance of downstream embodied policy learning. We look to understand whether additional self-supervised pretraining on exploration trajectories can build on these general-purpose visual representations to better support embodied planning in realistic environments. We evaluated four common auxiliary losses in embodied AI, two hindsight-based losses, and a standard imitation learning loss, by pretraining the agent's visual compression module and state belief representations with each objective and using CLIP as a representative visual backbone. The learned representations are then frozen for downstream multi-step evaluation on two goal-directed tasks. Surprisingly, we find that imitation learning on these exploration trajectories out-performs all other auxiliary losses even despite the exploration trajectories being dissimilar from the downstream tasks. This suggests that imitation of exploration may be ''all you need'' for building powerful planning representations. Additionally, we find that popular auxiliary losses can benefit from simple modifications to improve their support for downstream planning ability.
翻訳日:2024-01-15 13:47:04 公開日:2023-12-06
# 産業予測と健康管理のための地域知識ベースによるchatgptライクな大規模言語モデルの実現

Empowering ChatGPT-Like Large-Scale Language Models with Local Knowledge Base for Industrial Prognostics and Health Management ( http://arxiv.org/abs/2312.14945v1 )

ライセンス: Link先を確認
Huan Wang, Yan-Fu Li, and Min Xie(参考訳) プログノシクスと健康管理(PHM)は、産業システムの健康状態の予測、診断、管理に重点を置いて、産業の運営と維持に不可欠である。 ChatGPTライクな大規模言語モデル(LLM)の出現は、AI分野における新たなイノベーションのラウンドをリードし始めている。 様々な分野における知性のレベルを広く推進してきた。 したがって、産業用PHMの応用パラダイムをさらに変え、PHMの知的化を促進することも期待されている。 ChatGPTライクなLLMには豊富な知識と強力な言語理解と生成能力があるが、ドメイン固有の専門知識が欠如しており、PHMアプリケーションでの実践性を著しく制限している。 そこで本研究では, 産業用PHMの局所知識ベース(LKB)によって付与されるChatGPT-like LLMについて検討した。 また,LKB作成,LKBベクトル化,プロンプトエンジニアリングなど,LKBとLLMを組み合わせる手法と手順を紹介する。 実例を実験的に分析したところ、LKBとChatGPTライクなLLMを組み合わせることで、その性能が大幅に向上し、ChatGPTライクなLLMをより正確で関連性があり、より洞察に富んだ情報を提供できることがわかった。 これにより、産業用PHMにおけるChatGPT-like LLMの開発を促進し、その効率性と品質を向上させることができる。

Prognostics and health management (PHM) is essential for industrial operation and maintenance, focusing on predicting, diagnosing, and managing the health status of industrial systems. The emergence of the ChatGPT-Like large-scale language model (LLM) has begun to lead a new round of innovation in the AI field. It has extensively promoted the level of intelligence in various fields. Therefore, it is also expected further to change the application paradigm in industrial PHM and promote PHM to become intelligent. Although ChatGPT-Like LLMs have rich knowledge reserves and powerful language understanding and generation capabilities, they lack domain-specific expertise, significantly limiting their practicability in PHM applications. To this end, this study explores the ChatGPT-Like LLM empowered by the local knowledge base (LKB) in industrial PHM to solve the above limitations. In addition, we introduce the method and steps of combining the LKB with LLMs, including LKB preparation, LKB vectorization, prompt engineering, etc. Experimental analysis of real cases shows that combining the LKB with ChatGPT-Like LLM can significantly improve its performance and make ChatGPT-Like LLMs more accurate, relevant, and able to provide more insightful information. This can promote the development of ChatGPT-Like LLMs in industrial PHM and promote their efficiency and quality.
翻訳日:2024-01-15 13:02:02 公開日:2023-12-06
# MixUp-MIL:全スライド画像分類のための線形・多重線形補間に基づくデータ拡張に関する研究

MixUp-MIL: A Study on Linear & Multilinear Interpolation-Based Data Augmentation for Whole Slide Image Classification ( http://arxiv.org/abs/2311.03052v2 )

ライセンス: Link先を確認
Michael Gadermayr and Lukas Koller and Maximilian Tschuchnig and Lea Maria Stangassinger and Christina Kreutzer and Sebastien Couillard-Despres and Gertie Janneke Oostingh and Anton Hittmair(参考訳) ピクセルレベルのアノテーションがない場合、デジタル全スライド画像の分類には、通常、複数のインスタンス学習方法が適用される。 汎用的な適用性のため、これらの手法は現在研究コミュニティにおいて非常に高い関心を集めているが、この文脈におけるデータ拡張の問題はほとんど調査されていない。 本稿では,データ拡張手法である特徴ベクトル間の線形および多重線形補間について検討し,一般化性能分類ネットワークの改善と複数インスタンス学習の可能性を示した。 しかし、実験は2つの比較的小さなデータセットと1つの特定の特徴抽出アプローチで行われており、データセットへの強い依存が特定されている。 ここでは、10の異なるデータセット構成、2つの異なる特徴抽出アプローチ(教師付きおよび自己教師付き)、染色正規化、2つの複数のインスタンス学習アーキテクチャを組み込んだ大規模な研究を行う。 その結果, 方法の効果は極めて高い変動率を示した。 我々は暗闇に光をもたらすいくつかの興味深い側面を特定し、新しい研究分野を同定した。

For classifying digital whole slide images in the absence of pixel level annotation, typically multiple instance learning methods are applied. Due to the generic applicability, such methods are currently of very high interest in the research community, however, the issue of data augmentation in this context is rarely explored. Here we investigate linear and multilinear interpolation between feature vectors, a data augmentation technique, which proved to be capable of improving the generalization performance classification networks and also for multiple instance learning. Experiments, however, have been performed on only two rather small data sets and one specific feature extraction approach so far and a strong dependence on the data set has been identified. Here we conduct a large study incorporating 10 different data set configurations, two different feature extraction approaches (supervised and self-supervised), stain normalization and two multiple instance learning architectures. The results showed an extraordinarily high variability in the effect of the method. We identified several interesting aspects to bring light into the darkness and identified novel promising fields of research.
翻訳日:2023-12-11 18:03:33 公開日:2023-12-06
# haldane bundles: トーラス上の線束のチャーン数を予測するためのデータセット

Haldane Bundles: A Dataset for Learning to Predict the Chern Number of Line Bundles on the Torus ( http://arxiv.org/abs/2312.04600v1 )

ライセンス: Link先を確認
Cody Tipton, Elizabeth Coda, Davis Brown, Alyson Bittner, Jung Lee, Grayson Jorgenson, Tegan Emerson, Henry Kvinge(参考訳) ベクトルバンドルに付随する抽象的位相不変量である特徴クラスは、驚くべき実世界の結果を持つ現代物理学において重要な概念となっている。 代表的な例として、バルクの絶縁体であるが表面の伝導体であるトポロジカル絶縁体の驚くべき性質は、電子バンド構造に付随する特定の特性クラスであるチャーンクラスによって完全に特徴づけられる。 次世代コンピューティングの重要性と第一原理アプローチを用いた計算の課題を考えると,物質システムに関連する特徴クラスを予測するための機械学習アプローチを開発する必要がある。 このプログラムを支援するために、合成合成された2ドルのトーラス上の複素ラインバンドルからなる {\emph{Haldane bundle dataset}} を導入する。 このデータセットは、騒がしく、測定の少ない実際のデータセットほど難しくはないが、(我々が示すように)既成のアーキテクチャでは依然として困難であり、リッチなトポロジーと幾何学的優先クラスを基礎とするアーキテクチャのテスト基盤となると想定している。

Characteristic classes, which are abstract topological invariants associated with vector bundles, have become an important notion in modern physics with surprising real-world consequences. As a representative example, the incredible properties of topological insulators, which are insulators in their bulk but conductors on their surface, can be completely characterized by a specific characteristic class associated with their electronic band structure, the first Chern class. Given their importance to next generation computing and the computational challenge of calculating them using first-principles approaches, there is a need to develop machine learning approaches to predict the characteristic classes associated with a material system. To aid in this program we introduce the {\emph{Haldane bundle dataset}}, which consists of synthetically generated complex line bundles on the $2$-torus. We envision this dataset, which is not as challenging as noisy and sparsely measured real-world datasets but (as we show) still difficult for off-the-shelf architectures, to be a testing ground for architectures that incorporate the rich topological and geometric priors underlying characteristic classes.
翻訳日:2023-12-11 17:42:45 公開日:2023-12-06
# trustfed: 悪意のある攻撃耐性を持つ信頼性の高い連合学習フレームワーク

TrustFed: A Reliable Federated Learning Framework with Malicious-Attack Resistance ( http://arxiv.org/abs/2312.04597v1 )

ライセンス: Link先を確認
Hangn Su, Jianhong Zhou, Xianhua Niu, Gang Feng(参考訳) 6g研究の鍵となる技術として、フェデレーション・ラーニング(fl)は個々のデータのプライバシーを確保しつつ、複数のクライアント間の協調学習を可能にする。 しかし、参加するクライアントの悪意ある攻撃者は、トレーニングデータやトレーニングモデルに意図的に干渉し、システムの正確性と信頼性を損なうことができる。 本稿では,学習プロセスの信頼性と安全性の向上を目的とした階層型監査ベースfl(hiaudit-fl)フレームワークを提案する。 階層監査プロセスは、モデル監査とパラメータ監査という2つの段階を含む。 モデル監査段階では、疑わしい顧客を特定するために低オーバーヘッド監査手法が用いられる。 その後、パラメータ監査の段階では、疑わしいクライアント間で高い精度で全ての悪意のあるクライアントを検出するためにリソース消費法が用いられる。 具体的には、複雑で不確実な環境における意思決定の堅牢性と説明責任を高めることを目的として、マルコフ決定プロセス(POMDP)をモデル化した複数のラウンドに対する部分的クライアント間でモデル監査手法を実行する。 一方で,複数ラウンドの監査を通じて悪意のある攻撃者を識別する問題を,積極的な逐次仮説検証問題として定式化し,拡散モデルに基づくai対応監査選択戦略(ass)を活用して,各ラウンドの監査対象クライアントを決定する。 効率的かつ効果的な監査選択を実現するために,深層強化学習(drl)フレームワークにasを組み込むことにより,drl-assアルゴリズムを設計する。 シミュレーションの結果、HiAudit-FLは、システムオーバーヘッドを小さくして、潜在的悪意のあるユーザを効果的に識別し、対処できることが示されている。

As a key technology in 6G research, federated learning (FL) enables collaborative learning among multiple clients while ensuring individual data privacy. However, malicious attackers among the participating clients can intentionally tamper with the training data or the trained model, compromising the accuracy and trustworthiness of the system. To address this issue, in this paper, we propose a hierarchical audit-based FL (HiAudit-FL) framework, with the aim to enhance the reliability and security of the learning process. The hierarchical audit process includes two stages, namely model-audit and parameter-audit. In the model-audit stage, a low-overhead audit method is employed to identify suspicious clients. Subsequently, in the parameter-audit stage, a resource-consuming method is used to detect all malicious clients with higher accuracy among the suspicious ones. Specifically, we execute the model audit method among partial clients for multiple rounds, which is modeled as a partial observation Markov decision process (POMDP) with the aim to enhance the robustness and accountability of the decision-making in complex and uncertain environments. Meanwhile, we formulate the problem of identifying malicious attackers through a multi-round audit as an active sequential hypothesis testing problem and leverage a diffusion model-based AI-Enabled audit selection strategy (ASS) to decide which clients should be audited in each round. To accomplish efficient and effective audit selection, we design a DRL-ASS algorithm by incorporating the ASS in a deep reinforcement learning (DRL) framework. Our simulation results demonstrate that HiAudit-FL can effectively identify and handle potential malicious users accurately, with small system overhead.
翻訳日:2023-12-11 17:42:22 公開日:2023-12-06
# 暗号化された悪意交通の特徴解析

Feature Analysis of Encrypted Malicious Traffic ( http://arxiv.org/abs/2312.04596v1 )

ライセンス: Link先を確認
Anish Singh Shekhawat and Fabio Di Troia and Mark Stamp(参考訳) 近年,自己プロパゲーションや通信に暗号化HTTPトラフィックを使用するマルウェア攻撃の増加が著しく進んでいる。 アンチウイルスソフトウェアやファイアウォールは一般的に暗号化キーにアクセスできないため、悪意のある暗号化データの直接検出は成功しない。 しかし、以前の研究は、基盤となるデータが暗号化されている場合でも、トラフィック分析が悪意のある意図を示すことができることを示した。 本稿では,悪質な暗号化されたHTTPトラフィックと良質な暗号化されたトラフィックを区別する問題に対して,3つの機械学習手法を適用する。 そして、特徴分析の問題をある程度詳細に検討する。 それまでの作業はしばしば、この問題領域で最も有用で有益な機能を決定するために、人間の専門知識に依存してきた。 このような特徴関連情報を機械学習モデルから直接取得できることを実証する。 このような機械学習に基づく特徴分析のアプローチは、より信頼性が高く、例えば、機能間の比較的直観的な相互作用を明らかにすることができるため、望ましいと主張する。

In recent years there has been a dramatic increase in the number of malware attacks that use encrypted HTTP traffic for self-propagation or communication. Antivirus software and firewalls typically will not have access to encryption keys, and therefore direct detection of malicious encrypted data is unlikely to succeed. However, previous work has shown that traffic analysis can provide indications of malicious intent, even in cases where the underlying data remains encrypted. In this paper, we apply three machine learning techniques to the problem of distinguishing malicious encrypted HTTP traffic from benign encrypted traffic and obtain results comparable to previous work. We then consider the problem of feature analysis in some detail. Previous work has often relied on human expertise to determine the most useful and informative features in this problem domain. We demonstrate that such feature-related information can be obtained directly from machine learning models themselves. We argue that such a machine learning based approach to feature analysis is preferable, as it is more reliable, and we can, for example, uncover relatively unintuitive interactions between features.
翻訳日:2023-12-11 17:41:54 公開日:2023-12-06
# 心臓病リスク検出のための分類アルゴリズムの精度評価

Evaluating The Accuracy of Classification Algorithms for Detecting Heart Disease Risk ( http://arxiv.org/abs/2312.04595v1 )

ライセンス: Link先を確認
Alhaam Alariyibi, Mohamed El-Jarai and Abdelsalam Maatuk(参考訳) 医療産業は、疾患検出の予測を複雑なプロセスにする膨大な量の複雑な臨床データを生成する。 医療情報学では、効果的かつ効率的な意思決定が重要である。 データマイニング(dm)技術は主に、医療データセット内の疾患を診断し予測するために、隠れたパターンと興味深い知識を識別し抽出するために使用される。 現在、心臓病は医療分野で最も重要な問題の一つと考えられている。 そのため、早期診断は死亡率の低下につながる。 DM技術は心臓疾患の予測と診断に非常に効果的であることが証明されている。 本研究は、心臓病の医学的データセット(j48、ランダムフォレスト、na\"ive bayes)を用いた分類アルゴリズムを用いて、その性能の正確性を明らかにする。 また,特徴選択手法の効果についても検討した。 Waikato Environment for Knowledge Analysis (Weka) ソフトウェア(バージョン3.8.6)を用いて最適な技術を決定するための比較分析研究を行った。 アルゴリズムの性能は,精度,感度,特異性などの標準指標を用いて評価した。 心臓疾患診断における分類法の重要性が注目されている。 また,データセット内の属性数も減少し,予測精度が大幅に向上した。 その結果、心臓病を予測する最良のアルゴリズムは、99.24%の精度でランダムフォレストであった。

The healthcare industry generates enormous amounts of complex clinical data that make the prediction of disease detection a complicated process. In medical informatics, making effective and efficient decisions is very important. Data Mining (DM) techniques are mainly used to identify and extract hidden patterns and interesting knowledge to diagnose and predict diseases in medical datasets. Nowadays, heart disease is considered one of the most important problems in the healthcare field. Therefore, early diagnosis leads to a reduction in deaths. DM techniques have proven highly effective for predicting and diagnosing heart diseases. This work utilizes the classification algorithms with a medical dataset of heart disease; namely, J48, Random Forest, and Na\"ive Bayes to discover the accuracy of their performance. We also examine the impact of the feature selection method. A comparative and analysis study was performed to determine the best technique using Waikato Environment for Knowledge Analysis (Weka) software, version 3.8.6. The performance of the utilized algorithms was evaluated using standard metrics such as accuracy, sensitivity and specificity. The importance of using classification techniques for heart disease diagnosis has been highlighted. We also reduced the number of attributes in the dataset, which showed a significant improvement in prediction accuracy. The results indicate that the best algorithm for predicting heart disease was Random Forest with an accuracy of 99.24%.
翻訳日:2023-12-11 17:41:37 公開日:2023-12-06
# FedGeo: フェデレーション学習によるプライバシ保護による次の位置予測

FedGeo: Privacy-Preserving User Next Location Prediction with Federated Learning ( http://arxiv.org/abs/2312.04594v1 )

ライセンス: Link先を確認
Chung Park, Taekyoon Choi, Taesan Kim, Mincheol Cho, Junui Hong, Minsung Choi, Jaegul Choo(参考訳) ユーザの次の位置予測(unlp)タスクは、ユーザが与えられた軌道に移動する次の場所を予測するもので、幅広いアプリケーションにとって必須のタスクである。 単一サーバにおける大規模トラジェクトリデータセットを用いた従来の研究は、UNLPタスクにおいて顕著な性能を達成した。 しかし、現実世界のアプリケーションでは、プライバシーに関する法的および倫理的な問題が提起され、人間の軌道データセットを他のサーバーと共有することを禁じられている。 これに対してフェデレーション学習(fl)は、複数のクライアント(つまりユーザ)を共同でトレーニングし、それらを集約することで、個人のプライバシ問題に対処するために出現した。 以前の研究ではUNLPにFLを用いたが、クライアントのモビリティの不均一性のため信頼性の高い性能を達成できなかった。 この問題を解決するために,UNLPに特化したFLフレームワークであるFedGeo(Federated Learning for Geographic Information)を提案する。 まず、地域間の空間的相関は、FLにおける全軌跡の異種部分しか持たない各クライアントで部分的に訓練されるので、グローバルな地理的隣接情報をローカルクライアントモデルに組み込む。 また,ヘテロジニアスデータを用いた学習において,クライアントモデル間の差異に起因するクライアントドリフト問題を解決するために,クライアントモデル間のギャップを最小限に抑える新しい集約手法を提案する。 最後に、比較的多様な場所を訪れるクライアントに注目して、flプロセスから非常に異質なデータを持つクライアントを確率的に排除する。 我々は、UNLPタスクにおけるモデル性能の他のFL法よりもFedGeoの方が優れていることを示す。 また、顧客の携帯電話とFLエージェントシステムを用いて、実世界のアプリケーションでモデルを検証した。

A User Next Location Prediction (UNLP) task, which predicts the next location that a user will move to given his/her trajectory, is an indispensable task for a wide range of applications. Previous studies using large-scale trajectory datasets in a single server have achieved remarkable performance in UNLP task. However, in real-world applications, legal and ethical issues have been raised regarding privacy concerns leading to restrictions against sharing human trajectory datasets to any other server. In response, Federated Learning (FL) has emerged to address the personal privacy issue by collaboratively training multiple clients (i.e., users) and then aggregating them. While previous studies employed FL for UNLP, they are still unable to achieve reliable performance because of the heterogeneity of clients' mobility. To tackle this problem, we propose the Federated Learning for Geographic Information (FedGeo), a FL framework specialized for UNLP, which alleviates the heterogeneity of clients' mobility and guarantees personal privacy protection. Firstly, we incorporate prior global geographic adjacency information to the local client model, since the spatial correlation between locations is trained partially in each client who has only a heterogeneous subset of the overall trajectories in FL. We also introduce a novel aggregation method that minimizes the gap between client models to solve the problem of client drift caused by differences between client models when learning with their heterogeneous data. Lastly, we probabilistically exclude clients with extremely heterogeneous data from the FL process by focusing on clients who visit relatively diverse locations. We show that FedGeo is superior to other FL methods for model performance in UNLP task. We also validated our model in a real-world application using our own customers' mobile phones and the FL agent system.
翻訳日:2023-12-11 17:41:15 公開日:2023-12-06
# 確率ゲームにおける勾配遊び:定常点、収束、サンプル複雑性

Gradient play in stochastic games: stationary points, convergence, and sample complexity ( http://arxiv.org/abs/2106.00198v5 )

ライセンス: Link先を確認
Runyu Zhang, Zhaolin Ren, Na Li(参考訳) エージェント間で共有される現在の状態情報に基づいて,各エージェントが独立して決定を行うことで,各エージェントが自己の割引報酬を最大化しようとする確率ゲーム(SG)の勾配プレイアルゴリズムの性能について検討する。 ポリシーは、ある状態において特定のアクションを選択する確率によって直接パラメータ化される。 nash平衡(nes)と1次定常ポリシーはこの設定において等価であり、厳格なnes周辺の局所収束率を与える。 さらに,マルコフポテンシャルゲームと呼ばれるSGのサブクラスに対して,サンプルベース強化学習アルゴリズムを設計し,正確な勾配プレイとサンプルベース学習アルゴリズムの両方に対して,漸近的でないグローバル収束率解析を行う。 その結果,エージェント数で指数関数的にではなく,$\epsilon$-neに達するイテレーションの数は線形にスケールすることがわかった。 局所幾何と局所安定性も考慮され、厳密な nes は全ポテンシャル関数の局所極大であり、完全混合 nes は鞍点であることが証明される。

We study the performance of the gradient play algorithm for stochastic games (SGs), where each agent tries to maximize its own total discounted reward by making decisions independently based on current state information which is shared between agents. Policies are directly parameterized by the probability of choosing a certain action at a given state. We show that Nash equilibria (NEs) and first-order stationary policies are equivalent in this setting, and give a local convergence rate around strict NEs. Further, for a subclass of SGs called Markov potential games (which includes the setting with identical rewards as an important special case), we design a sample-based reinforcement learning algorithm and give a non-asymptotic global convergence rate analysis for both exact gradient play and our sample-based learning algorithm. Our result shows that the number of iterations to reach an $\epsilon$-NE scales linearly, instead of exponentially, with the number of agents. Local geometry and local stability are also considered, where we prove that strict NEs are local maxima of the total potential function and fully-mixed NEs are saddle points.
翻訳日:2023-12-08 21:35:44 公開日:2023-12-06
# 身体的会話エージェントにおけるマルチモーダル感情条件付けの重要性と影響一貫性

The Importance of Multimodal Emotion Conditioning and Affect Consistency for Embodied Conversational Agents ( http://arxiv.org/abs/2309.15311v2 )

ライセンス: Link先を確認
Che-Jui Chang, Samuel S. Sohn, Sen Zhang, Rajath Jayashankar, Muhammad Usman, Mubbasir Kapadia(参考訳) 仮想エージェントの感情知覚に関するこれまでの研究は、人間との相互作用を通じて感情伝達に仮想文字を用いることの有効性を示した。 しかし,表現行動を伴う自律的体現型会話エージェントの作成には2つの大きな課題がある。 最初の課題は、実際の人間の行動と同じくらい表現力のあるモダリティごとに会話の振る舞いを合成することの難しさである。 2つめの課題は、影響は独立してモデル化されるため、すべてのモダリティにわたって一貫した感情を持つマルチモーダルな応答を生成するのが困難である。 本研究では,一貫した運転影響を条件としたマルチモーダル行動を生成することにより,感情の知覚を高めることを目的とした,ACTOR(Affect-Consistent mulTimodal Behavior Generation)の概念的枠組みを提案する。 我々は,199名の被験者を対象に,運転行動に対する一貫性と一貫性のないマルチモーダル行動から知覚される影響を平均者が判断する方法についてのユーザ調査を行った。 その結果、すべてのモデル条件において、我々の感情整合フレームワークは、運転影響の知覚において最も高いlikertスコアを受信することが示された。 我々の統計的分析は、モダリティが不整合であることは運転への影響の知覚を著しく減少させることを示している。 また、一貫した影響を条件としたマルチモーダルな行動は、矛盾した影響を持つ行動よりも表現力が高いことも観察した。 そこで我々は,マルチモーダルな感情条件付けと感情の調和が,感情の知覚を高める上で重要であると結論づけた。

Previous studies regarding the perception of emotions for embodied virtual agents have shown the effectiveness of using virtual characters in conveying emotions through interactions with humans. However, creating an autonomous embodied conversational agent with expressive behaviors presents two major challenges. The first challenge is the difficulty of synthesizing the conversational behaviors for each modality that are as expressive as real human behaviors. The second challenge is that the affects are modeled independently, which makes it difficult to generate multimodal responses with consistent emotions across all modalities. In this work, we propose a conceptual framework, ACTOR (Affect-Consistent mulTimodal behaviOR generation), that aims to increase the perception of affects by generating multimodal behaviors conditioned on a consistent driving affect. We have conducted a user study with 199 participants to assess how the average person judges the affects perceived from multimodal behaviors that are consistent and inconsistent with respect to a driving affect. The result shows that among all model conditions, our affect-consistent framework receives the highest Likert scores for the perception of driving affects. Our statistical analysis suggests that making a modality affect-inconsistent significantly decreases the perception of driving affects. We also observe that multimodal behaviors conditioned on consistent affects are more expressive compared to behaviors with inconsistent affects. Therefore, we conclude that multimodal emotion conditioning and affect consistency are vital to enhancing the perception of affects for embodied conversational agents.
翻訳日:2023-12-08 21:33:01 公開日:2023-12-06
# テストタイムアタッカーを用いた複数クラス分類における最適0-1損失のキャラクタリゼーション

Characterizing the Optimal 0-1 Loss for Multi-class Classification with a Test-time Attacker ( http://arxiv.org/abs/2302.10722v2 )

ライセンス: Link先を確認
Sihui Dai, Wenxin Ding, Arjun Nitin Bhagoji, Daniel Cullina, Ben Y. Zhao, Haitao Zheng, Prateek Mittal(参考訳) 敵の例に頑健な分類器を見つけることは、安全な配置に不可欠である。 与えられたデータ分布に対する脅威モデルの下で最良の分類器のロバスト性を決定し、最先端の訓練手法によって達成された分類器と比較することは重要な診断ツールである。 本稿では,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃者の存在下での損失に対する情報理論的下位境界を求める。 データと逆の制約からコンフリクトハイパーグラフを構成することで生じる、最適な0-1損失を見つけるための一般的なフレームワークを提供する。 さらに,本格的ハイパーグラフ構成よりも最適損失の範囲をより効率的に決定する攻撃者分類ゲームの他の変種も定義する。 本評価は,ベンチマークデータセット上でのマルチクラス設定における分類器の最適ロバスト性に対するギャップの分析を初めて行った結果である。

Finding classifiers robust to adversarial examples is critical for their safe deployment. Determining the robustness of the best possible classifier under a given threat model for a given data distribution and comparing it to that achieved by state-of-the-art training methods is thus an important diagnostic tool. In this paper, we find achievable information-theoretic lower bounds on loss in the presence of a test-time attacker for multi-class classifiers on any discrete dataset. We provide a general framework for finding the optimal 0-1 loss that revolves around the construction of a conflict hypergraph from the data and adversarial constraints. We further define other variants of the attacker-classifier game that determine the range of the optimal loss more efficiently than the full-fledged hypergraph construction. Our evaluation shows, for the first time, an analysis of the gap to optimal robustness for classifiers in the multi-class setting on benchmark datasets.
翻訳日:2023-12-08 21:29:57 公開日:2023-12-06
# 量子コンピュータにおける衝突子の実現 - ビッグデータのための量子機械学習の課題に対処する

Fitting a Collider in a Quantum Computer: Tackling the Challenges of Quantum Machine Learning for Big Datasets ( http://arxiv.org/abs/2211.03233v4 )

ライセンス: Link先を確認
Miguel Ca\c{c}ador Peixoto, Nuno Filipe Castro, Miguel Crispim Rom\~ao, Maria Gabriela Jord\~ao Oliveira, In\^es Ochoa(参考訳) 現在の量子システムは、高エネルギー物理学の典型である高次元の大規模データセットの処理に重大な制限がある。 本稿では,この課題に対処するため,特徴およびデータプロトタイプの選択手法について検討した。 グリッド検索を行い、量子機械学習モデルをトレーニングし、データセットの縮小と完全の両方でトレーニングされた古典的な浅層機械学習手法に対してベンチマークを行った。 量子アルゴリズムの性能は、大規模なデータセットを使用しても、古典的なアルゴリズムに匹敵することがわかった。 連続した後方選択と主成分分析技術が特徴の選択に使われ、前者は特定のケースでより良い量子機械学習モデルを生成できるが、より不安定である。 さらに、これらの変数の変動性は、高エネルギー物理学の文脈における量子機械学習応用のための主成分分析変換データの適合性を強調し、離散変数の使用によって引き起こされることを示す。

Current quantum systems have significant limitations affecting the processing of large datasets with high dimensionality, typical of high energy physics. In the present paper, feature and data prototype selection techniques were studied to tackle this challenge. A grid search was performed and quantum machine learning models were trained and benchmarked against classical shallow machine learning methods, trained both in the reduced and the complete datasets. The performance of the quantum algorithms was found to be comparable to the classical ones, even when using large datasets. Sequential Backward Selection and Principal Component Analysis techniques were used for feature's selection and while the former can produce the better quantum machine learning models in specific cases, it is more unstable. Additionally, we show that such variability in the results is caused by the use of discrete variables, highlighting the suitability of Principal Component analysis transformed data for quantum machine learning applications in the high energy physics context.
翻訳日:2023-12-08 21:28:42 公開日:2023-12-06
# 実時間畳み込み型マスター方程式

Practical Fourth-Order Time-Convolutionless Master Equation ( http://arxiv.org/abs/2310.15089v3 )

ライセンス: Link先を確認
Elyana Crowder, Lance Lampert, Grihith Manchanda, Brian Shoffeitt, Srikar Gadamsetty, Yiting Pei, Shantanu Chaudhary, Dragomir Davidovi\'c(参考訳) 過去20年間の量子科学の分野における大きな進歩にもかかわらず、長期スケールでの量子力学を正確にかつ実際に描写する量子マスター方程式の必要性は残っている。 本研究では,完全四階時間畳み込みなしマスター方程式の計算プロセスを最適化することにより,このニーズを効果的に達成した。 このマスター方程式の初期のバージョンでは、3次元積分を計算する必要があり、その使い勝手は限られていた。 マスター方程式は、緩和と軽蔑が同時に起こりうるという事実を考慮に入れている。 これにより、システムのスペクトル密度と周波数の微分に比例する項が生成される。 これらの緩和強調ハイブリッドは二階マスター方程式を欠き、ゼロ温度での赤外発散ダイナミクスをもたらす。

Despite significant advancements in the field of quantum sciences over the past two decades, there remains a need for a quantum master equation that precisely and practically depicts quantum dynamics over long-time scales. In this study, we have effectively fulfilled this need by optimizing the computation process of the exact fourth-order time-convolutionless master equation. The earlier versions of this master equation required a three-dimensional integral to be computed, which limited their widespread usability. The master equation takes into account the fact that relaxation and dephasing can happen at the same time. This creates terms that are proportional to the derivative of the system's spectral density with frequency. These relaxation-dephasing hybrids are absent from second-order master equations and can lead to infrared divergent dynamics at zero temperature.
翻訳日:2023-12-08 21:17:38 公開日:2023-12-06
# タンパク質$\unicode{x2013}$タンパク質相互作用モデリングのための深層学習法のエコシステム形成

Growing ecosystem of deep learning methods for modeling protein$\unicode{x2013}$protein interactions ( http://arxiv.org/abs/2310.06725v2 )

ライセンス: Link先を確認
Julia R. Rogers, Gerg\H{o} Nikol\'enyi, Mohammed AlQuraishi(参考訳) 多くの細胞機能はタンパク質$\unicode{x2013}$タンパク質相互作用に依存している。 それらを包括的に特徴付ける努力は、プロテオーム内で使用される分子認識機構の多様性によって、依然として挑戦されている。 深層学習は、実験データとタンパク質相互作用に関する基本的な生物物理学的知識の両方を活用し、この問題に取り組むための有望なアプローチとして登場した。 本稿では,タンパク質相互作用をモデル化する深層学習手法のエコシステムを概観し,生物物理学的に変化したモデルとそのトレードオフの多様性について述べる。 本稿では,タンパク質相互作用や相互作用部位の予測に係わる複雑な特徴を表現学習で捉えること,タンパク質構造を推論し複雑な構造を予測する幾何学的深層学習,デノボタンパク質集合を設計するための生成モデルについて論じる。 また、際立った課題のいくつかを概説し、新しい方向性を約束します。 新たな相互作用を発見し、その物理的メカニズムを解明し、エンジニアのバインダーが深層学習を用いて機能を調節し、タンパク質の相互作用が複雑な細胞行動をどのようにオーケストレーションするかを解明する機会がある。

Numerous cellular functions rely on protein$\unicode{x2013}$protein interactions. Efforts to comprehensively characterize them remain challenged however by the diversity of molecular recognition mechanisms employed within the proteome. Deep learning has emerged as a promising approach for tackling this problem by exploiting both experimental data and basic biophysical knowledge about protein interactions. Here, we review the growing ecosystem of deep learning methods for modeling protein interactions, highlighting the diversity of these biophysically-informed models and their respective trade-offs. We discuss recent successes in using representation learning to capture complex features pertinent to predicting protein interactions and interaction sites, geometric deep learning to reason over protein structures and predict complex structures, and generative modeling to design de novo protein assemblies. We also outline some of the outstanding challenges and promising new directions. Opportunities abound to discover novel interactions, elucidate their physical mechanisms, and engineer binders to modulate their functions using deep learning and, ultimately, unravel how protein interactions orchestrate complex cellular behaviors.
翻訳日:2023-12-08 21:17:24 公開日:2023-12-06
# ACE: 気候予測のための高速で熟練した地球大気モデル

ACE: A fast, skillful learned global atmospheric model for climate prediction ( http://arxiv.org/abs/2310.02074v2 )

ライセンス: Link先を確認
Oliver Watt-Meyer, Gideon Dresdner, Jeremy McGibbon, Spencer K. Clark, Brian Henn, James Duncan, Noah D. Brenowitz, Karthik Kashinath, Michael S. Pritchard, Boris Bonev, Matthew E. Peters, Christopher S. Bretherton(参考訳) 既存のMLベースの大気モデルは、長期的な安定性と物理的一貫性を必要とする気候予測には適していない。 我々は,既存の100km大域大気モデルに対して,200Mパラメータの自己回帰機械学習エミュレータであるACE(AI2 Climate Emulator)を提案する。 ACEの定式化は、質量や水分の保存のような物理法則の評価を可能にする。 エミュレータは100年間安定しており、ほとんどカラムの湿気を明示的な制約なく保存し、参照モデルの気候を忠実に再現し、追跡変数の90%以上で挑戦的なベースラインを上回っている。 ACEは壁時計の時間が100倍近く必要であり、通常利用可能なリソースを使用する基準モデルよりもエネルギー効率が100倍高い。 ACEは微調整なしで、これまで目にしなかった歴史的海面温度データセットに安定して一般化することができる。

Existing ML-based atmospheric models are not suitable for climate prediction, which requires long-term stability and physical consistency. We present ACE (AI2 Climate Emulator), a 200M-parameter, autoregressive machine learning emulator of an existing comprehensive 100-km resolution global atmospheric model. The formulation of ACE allows evaluation of physical laws such as the conservation of mass and moisture. The emulator is stable for 100 years, nearly conserves column moisture without explicit constraints and faithfully reproduces the reference model's climate, outperforming a challenging baseline on over 90% of tracked variables. ACE requires nearly 100x less wall clock time and is 100x more energy efficient than the reference model using typically available resources. Without fine-tuning, ACE can stably generalize to a previously unseen historical sea surface temperature dataset.
翻訳日:2023-12-08 21:16:23 公開日:2023-12-06
# 画像処理メトリクスの一般的な制限:ピクチャーストーリー

Common Limitations of Image Processing Metrics: A Picture Story ( http://arxiv.org/abs/2104.05642v8 )

ライセンス: Link先を確認
Annika Reinke, Minu D. Tizabi, Carole H. Sudre, Matthias Eisenmann, Tim R\"adsch, Michael Baumgartner, Laura Acion, Michela Antonelli, Tal Arbel, Spyridon Bakas, Peter Bankhead, Arriel Benis, Matthew Blaschko, Florian Buettner, M. Jorge Cardoso, Jianxu Chen, Veronika Cheplygina, Evangelia Christodoulou, Beth Cimini, Gary S. Collins, Sandy Engelhardt, Keyvan Farahani, Luciana Ferrer, Adrian Galdran, Bram van Ginneken, Ben Glocker, Patrick Godau, Robert Haase, Fred Hamprecht, Daniel A. Hashimoto, Doreen Heckmann-N\"otzel, Peter Hirsch, Michael M. Hoffman, Merel Huisman, Fabian Isensee, Pierre Jannin, Charles E. Kahn, Dagmar Kainmueller, Bernhard Kainz, Alexandros Karargyris, Alan Karthikesalingam, A. Emre Kavur, Hannes Kenngott, Jens Kleesiek, Andreas Kleppe, Sven Kohler, Florian Kofler, Annette Kopp-Schneider, Thijs Kooi, Michal Kozubek, Anna Kreshuk, Tahsin Kurc, Bennett A. Landman, Geert Litjens, Amin Madani, Klaus Maier-Hein, Anne L. Martel, Peter Mattson, Erik Meijering, Bjoern Menze, David Moher, Karel G.M. Moons, Henning M\"uller, Brennan Nichyporuk, Felix Nickel, M. Alican Noyan, Jens Petersen, Gorkem Polat, Susanne M. Rafelski, Nasir Rajpoot, Mauricio Reyes, Nicola Rieke, Michael Riegler, Hassan Rivaz, Julio Saez-Rodriguez, Clara I. S\'anchez, Julien Schroeter, Anindo Saha, M. Alper Selver, Lalith Sharan, Shravya Shetty, Maarten van Smeden, Bram Stieltjes, Ronald M. Summers, Abdel A. Taha, Aleksei Tiulpin, Sotirios A. Tsaftaris, Ben Van Calster, Ga\"el Varoquaux, Manuel Wiesenfarth, Ziv R. Yaniv, Paul J\"ager, Lena Maier-Hein(参考訳) 自動画像解析の重要性は継続的に高まっているが、最近のメタリサーチにより、アルゴリズム検証に関する大きな欠陥が明らかになった。 パフォーマンスメトリクスは、特に、使用される自動アルゴリズムの有意義で客観的で透明なパフォーマンス評価と検証に重要であるが、特定の画像解析タスクに特定のメトリクスを使用する場合の実際の落とし穴には、比較的注意が払われていない。 これらは典型的には、(1)クラス不均衡や小さなターゲット構造の存在における振る舞いのような固有のメトリック特性の無視、(2)テストケースの非依存性のような固有のデータセットプロパティの無視、(3)メトリクスが反映すべき実際のバイオメディカルドメインの関心の無視に関係している。 この生きた動的文書は、画像分析の分野で一般的に適用されるパフォーマンスメトリクスの重要な制限を説明する目的を持っている。 この文脈では、画像レベルの分類、セマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出タスクと表現できるバイオメディカル画像解析の問題に焦点を当てている。 現在のバージョンは、世界中の60以上の機関からの画像分析専門家の国際コンソーシアムが実施したメトリクスに関するdelphiプロセスに基づいている。

While the importance of automatic image analysis is continuously increasing, recent meta-research revealed major flaws with respect to algorithm validation. Performance metrics are particularly key for meaningful, objective, and transparent performance assessment and validation of the used automatic algorithms, but relatively little attention has been given to the practical pitfalls when using specific metrics for a given image analysis task. These are typically related to (1) the disregard of inherent metric properties, such as the behaviour in the presence of class imbalance or small target structures, (2) the disregard of inherent data set properties, such as the non-independence of the test cases, and (3) the disregard of the actual biomedical domain interest that the metrics should reflect. This living dynamically document has the purpose to illustrate important limitations of performance metrics commonly applied in the field of image analysis. In this context, it focuses on biomedical image analysis problems that can be phrased as image-level classification, semantic segmentation, instance segmentation, or object detection task. The current version is based on a Delphi process on metrics conducted by an international consortium of image analysis experts from more than 60 institutions worldwide.
翻訳日:2023-12-08 19:27:12 公開日:2023-12-06
# 正極性保存密度行列の平方根による有限温度での最小化

Positivity Preserving Density Matrix Minimization at Finite Temperatures via Square Root ( http://arxiv.org/abs/2103.07078v3 )

ライセンス: Link先を確認
Jacob M. Leamer (1), William Dawson (2), and Denys I. Bondar (1) ((1) Department of Physics and Engineering Physics, Tulane University, (2) RIKEN Center for Computational Science)(参考訳) 本稿では,有限温度における電子構造問題に対するフェルミ・ディラック密度行列を計算するための波動作用素最小化(wom)法を提案する。 womモデルは当初、所望の有限温度まで無限温度で状態を冷却する。 我々は、グランドカノニカル(定数化学ポテンシャル)とカノニカル(定数電子数)のアンサンブルの両方を考慮する。 さらに、収束に必要なステップの数は系内の原子の数とは無関係であることを示す。 本稿では,密度行列最小化手法への関心を再活性化させることを期待する。

We present a Wave Operator Minimization (WOM) method for calculating the Fermi-Dirac density matrix for electronic structure problems at finite temperature while preserving physicality by construction using the wave operator, i.e., the square root of the density matrix. WOM models cooling a state initially at infinite temperature down to the desired finite temperature. We consider both the grand canonical (constant chemical potential) and canonical (constant number of electrons) ensembles. Additionally, we show that the number of steps required for convergence is independent of the number of atoms in the system. We hope that the discussion and results presented in this article reinvigorates interest in density matrix minimization methods.
翻訳日:2023-12-08 19:26:51 公開日:2023-12-06
# 自律型リンゴ果実サイズとコンピュータビジョンによる成長速度追跡

Autonomous Apple Fruitlet Sizing and Growth Rate Tracking using Computer Vision ( http://arxiv.org/abs/2212.01506v2 )

ライセンス: Link先を確認
Harry Freeman, Mohamad Qadri, Abhisesh Silwal, Paul O'Connor, Zachary Rubinstein, Daniel Cooley, and George Kantor(参考訳) 本稿では,リンゴ果実の大きさと成長率を測定するためのコンピュータビジョンに基づく手法を提案する。 リンゴの果実の成長速度を測定することは、収穫を最適化するためにいつ作物に化学薄型化剤を施すかを決定することができるため重要である。 成長率を得ることの現在の習慣は、数日間にわたって果物の粒度を記録するためにキャリパーを使うことである。 大きさが必要なフルーツレットの数のため、この方法には手間がかかり、時間がかかり、人的ミスが生じる。 ハンドヘルドステレオカメラによって収集された画像では、私たちのシステム、セグメント、クラスタ、エリプをフルーツレットに収めて直径を測定する。 その後、成長速度を時間的に関連づけて計算する。 我々は,リンゴ果樹園で収集したデータについて定量的な結果を提供し,本システムは6倍の速さで3.5%の短縮率を予測できるが,手作業は大幅に削減できることを示した。 さらに,現場のロボットシステムで撮影された画像についての結果を提示し,そのプロセスが完全に自律的になるために必要な次のステップについて考察する。

In this paper, we present a computer vision-based approach to measure the sizes and growth rates of apple fruitlets. Measuring the growth rates of apple fruitlets is important because it allows apple growers to determine when to apply chemical thinners to their crops in order to optimize yield. The current practice of obtaining growth rates involves using calipers to record sizes of fruitlets across multiple days. Due to the number of fruitlets needed to be sized, this method is laborious, time-consuming, and prone to human error. With images collected by a hand-held stereo camera, our system, segments, clusters, and fits ellipses to fruitlets to measure their diameters. The growth rates are then calculated by temporally associating clustered fruitlets across days. We provide quantitative results on data collected in an apple orchard, and demonstrate that our system is able to predict abscise rates within 3.5% of the current method with a 6 times improvement in speed, while requiring significantly less manual effort. Moreover, we provide results on images captured by a robotic system in the field, and discuss the next steps required to make the process fully autonomous.
翻訳日:2023-12-08 19:23:54 公開日:2023-12-06
# データマニフォールド上のフレームレンズによる視覚モデルの内部表現

Internal Representations of Vision Models Through the Lens of Frames on Data Manifolds ( http://arxiv.org/abs/2211.10558v2 )

ライセンス: Link先を確認
Henry Kvinge, Grayson Jorgenson, Davis Brown, Charles Godfrey, Tegan Emerson(参考訳) 過去5年間、ディープラーニングモデルの内部表現の理解にかなりの進歩があったが、多くの疑問が残っている。 モデルアーキテクチャやトレーニングアルゴリズムといったモデル設計の選択が隠れた表現幾何学やダイナミクスに与える影響を理解しようとする場合、これは特に当てはまる。 本稿では,そのような表現を多様体の接束上のフレームの考え方に着想を得た新しい手法を提案する。 我々の構成はニューラルフレームと呼ばれ、データポイントの特定の種類の摂動を表すベクトルの集合(例えば、無限小拡張、ノイズ摂動、あるいは生成モデルによって生成された摂動)を組み立て、それらがネットワークを通過するときにどのように変化するかを研究する。 ニューラルフレームを用いて、データポイントの小さな近傍でモデルが処理する方法、レイヤー・バイ・レイヤ、特定の変動モードについて観察する。 本研究は, 強化学習がモデル不変性を生み出す方法や, 対戦型トレーニングとモデル一般化のトレードオフなど, 様々な現象に対する新たな視点を提供する。

While the last five years have seen considerable progress in understanding the internal representations of deep learning models, many questions remain. This is especially true when trying to understand the impact of model design choices, such as model architecture or training algorithm, on hidden representation geometry and dynamics. In this work we present a new approach to studying such representations inspired by the idea of a frame on the tangent bundle of a manifold. Our construction, which we call a neural frame, is formed by assembling a set of vectors representing specific types of perturbations of a data point, for example infinitesimal augmentations, noise perturbations, or perturbations produced by a generative model, and studying how these change as they pass through a network. Using neural frames, we make observations about the way that models process, layer-by-layer, specific modes of variation within a small neighborhood of a datapoint. Our results provide new perspectives on a number of phenomena, such as the manner in which training with augmentation produces model invariance or the proposed trade-off between adversarial training and model generalization.
翻訳日:2023-12-08 19:23:22 公開日:2023-12-06
# バイアス軽減の再考: より公正なアーキテクチャはより公平な顔認識を実現する

Rethinking Bias Mitigation: Fairer Architectures Make for Fairer Face Recognition ( http://arxiv.org/abs/2210.09943v3 )

ライセンス: Link先を確認
Samuel Dooley, Rhea Sanjay Sukthanker, John P. Dickerson, Colin White, Frank Hutter, Micah Goldblum(参考訳) 顔認識システムは、法執行機関を含む安全クリティカルなアプリケーションで広く利用されているが、性別や人種など、さまざまな社会デミック次元に偏りがある。 従来の知識では、モデルのバイアスはバイアスのあるトレーニングデータから生じる。 その結果、バイアス緩和に関する以前の研究は、トレーニングデータの前処理に重点を置いており、トレーニング中にモデルにバイアスが影響することを防ぐためのペナルティを追加したり、それらを弱めるための後処理予測を加えたりしている。 私たちの研究では、バイアスはニューラルネットワークアーキテクチャ自体に固有のものであることが分かりました。 この再フレーミングに続いて、超パラメータの探索と共同で、最初のフェアネスのニューラルアーキテクチャ探索を行う。 我々の検索では,顔識別のための最も広く使われている2つのデータセットであるCelebAとVGGFace2に基づいて,他の高性能アーキテクチャや既存のバイアス軽減手法を精度と公平性の観点から支配するモデル群を出力する。 さらに、これらのモデルは、他のデータセットと繊細な属性に一般化する。 コード、モデル、生のデータファイルをhttps://github.com/dooleys/FR-NASでリリースします。

Face recognition systems are widely deployed in safety-critical applications, including law enforcement, yet they exhibit bias across a range of socio-demographic dimensions, such as gender and race. Conventional wisdom dictates that model biases arise from biased training data. As a consequence, previous works on bias mitigation largely focused on pre-processing the training data, adding penalties to prevent bias from effecting the model during training, or post-processing predictions to debias them, yet these approaches have shown limited success on hard problems such as face recognition. In our work, we discover that biases are actually inherent to neural network architectures themselves. Following this reframing, we conduct the first neural architecture search for fairness, jointly with a search for hyperparameters. Our search outputs a suite of models which Pareto-dominate all other high-performance architectures and existing bias mitigation methods in terms of accuracy and fairness, often by large margins, on the two most widely used datasets for face identification, CelebA and VGGFace2. Furthermore, these models generalize to other datasets and sensitive attributes. We release our code, models and raw data files at https://github.com/dooleys/FR-NAS.
翻訳日:2023-12-08 19:21:48 公開日:2023-12-06
# In-N-Out:顔編集のためのボリューム分解による忠実な3D GANインバージョン

In-N-Out: Faithful 3D GAN Inversion with Volumetric Decomposition for Face Editing ( http://arxiv.org/abs/2302.04871v3 )

ライセンス: Link先を確認
Yiran Xu, Zhixin Shu, Cameron Smith, Seoung Wug Oh, Jia-Bin Huang(参考訳) 3D対応のGANは、2D対応の編集機能を保ちながら、ビュー合成のための新しい機能を提供する。 GANインバージョンは、入力画像や動画を再構成する潜時コードを求める重要なステップであり、この潜時コードを操作することで様々な編集タスクを可能にする。 しかし、特定のデータセット(例えばFFHQ)に事前トレーニングされたモデルでは、重いメイクアップや隠蔽オブジェクトのような、配布外(OOD)オブジェクトで画像の再構成が難しい場合が多い。 我々は3次元GANの入力からOODオブジェクトを明示的にモデル化することでこの問題に対処する。 我々の中核的な考え方は、2つの個別の神経放射場を用いて画像を表現することである:1つは分布内コンテンツ、もう1つは分布外オブジェクトである。 最終的な再構築は、注意深く設計された2つの放射場の構成を最適化することで達成される。 明示的な分解は,レコンストラクション忠実度と編集可能性とのトレードオフを緩和することを示す。 本手法の再構成精度と編集性を評価し,他のベースラインに対して良好な結果を示す。

3D-aware GANs offer new capabilities for view synthesis while preserving the editing functionalities of their 2D counterparts. GAN inversion is a crucial step that seeks the latent code to reconstruct input images or videos, subsequently enabling diverse editing tasks through manipulation of this latent code. However, a model pre-trained on a particular dataset (e.g., FFHQ) often has difficulty reconstructing images with out-of-distribution (OOD) objects such as faces with heavy make-up or occluding objects. We address this issue by explicitly modeling OOD objects from the input in 3D-aware GANs. Our core idea is to represent the image using two individual neural radiance fields: one for the in-distribution content and the other for the out-of-distribution object. The final reconstruction is achieved by optimizing the composition of these two radiance fields with carefully designed regularization. We demonstrate that our explicit decomposition alleviates the inherent trade-off between reconstruction fidelity and editability. We evaluate reconstruction accuracy and editability of our method on challenging real face images and videos and showcase favorable results against other baselines.
翻訳日:2023-12-08 19:12:06 公開日:2023-12-06
# データ中毒に対する時間的ロバスト性

Temporal Robustness against Data Poisoning ( http://arxiv.org/abs/2302.03684v3 )

ライセンス: Link先を確認
Wenxiao Wang, Soheil Feizi(参考訳) データ中毒は、悪意のあるトレーニングデータを通じて機械学習アルゴリズムの振る舞いを操作する場合を考える。 データ中毒の既存の脅威モデルは、1つの指標、有毒サンプルの数を中心に構成されている。 結果として、多くの実用的なシナリオのように、攻撃者が予想よりも多くのサンプルを手頃なオーバーヘッドで毒殺することができれば、既存の防御を短期間で無効にすることができる可能性がある。 この問題に対処するために、私たちはデータの生年月日を示すタイムスタンプを活用しています。 これらのタイムスタンプの利点を生かして,攻撃開始までの時間と攻撃の継続時間を測定する2つの新しい指標,アールネスと持続時間によるデータ中毒の時間的脅威モデルを提案する。 これらの測定値を用いて,データ中毒に対する時間的ロバスト性の概念を定義し,攻撃が時間的に境界づけられた場合においても有意義な保護感を与える。 本稿では,更新モデルの連続データ収集と周期的展開をシミュレートした評価プロトコルを用いて,時間的ロバスト性の実証評価を行う。 最後に、我々は、時間的集約(temporal aggregation)、証明可能な時間的堅牢性(temporal robustness)の提供、およびデータ中毒に対する時間的脅威モデルの可能性を強調するベースラインディフェンスを開発し、実証的に検証する。

Data poisoning considers cases when an adversary manipulates the behavior of machine learning algorithms through malicious training data. Existing threat models of data poisoning center around a single metric, the number of poisoned samples. In consequence, if attackers can poison more samples than expected with affordable overhead, as in many practical scenarios, they may be able to render existing defenses ineffective in a short time. To address this issue, we leverage timestamps denoting the birth dates of data, which are often available but neglected in the past. Benefiting from these timestamps, we propose a temporal threat model of data poisoning with two novel metrics, earliness and duration, which respectively measure how long an attack started in advance and how long an attack lasted. Using these metrics, we define the notions of temporal robustness against data poisoning, providing a meaningful sense of protection even with unbounded amounts of poisoned samples when the attacks are temporally bounded. We present a benchmark with an evaluation protocol simulating continuous data collection and periodic deployments of updated models, thus enabling empirical evaluation of temporal robustness. Lastly, we develop and also empirically verify a baseline defense, namely temporal aggregation, offering provable temporal robustness and highlighting the potential of our temporal threat model for data poisoning.
翻訳日:2023-12-08 19:11:45 公開日:2023-12-06
# 新型コロナウイルス感染症の重症度検出のための肺・心外脂肪組織の放射線学的特徴の増大と解釈可能性

Incremental Value and Interpretability of Radiomics Features of Both Lung and Epicardial Adipose Tissue for Detecting the Severity of COVID-19 Infection ( http://arxiv.org/abs/2301.12340v2 )

ライセンス: Link先を確認
Ni Yao, Yanhui Tian, Daniel Gama das Neves, Chen Zhao, Claudio Tinoco Mesquita, Wolney de Andrade Martins, Alair Augusto Sarmet Moreira Damas dos Santos, Yanting Li, Chuang Han, Fubao Zhu, Neng Dai, Weihua Zhou(参考訳) 心膜脂肪組織(EAT)は、その炎症抑制作用とコロナウイルス病2019(COVID-19)重症度との関連で知られている。 しかし,現在のイートセグメンテーション法は位置情報を考慮していない。 さらに、新型コロナウイルスの重症度の検出には、解釈可能性を制限するEAT放射能の特徴が考慮されていない。 本研究は、新型コロナウイルス感染症の重症度を検出するために、EATおよび肺からの放射能の特徴を用いることを検討する。 コホート1:415,コホート2:100(cohort1:415)の515例について,食事抽出のための3段階の深層学習法を用いてふりかえり分析を行った。 肺分画は出版法を用いて達成した。 派生コホートに新型コロナウイルスの重症度を検出するハイブリッドモデルを構築し, 内部(125, Cohort1)と外部(100, Cohort2)の検証コホートで性能と不確実性を評価した。 EAT抽出では,Dice類似係数(DSC)はそれぞれ0.972(+-0.011),0.968(+-0.005)であった。 重症度検出のために, 肺と食の両方の放射能特性を有するハイブリッドモデルでは, 肺放射能のみのモデルと比較して, auc, net reclassification improvement (nri) およびintegrated discrimination improvement (idi) が改善した。 ハイブリッドモデルは, 内部検証コホートにおいてそれぞれ0.1(p<0.001), 19.3%, 18.0%, 外部検証コホートでは0.09(p<0.001), 18.0%, 18.0%の上昇を示した。 不確かさの定量化と放射線学的特徴分析により,EAT特徴の包含後の症例予測の解釈可能性が確認された。

Epicardial adipose tissue (EAT) is known for its pro-inflammatory properties and association with Coronavirus Disease 2019 (COVID-19) severity. However, current EAT segmentation methods do not consider positional information. Additionally, the detection of COVID-19 severity lacks consideration for EAT radiomics features, which limits interpretability. This study investigates the use of radiomics features from EAT and lungs to detect the severity of COVID-19 infections. A retrospective analysis of 515 patients with COVID-19 (Cohort1: 415, Cohort2: 100) was conducted using a proposed three-stage deep learning approach for EAT extraction. Lung segmentation was achieved using a published method. A hybrid model for detecting the severity of COVID-19 was built in a derivation cohort, and its performance and uncertainty were evaluated in internal (125, Cohort1) and external (100, Cohort2) validation cohorts. For EAT extraction, the Dice similarity coefficients (DSC) of the two centers were 0.972 (+-0.011) and 0.968 (+-0.005), respectively. For severity detection, the hybrid model with radiomics features of both lungs and EAT showed improvements in AUC, net reclassification improvement (NRI), and integrated discrimination improvement (IDI) compared to the model with only lung radiomics features. The hybrid model exhibited an increase of 0.1 (p<0.001), 19.3%, and 18.0% respectively, in the internal validation cohort and an increase of 0.09 (p<0.001), 18.0%, and 18.0%, respectively, in the external validation cohort while outperforming existing detection methods. Uncertainty quantification and radiomics features analysis confirmed the interpretability of case prediction after inclusion of EAT features.
翻訳日:2023-12-08 19:11:01 公開日:2023-12-06
# 高次Annealed Langevin拡散を用いた線形逆問題の解法

Solving Linear Inverse Problems using Higher-Order Annealed Langevin Diffusion ( http://arxiv.org/abs/2305.05014v4 )

ライセンス: Link先を確認
Nicolas Zilberstein, Ashutosh Sabharwal, Santiago Segarra(参考訳) 我々は高次ランゲヴィン拡散に基づく線形逆問題に対する解を提案する。 より正確には、未知の変数の後続分布から確実にサンプリングできる事前条件付き二階および三階ランゲヴィン力学を提案し、その計算効率は、その第一条件と両方の力学の非条件バージョンよりも高い。 さらに, 事前条件付きダイナミクスはどちらも well-defined であり, 非条件付きの場合と同じ一意な不変分布を持つことを証明した。 また,アルゴリズムの収束をさらに加速し,未知変数が離散的な場合に対応するという2つの利点を持つアニーリング手順も取り入れた。 通信における2つの異なるタスク(MIMOシンボルの検出とチャネル推定)と画像に対する3つのタスクの数値実験は、我々の手法の汎用性を示し、計算複雑性を同等あるいは低めながら、競合するアプローチ(学習ベースを含む)と比較して高い性能を示す。

We propose a solution for linear inverse problems based on higher-order Langevin diffusion. More precisely, we propose pre-conditioned second-order and third-order Langevin dynamics that provably sample from the posterior distribution of our unknown variables of interest while being computationally more efficient than their first-order counterpart and the non-conditioned versions of both dynamics. Moreover, we prove that both pre-conditioned dynamics are well-defined and have the same unique invariant distributions as the non-conditioned cases. We also incorporate an annealing procedure that has the double benefit of further accelerating the convergence of the algorithm and allowing us to accommodate the case where the unknown variables are discrete. Numerical experiments in two different tasks in communications (MIMO symbol detection and channel estimation) and in three tasks for images showcase the generality of our method and illustrate the high performance achieved relative to competing approaches (including learning-based ones) while having comparable or lower computational complexity.
翻訳日:2023-12-08 19:02:14 公開日:2023-12-06
# タンパク質構造生成のための潜時拡散モデル

A Latent Diffusion Model for Protein Structure Generation ( http://arxiv.org/abs/2305.04120v2 )

ライセンス: Link先を確認
Cong Fu, Keqiang Yan, Limei Wang, Wing Yee Au, Michael McThrow, Tao Komikado, Koji Maruhashi, Kanji Uchino, Xiaoning Qian, Shuiwang Ji(参考訳) タンパク質は生体内で様々な重要な機能を果たす複雑な生体分子である。 新規タンパク質の設計と生成は、創薬を含む多くの未来の合成生物学応用の道を開くことができる。 しかし、タンパク質構造の大規模なモデリング空間のため、依然として難しい計算課題である。 本研究では, 凝縮した潜在空間における自然タンパク質構造の分布を柔軟に捉えながら, タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。 具体的には,タンパク質を潜伏空間に埋め込んだ同変タンパク質オートエンコーダを提案し,同変拡散モデルを用いて潜伏タンパク質表現の分布を学習する。 実験の結果, 新規なタンパク質骨格構造を高い設計性と効率で効率的に生成できることが判明した。 コードはhttps://github.com/divelab/AIRS/tree/main/OpenProt/LatentDiffで公開されます。

Proteins are complex biomolecules that perform a variety of crucial functions within living organisms. Designing and generating novel proteins can pave the way for many future synthetic biology applications, including drug discovery. However, it remains a challenging computational task due to the large modeling space of protein structures. In this study, we propose a latent diffusion model that can reduce the complexity of protein modeling while flexibly capturing the distribution of natural protein structures in a condensed latent space. Specifically, we propose an equivariant protein autoencoder that embeds proteins into a latent space and then uses an equivariant diffusion model to learn the distribution of the latent protein representations. Experimental results demonstrate that our method can effectively generate novel protein backbone structures with high designability and efficiency. The code will be made publicly available at https://github.com/divelab/AIRS/tree/main/OpenProt/LatentDiff
翻訳日:2023-12-08 19:01:55 公開日:2023-12-06
# 人口動態や自己表現を制御しても、表情のない顔の画像から顔認識技術と人間のレーダは政治的指向を予測できる

Facial recognition technology and human raters can predict political orientation from images of expressionless faces even when controlling for demographics and self-presentation ( http://arxiv.org/abs/2303.16343v3 )

ライセンス: Link先を確認
Michal Kosinski, Poruz Khambatta, Yilun Wang(参考訳) 自己呈示, 表情, 頭部向き, 画像特性を制御しながら, 591名の被験者の精巧な顔画像が研究室で撮影された。 人間 (r=.21) とアルゴリズム (r=.22) は、年齢、性別、民族と関係のある政治的指向性尺度 (cronbach's alpha=.94) において、参加者のスコアを予測することができた。 これらの効果は、就職面接が仕事の成功を予測できるか、アルコールが攻撃性を高めるかに匹敵する。 アルゴリズムの予測精度はさらに高く(r=.31)、参加者の年齢、性別、民族に関する情報を利用した。 標準化されたイメージ(年齢、性別、民族性を管理する一方で)から派生した予測モデルは、米国、英国、カナダの政治家3,401人の自然主義的なイメージから政治的指向(r=.13)を予測することができる。 政治的指向に関連する顔の特徴の分析により,保守派は下面が大きい傾向が見られた。 標準化された画像からの政治的指向の予測可能性は、プライバシー、顔認識技術の規制、政治的指向の起源と結果の理解に重要な意味を持つ。

Carefully standardized facial images of 591 participants were taken in the laboratory, while controlling for self-presentation, facial expression, head orientation, and image properties. They were presented to human raters and a facial recognition algorithm: both humans (r=.21) and the algorithm (r=.22) could predict participants' scores on a political orientation scale (Cronbach's alpha=.94) decorrelated with age, gender, and ethnicity. These effects are on par with how well job interviews predict job success, or alcohol drives aggressiveness. Algorithm's predictive accuracy was even higher (r=.31) when it leveraged information on participants' age, gender, and ethnicity. Moreover, the associations between facial appearance and political orientation seem to generalize beyond our sample: The predictive model derived from standardized images (while controlling for age, gender, and ethnicity) could predict political orientation (r=.13) from naturalistic images of 3,401 politicians from the U.S., UK, and Canada. The analysis of facial features associated with political orientation revealed that conservatives tended to have larger lower faces. The predictability of political orientation from standardized images has critical implications for privacy, the regulation of facial recognition technology, and understanding the origins and consequences of political orientation.
翻訳日:2023-12-08 18:58:16 公開日:2023-12-06
# 3D-Aware Synthetic Data を用いた顔認識のポースインパクト推定と品質評価への応用

Pose Impact Estimation on Face Recognition using 3D-Aware Synthetic Data with Application to Quality Assessment ( http://arxiv.org/abs/2303.00491v2 )

ライセンス: Link先を確認
Marcel Grimmer, Christian Rathgeb, Christoph Busch(参考訳) 顔画像の品質評価は、十分な精度で顔認識システムを操作する上で不可欠である。 近年の顔品質標準化(ISO/IEC CD3 29794-5)では、顔品質を個々の要因に分解するためのコンポーネント品質対策が推奨されている。 近年の3次元認識型生成逆数ネットワークの進歩を踏まえ,Yaw-Pitch角の組み合わせの異なる1000のアイデンティティからなる新しいデータセットSyn-YawPitchを提案する。 このデータセットを用いて,30度を超えるピッチ角が,現在の顔認証システムの生体特性に有意な影響を及ぼすことを示す。 さらに、iso/iec cd3 29794-5の国際規格に準拠した軽量で説明可能なポーズ品質予測器を提案し、最先端顔画像品質評価アルゴリズムに対するベンチマークを行う。

Evaluating the quality of facial images is essential for operating face recognition systems with sufficient accuracy. The recent advances in face quality standardisation (ISO/IEC CD3 29794-5) recommend the usage of component quality measures for breaking down face quality into its individual factors, hence providing valuable feedback for operators to re-capture low-quality images. In light of recent advances in 3D-aware generative adversarial networks, we propose a novel dataset, Syn-YawPitch, comprising 1000 identities with varying yaw-pitch angle combinations. Utilizing this dataset, we demonstrate that pitch angles beyond 30 degrees have a significant impact on the biometric performance of current face recognition systems. Furthermore, we propose a lightweight and explainable pose quality predictor that adheres to the draft international standard of ISO/IEC CD3 29794-5 and benchmark it against state-of-the-art face image quality assessment algorithms
翻訳日:2023-12-08 18:56:50 公開日:2023-12-06
# 画像拡散による創発的対応

Emergent Correspondence from Image Diffusion ( http://arxiv.org/abs/2306.03881v2 )

ライセンス: Link先を確認
Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan(参考訳) 画像間の対応を見つけることはコンピュータビジョンの基本的な問題である。 本稿では,画像拡散モデルにおいて,明示的な監督なしに対応が現れることを示す。 画像の特徴として拡散ネットワーク(DIFT)からこの暗黙的知識を抽出し,実際の画像間の対応を確立するための簡単な手法を提案する。 タスク固有のデータやアノテーションに関する追加の微調整や監督がなければ、DIFTは、セマンティック、幾何学的、時間的対応の識別において、弱い教師付きメソッドと競合するオフザシェルフ機能の両方より優れている。 特に意味対応において、安定拡散のDIFTは、挑戦的なSPair-71kベンチマークでそれぞれ19と14の精度でDINOとOpenCLIPを上回っている。 さらに18のカテゴリ中9の最先端の教師付きメソッドよりも優れていますが、全体的なパフォーマンスには同等です。 プロジェクトページ: https://diffusionfeatures.github.io

Finding correspondences between images is a fundamental problem in computer vision. In this paper, we show that correspondence emerges in image diffusion models without any explicit supervision. We propose a simple strategy to extract this implicit knowledge out of diffusion networks as image features, namely DIffusion FeaTures (DIFT), and use them to establish correspondences between real images. Without any additional fine-tuning or supervision on the task-specific data or annotations, DIFT is able to outperform both weakly-supervised methods and competitive off-the-shelf features in identifying semantic, geometric, and temporal correspondences. Particularly for semantic correspondence, DIFT from Stable Diffusion is able to outperform DINO and OpenCLIP by 19 and 14 accuracy points respectively on the challenging SPair-71k benchmark. It even outperforms the state-of-the-art supervised methods on 9 out of 18 categories while remaining on par for the overall performance. Project page: https://diffusionfeatures.github.io
翻訳日:2023-12-08 18:49:25 公開日:2023-12-06
# 極端量子性の正則基底

Orthonormal bases of extreme quantumness ( http://arxiv.org/abs/2306.00532v2 )

ライセンス: Link先を確認
Marcin Rudzi\'nski, Adam Burchardt, Karol \.Zyczkowski(参考訳) スピン反コヒーレント状態は最近最も「量子」状態として多くの注目を集めた。 いくつかのコヒーレントおよび反コヒーレントスピン状態は最適量子ロトセンサーとして知られている。 本研究では、スピン状態の正規直交基底に対する量子性の測定方法を紹介し、個々のベクトルの平均アンチコヒーレンスとwehrlエントロピーによって決定する。 このようにして、最もコヒーレントで最も量子的な状態を特定し、極端量子度を直交的に測定する。 それらの対称性は、球面上の点による純粋状態の直感的な幾何学的表現を提供するマヨラナ星表象を用いて明らかにすることができる。 その結果、(2j$ qubits からなる多成分系の状態の 2^{2j}$ 次元空間の 2j+1 次元対称部分空間における最大(最小)絡み合った基底が導かれる。 いくつかの基底は同程度のスピンコヒーレンスを持つ全ての状態からなるため、アイソコヒーレントである。

Spin anticoherent states acquired recently a lot of attention as the most "quantum" states. Some coherent and anticoherent spin states are known as optimal quantum rotosensors. In this work we introduce a measure of quantumness for orthonormal bases of spin states, determined by the average anticoherence of individual vectors and the Wehrl entropy. In this way we identify the most coherent and most quantum states, which lead to orthogonal measurements of extreme quantumness. Their symmetries can be revealed using the Majorana stellar representation, which provides an intuitive geometrical representation of a pure state by points on a sphere. Results obtained lead to maximally (minimally) entangled bases in the $2j+1$ dimensional symmetric subspace of the $2^{2j}$ dimensional space of states of multipartite systems composed of $2j$ qubits. Some bases found are iso-coherent as they consist of all states of the same degree of spin-coherence.
翻訳日:2023-12-08 18:47:37 公開日:2023-12-06
# ピクセルからuiアクションへ:グラフィカルユーザインタフェースによる命令に従う学習

From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces ( http://arxiv.org/abs/2306.00245v2 )

ライセンス: Link先を確認
Peter Shaw, Mandar Joshi, James Cohan, Jonathan Berant, Panupong Pasupat, Hexiang Hu, Urvashi Khandelwal, Kenton Lee, Kristina Toutanova(参考訳) グラフィカルユーザインタフェース(GUI)のデジタルエージェントに向けたこれまでの作業の多くは、テキストベースの表現(HTMLや他の構造化データソースから派生したもの)に依存しており、必ずしも容易に利用できない。 これらの入力表現は、しばしばカスタムなタスク固有のアクション空間と結合されている。 本稿では,人間がよく使う概念的インタフェースと,キーボードとマウスのアクションに対応する汎用的なアクション空間を用いて,デジタル世界と対話するエージェントを作成することに焦点を当てる。 近年の画素ベースの事前学習の進歩を踏まえ,GUIベースの命令追従タスクのMiniWob++ベンチマークにおいて,このようなエージェントが人間のクラウドワーカーより優れていることを示す。

Much of the previous work towards digital agents for graphical user interfaces (GUIs) has relied on text-based representations (derived from HTML or other structured data sources), which are not always readily available. These input representations have been often coupled with custom, task-specific action spaces. This paper focuses on creating agents that interact with the digital world using the same conceptual interface that humans commonly use -- via pixel-based screenshots and a generic action space corresponding to keyboard and mouse actions. Building upon recent progress in pixel-based pretraining, we show, for the first time, that it is possible for such agents to outperform human crowdworkers on the MiniWob++ benchmark of GUI-based instruction following tasks.
翻訳日:2023-12-08 18:47:22 公開日:2023-12-06
# control-a-video:拡散モデルを用いたテキスト対ビデオ生成

Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models ( http://arxiv.org/abs/2305.13840v2 )

ライセンス: Link先を確認
Weifeng Chen, Yatai Ji, Jie Wu, Hefeng Wu, Pan Xie, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin(参考訳) 近年の拡散モデルの発展は、視覚創造における前例のない能力を解き放たれた。 しかし、現在のテキスト対ビデオ生成モデルは、移動範囲、アクションコヒーレンス、オブジェクト一貫性の間のトレードオフに苦しむ。 この問題を軽減するため,本論文では,映像合成をカスタマイズ可能とし,一貫性を保ちながらt2v拡散モデルである control-a-video を提案する。 事前学習された条件付きテキスト・ツー・イメージ(t2i)拡散モデルに基づき,エッジマップや深度マップなどの一連の制御信号に基づく映像の生成を目的とした。 オブジェクト一貫性を改善するために、control-a-videoはモーション優先とコンテンツ優先をビデオ生成に統合する。 画素残差とオプティカルフローに基づく2つの動き適応型ノイズ初期化手法を提案し,入力映像からの動き先行を導入し,よりコヒーレントな映像を生成する。 さらに、テキストとのセマンティックアライメントを容易にし、自動回帰的により長いビデオ生成を可能にする第1フレーム条件付きコントローラを提案し、第1フレームのコンテンツ先行からビデオを生成する。 提案したアーキテクチャと戦略により、資源効率の収束を実現し、きめ細かい制御で一貫したコヒーレントなビデオを生成する。 ビデオ編集やビデオスタイルの転送といった様々なビデオ生成タスクにおいて、その成功を実証し、一貫性と品質の点で従来の手法よりも優れていた。

Recent advancements in diffusion models have unlocked unprecedented abilities in visual creation. However, current text-to-video generation models struggle with the trade-off among movement range, action coherence and object consistency. To mitigate this issue, we present a controllable text-to-video (T2V) diffusion model, called Control-A-Video, capable of maintaining consistency while customizable video synthesis. Based on a pre-trained conditional text-to-image (T2I) diffusion model, our model aims to generate videos conditioned on a sequence of control signals, such as edge or depth maps. For the purpose of improving object consistency, Control-A-Video integrates motion priors and content priors into video generation. We propose two motion-adaptive noise initialization strategies, which are based on pixel residual and optical flow, to introduce motion priors from input videos, producing more coherent videos. Moreover, a first-frame conditioned controller is proposed to generate videos from content priors of the first frame, which facilitates the semantic alignment with text and allows longer video generation in an auto-regressive manner. With the proposed architecture and strategies, our model achieves resource-efficient convergence and generate consistent and coherent videos with fine-grained control. Extensive experiments demonstrate its success in various video generative tasks such as video editing and video style transfer, outperforming previous methods in terms of consistency and quality.
翻訳日:2023-12-08 18:46:41 公開日:2023-12-06
# マルチモーダル視覚言語モデルにおける接地空間推論に向けて

Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models ( http://arxiv.org/abs/2308.09778v2 )

ライセンス: Link先を確認
Navid Rajabi, Jana Kosecka(参考訳) 画像テキストペアの大規模データセット上での視覚・言語モデル(VLM)の事前学習により、これらの事前学習されたモデルは、動詞、属性、関係性を数え、認識する能力など、詳細な理解が欠如していることが示された。 この研究の焦点は、これらのモデルが空間関係を理解する能力を研究することである。 これまでは、画像テキストマッチング(例えば、ビジュアル空間推論のベンチマーク)や視覚的質問応答(例えば、GQAやVQAv2)を使用してこの問題に取り組んできた。 本研究では,性能不良の原因をよりよく理解するために説明可能性ツールを使用し,空間的節のランク付けに代替的なきめ細かな構成アプローチを提案する。 対象物とその位置に対応する名詞句の接地から得られた証拠を組み合わせて、空間節の最終ランクを計算する。 我々は,代表的VLM(LXMERT,GPV,MDETR)に対するアプローチを実証し,空間的関係を推論する能力を比較,強調する。

With pre-training of vision-and-language models (VLMs) on large-scale datasets of image-text pairs, several recent works showed that these pre-trained models lack fine-grained understanding, such as the ability to count and recognize verbs, attributes, or relationships. The focus of this work is to study the ability of these models to understand spatial relations. Previously, this has been tackled using image-text matching (e.g., Visual Spatial Reasoning benchmark) or visual question answering (e.g., GQA or VQAv2), both showing poor performance and a large gap compared to human performance. In this work, we use explainability tools to understand the causes of poor performance better and present an alternative fine-grained, compositional approach for ranking spatial clauses. We combine the evidence from grounding noun phrases corresponding to objects and their locations to compute the final rank of the spatial clause. We demonstrate the approach on representative VLMs (such as LXMERT, GPV, and MDETR) and compare and highlight their abilities to reason about spatial relationships.
翻訳日:2023-12-08 18:38:26 公開日:2023-12-06
# Divide&Classify: 都市側視覚位置認識のための細粒度分類

Divide&Classify: Fine-Grained Classification for City-Wide Visual Place Recognition ( http://arxiv.org/abs/2307.08417v2 )

ライセンス: Link先を確認
Gabriele Trivigno, Gabriele Berton, Juan Aragon, Barbara Caputo, Carlo Masone(参考訳) 視覚位置認識は画像検索問題として一般的に扱われる。 しかし, 都市全体の地図から密集した大規模なデータセットにスケールするには, その次元が推定時間に悪影響を及ぼすため, 検索手法は実用的ではない。 近接した近接探索による検索は、性能低下を犠牲にしてこの問題を軽減するのに役立つ。 本稿では,この課題を分類問題として効果的に扱うことができるか検討し,類似性探索の必要性を回避した。 細粒度と都市規模では,既存の粗粒度分布の分類手法が適していないことが判明した。 これは、データセットをクラスに分割する方法が主な原因であり、これらの手法は写真のスパース分布を扱うように設計されているため、密集したシナリオで自然に発生する近隣のクラスにまたがる視覚的エイリアス問題を考慮しないためである。 そこで本研究では,簡単な学習手順を保ちながら,高速かつ高精度な推論を可能にする分割方式と,角マージンロスによって学習したプロトタイプを用いた新しい分類器のアンサンブルに基づく新しい推論パイプラインを提案する。 提案手法であるd&c (d&c) は, 分類解の高速推定と, 細粒度, 都市全体における検索手法と競合する精度を享受する。 さらに,D&Cを既存の検索パイプラインと組み合わせることで,リコールを高速化しながら,20倍以上の高速化を実現できることを示す。

Visual Place recognition is commonly addressed as an image retrieval problem. However, retrieval methods are impractical to scale to large datasets, densely sampled from city-wide maps, since their dimension impact negatively on the inference time. Using approximate nearest neighbour search for retrieval helps to mitigate this issue, at the cost of a performance drop. In this paper we investigate whether we can effectively approach this task as a classification problem, thus bypassing the need for a similarity search. We find that existing classification methods for coarse, planet-wide localization are not suitable for the fine-grained and city-wide setting. This is largely due to how the dataset is split into classes, because these methods are designed to handle a sparse distribution of photos and as such do not consider the visual aliasing problem across neighbouring classes that naturally arises in dense scenarios. Thus, we propose a partitioning scheme that enables a fast and accurate inference, preserving a simple learning procedure, and a novel inference pipeline based on an ensemble of novel classifiers that uses the prototypes learned via an angular margin loss. Our method, Divide&Classify (D&C), enjoys the fast inference of classification solutions and an accuracy competitive with retrieval methods on the fine-grained, city-wide setting. Moreover, we show that D&C can be paired with existing retrieval pipelines to speed up computations by over 20 times while increasing their recall, leading to new state-of-the-art results.
翻訳日:2023-12-08 18:36:01 公開日:2023-12-06
# ディープニューラルネットワーク分類器における潜在バイナリエンコーディングの出現

Emergence of Latent Binary Encoding in Deep Neural Network Classifiers ( http://arxiv.org/abs/2310.08224v2 )

ライセンス: Link先を確認
Luigi Sbail\`o and Luca Ghiringhelli(参考訳) ディープニューラルネットワーク分類器の潜在空間におけるバイナリエンコーディングの出現を観察した。 このようなバイナリエンコーディングは、トレーニング中に$\exp(\vec{x}^2)$として成長する損失関数を持つ線形ペナルティメート層を導入することによって引き起こされる。 我々が記述した現象は、訓練の終末期に発生し、単純等角タイトフレーム(etf)の頂点に潜在クラス平均の崩壊を伴い、よく文書化された事象である \textit{neural collapse} の特定の例を表している。 バイナリエンコーディングは、単純なetfへの収束を加速し、分類精度を向上させる。

We observe the emergence of binary encoding within the latent space of deep-neural-network classifiers. Such binary encoding is induced by introducing a linear penultimate layer, which is equipped during training with a loss function that grows as $\exp(\vec{x}^2)$, where $\vec{x}$ are the coordinates in the latent space. The phenomenon we describe represents a specific instance of a well-documented occurrence known as \textit{neural collapse}, which arises in the terminal phase of training and entails the collapse of latent class means to the vertices of a simplex equiangular tight frame (ETF). We show that binary encoding accelerates convergence toward the simplex ETF and enhances classification accuracy.
翻訳日:2023-12-08 18:26:21 公開日:2023-12-06
# EvDNeRF:動的ニューラルラジアンス場を用いたイベントデータ再構成

EvDNeRF: Reconstructing Event Data with Dynamic Neural Radiance Fields ( http://arxiv.org/abs/2310.02437v2 )

ライセンス: Link先を確認
Anish Bhattacharya, Ratnesh Madaan, Fernando Cladera, Sai Vemprala, Rogerio Bonatti, Kostas Daniilidis, Ashish Kapoor, Vijay Kumar, Nikolai Matni, Jayesh K. Gupta(参考訳) 本稿では,イベントデータを生成し,イベントベースの動的NeRFをトレーニングするためのパイプラインであるEvDNeRFについて述べる。 イベントカメラは、高ダイナミックレンジでMHzレートで非同期の1ピクセル当たりの明るさ変化を登録する。 ニューラルラディアンス場(NeRF)は、視覚的品質の幾何ベースの学習可能なレンダリングを提供するが、イベントの以前の作業は静的なシーンの再構築のみを考慮していた。 我々のevdnerfは、所望のタイムスタンプ間の静的または移動視点から動的シーンのイベントストリームを予測できるので、所定のシーンのイベントベースのシミュレータとして使用できる。 様々なイベントのバッチサイズをトレーニングすることで、細かい時間分解能でイベントのテスト時間予測を改善し、標準動的nerfとイベントジェネレータを組み合わせるベースラインを上回ることを示します。 シミュレーションと実際のデータセット、マルチビューイベントベースのデータ生成のためのコード、evdnerfモデルのトレーニングと評価もリリースしています(https://github.com/anish-bhattacharya/evdnerf)。

We present EvDNeRF, a pipeline for generating event data and training an event-based dynamic NeRF, for the purpose of faithfully reconstructing eventstreams on scenes with rigid and non-rigid deformations that may be too fast to capture with a standard camera. Event cameras register asynchronous per-pixel brightness changes at MHz rates with high dynamic range, making them ideal for observing fast motion with almost no motion blur. Neural radiance fields (NeRFs) offer visual-quality geometric-based learnable rendering, but prior work with events has only considered reconstruction of static scenes. Our EvDNeRF can predict eventstreams of dynamic scenes from a static or moving viewpoint between any desired timestamps, thereby allowing it to be used as an event-based simulator for a given scene. We show that by training on varied batch sizes of events, we can improve test-time predictions of events at fine time resolutions, outperforming baselines that pair standard dynamic NeRFs with event generators. We release our simulated and real datasets, as well as code for multi-view event-based data generation and the training and evaluation of EvDNeRF models (https://github.com/anish-bhattacharya/EvDNeRF).
翻訳日:2023-12-08 18:24:50 公開日:2023-12-06
# 注意駆動型マルチモーダル融合:手話認識と翻訳の強化

Attention-Driven Multi-Modal Fusion: Enhancing Sign Language Recognition and Translation ( http://arxiv.org/abs/2309.01860v3 )

ライセンス: Link先を確認
Zaber Ibn Abdul Hakim, Rasman Mubtasim Swargo, Muhammad Abdullah Adnan(参考訳) 本稿では,連続手話認識と翻訳のための既存のパイプラインを用いたマルチモーダル情報付加機構を考案する。 本手法では,光学フロー情報をRGB画像に組み込んで,運動関連情報により特徴を充実させる。 本研究は, クロスモーダルエンコーダを用いたモダリティインクルージョンの実現可能性について検討する。 私たちが使ったプラグインは非常に軽量で、エンドツーエンドで新しいモダリティのための別個の機能抽出器を含める必要はありません。 我々は手話認識と翻訳の両方に変化を適用し,各症例の成績を改善した。 我々は,手話認識のためのRWTH-PHOENIX-2014Tデータセットと翻訳のためのRWTH-PHOENIX-2014Tデータセットの性能評価を行った。 認識タスクではWERを0.9に減らし,翻訳タスクではBLEUのスコアの大部分を0.6に増やした。

In this paper, we devise a mechanism for the addition of multi-modal information with an existing pipeline for continuous sign language recognition and translation. In our procedure, we have incorporated optical flow information with RGB images to enrich the features with movement-related information. This work studies the feasibility of such modality inclusion using a cross-modal encoder. The plugin we have used is very lightweight and doesn't need to include a separate feature extractor for the new modality in an end-to-end manner. We have applied the changes in both sign language recognition and translation, improving the result in each case. We have evaluated the performance on the RWTH-PHOENIX-2014 dataset for sign language recognition and the RWTH-PHOENIX-2014T dataset for translation. On the recognition task, our approach reduced the WER by 0.9, and on the translation task, our approach increased most of the BLEU scores by ~0.6 on the test set.
翻訳日:2023-12-08 18:22:12 公開日:2023-12-06
# 教師なしセマンティックセグメンテーションに基づくオーバーヘッドライン欠陥認識

Overhead Line Defect Recognition Based on Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2311.00979v2 )

ライセンス: Link先を確認
Weixi Wang, Xichen Zhong, Xin Li, Sizhe Li, Xun Ma(参考訳) オーバーヘッドラインインスペクションは、可視光画像を用いた欠陥認識の恩恵が大きい。 本稿では,既存の特徴抽出手法の限界と深層学習手法の重いデータ依存に対処し,新しい欠陥認識フレームワークを提案する。 これはFaster RCNNネットワーク上に構築され、教師なしセマンティックセグメンテーションによって補完される。 このアプローチでは、ターゲット機器のタイプと位置を特定し、セマンティックセグメンテーションを利用してデバイスと背景を区別し、最後に、欠陥の種類を分類するために類似度測定と論理ルールを採用する。 実験結果から, この手法は, オーバーヘッドラインの問題を特定する際の欠陥よりも, 機器に重点を置いていることがわかった。 これにより精度が著しく向上し、優れた適応性を示す。 これにより、配電網機器の検査を自動化するための新たな視点を提供する。

Overhead line inspection greatly benefits from defect recognition using visible light imagery. Addressing the limitations of existing feature extraction techniques and the heavy data dependency of deep learning approaches, this paper introduces a novel defect recognition framework. This is built on the Faster RCNN network and complemented by unsupervised semantic segmentation. The approach involves identifying the type and location of the target equipment, utilizing semantic segmentation to differentiate between the device and its backdrop, and finally employing similarity measures and logical rules to categorize the type of defect. Experimental results indicate that this methodology focuses more on the equipment rather than the defects when identifying issues in overhead lines. This leads to a notable enhancement in accuracy and exhibits impressive adaptability. Thus, offering a fresh perspective for automating the inspection of distribution network equipment.
翻訳日:2023-12-08 18:14:14 公開日:2023-12-06
# 逆距離重み付け注意

Inverse distance weighting attention ( http://arxiv.org/abs/2310.18805v2 )

ライセンス: Link先を確認
Calvin McCarter(参考訳) ユークリッド距離の負のログに拡大した点積(ソフトマックス)の注意を置き換える効果を報告する。 このような注意は、逆距離重み付け補間を単純化する。 単純な1つの隠れ層ネットワークで使われ、分類問題においてバニラクロスエントロピー損失で訓練され、プロトタイプを含むキーマトリックスと対応するロジットを持つ値行列を生成する傾向がある。 また,解析可能なネットワークを手作業で構築したプロトタイプで拡張することで,特殊ケースの低インパクト処理を実現できることを示す。

We report the effects of replacing the scaled dot-product (within softmax) attention with the negative-log of Euclidean distance. This form of attention simplifies to inverse distance weighting interpolation. Used in simple one hidden layer networks and trained with vanilla cross-entropy loss on classification problems, it tends to produce a key matrix containing prototypes and a value matrix with corresponding logits. We also show that the resulting interpretable networks can be augmented with manually-constructed prototypes to perform low-impact handling of special cases.
翻訳日:2023-12-08 18:13:11 公開日:2023-12-06
# 言語モデルにおける一般知能要因の解明 : 心理学的アプローチ

Unveiling the General Intelligence Factor in Language Models: A Psychometric Approach ( http://arxiv.org/abs/2310.11616v2 )

ライセンス: Link先を確認
David Ili\'c(参考訳) この研究は、言語モデルにおける一般知性(g)の要因を明らかにし、伝統的に人間や特定の動物に適用される心理計測理論を拡張している。 1,232のモデルを持つopen llm leaderboardと88のモデルを持つgeneral language understanding evaluation (glue) leaderboardの2つの広範なデータセットの因子分析を利用することで、モデル性能の分散の85%を占める一次元、高度に安定なgファクターの説得力のある証拠が得られます。 この研究はまた、モデルサイズとgの間の.49の適度な相関も発見した。 言語モデルにおけるgの発見は、モデル評価のための統一的なメトリクスを提供し、より堅牢でgベースのモデル能力評価のための新しい道を開く。 これらの知見は、心理学的観点からの人工知能の理解と将来の研究の基盤となり、モデル評価と開発に実践的な意味を持つ。

This study uncovers the factor of general intelligence, or g, in language models, extending the psychometric theory traditionally applied to humans and certain animal species. Utilizing factor analysis on two extensive datasets - Open LLM Leaderboard with 1,232 models and General Language Understanding Evaluation (GLUE) Leaderboard with 88 models - we find compelling evidence for a unidimensional, highly stable g factor that accounts for 85% of the variance in model performance. The study also finds a moderate correlation of .49 between model size and g. The discovery of g in language models offers a unified metric for model evaluation and opens new avenues for more robust, g-based model ability assessment. These findings lay the foundation for understanding and future research on artificial general intelligence from a psychometric perspective and have practical implications for model evaluation and development.
翻訳日:2023-12-08 18:10:58 公開日:2023-12-06
# TopoSemiSeg: 病理像の半監督分割のためのトポロジー整合性の実現

TopoSemiSeg: Enforcing Topological Consistency for Semi-Supervised Segmentation of Histopathology Images ( http://arxiv.org/abs/2311.16447v2 )

ライセンス: Link先を確認
Meilong Xu, Xiaoling Hu, Saumya Gupta, Shahira Abousamra, Chao Chen(参考訳) 計算病理学では、腺や核のような高密度に分布した物体を分割することは下流解析に不可欠である。 画素毎のアノテーション取得の負担を軽減するため、半教師付き学習方法は、大量のラベルなしデータから学習する。 それでも、既存の半監督的手法は、ラベル付けされていない画像に隠されたトポロジカルな情報を見落とし、例えば、欠落または誤って融合/分離された腺や核などのトポロジカルな誤りを引き起こす。 この問題に対処するために,ラベルのないデータからトポロジカル表現を学習する最初の半教師付き手法であるTopoSemiSegを提案する。 特に,教師と学生のネットワークが共有したトポロジ表現を学習するトポロジ対応型教師学生アプローチを提案する。 これを実現するために,我々は,学習表現がロバストであり,真のトポロジカル信号に焦点をあてるように,信号一貫性とノイズ除去損失を含む位相的一貫性損失を導入する。 公共病理画像データセットの大規模な実験は、特にトポロジ的評価指標において、我々の手法の優位性を示している。 コードはhttps://github.com/Melon-Xu/TopoSemiSegで入手できる。

In computational pathology, segmenting densely distributed objects like glands and nuclei is crucial for downstream analysis. To alleviate the burden of obtaining pixel-wise annotations, semi-supervised learning methods learn from large amounts of unlabeled data. Nevertheless, existing semi-supervised methods overlook the topological information hidden in the unlabeled images and are thus prone to topological errors, e.g., missing or incorrectly merged/separated glands or nuclei. To address this issue, we propose TopoSemiSeg, the first semi-supervised method that learns the topological representation from unlabeled data. In particular, we propose a topology-aware teacher-student approach in which the teacher and student networks learn shared topological representations. To achieve this, we introduce topological consistency loss, which contains signal consistency and noise removal losses to ensure the learned representation is robust and focuses on true topological signals. Extensive experiments on public pathology image datasets show the superiority of our method, especially on topology-wise evaluation metrics. Code is available at https://github.com/Melon-Xu/TopoSemiSeg.
翻訳日:2023-12-08 18:02:21 公開日:2023-12-06
# 拡散ハンドレス:3Dへの活性化による拡散モデルのための3D編集法

Diffusion Handles: Enabling 3D Edits for Diffusion Models by Lifting Activations to 3D ( http://arxiv.org/abs/2312.02190v2 )

ライセンス: Link先を確認
Karran Pandey, Paul Guerrero, Matheus Gadelha, Yannick Hold-Geoffroy, Karan Singh and Niloy Mitra(参考訳) Diffusion Handlesは拡散画像の3Dオブジェクト編集を可能にする新しいアプローチである。 既存のトレーニング済み拡散モデルと2次元画像深度推定を用いて、微調整や3次元オブジェクトの検索を行わずにこれらの編集を行う。 編集された結果は、信頼性があり、フォトリアルであり、オブジェクトのアイデンティティを保持します。 拡散処理は、生成画像に基づく創造的デザインの致命的な欠如に対処し、生成画像編集の最先端を著しく前進させる。 我々の重要な洞察は、オブジェクトの拡散活性化をプロキシの深さを使って3Dに上げ、深度と関連するアクティベーションを3D変換し、それらをイメージ空間に投影することである。 操作されたアクティベーションにID制御で適用された拡散プロセスは、複雑な3D閉塞と照明効果を示す可視画像を生成する。 我々はDiffusion Handlesを定量的に、大規模な合成データベンチマークで評価し、ユーザスタディにより質的に評価し、我々の出力が3D編集とアイデンティティ制御の両方において、先行技術よりも高い妥当性を示す。 プロジェクトWebページ: https://diffusionhandles.github.io/

Diffusion Handles is a novel approach to enabling 3D object edits on diffusion images. We accomplish these edits using existing pre-trained diffusion models, and 2D image depth estimation, without any fine-tuning or 3D object retrieval. The edited results remain plausible, photo-real, and preserve object identity. Diffusion Handles address a critically missing facet of generative image based creative design, and significantly advance the state-of-the-art in generative image editing. Our key insight is to lift diffusion activations for an object to 3D using a proxy depth, 3D-transform the depth and associated activations, and project them back to image space. The diffusion process applied to the manipulated activations with identity control, produces plausible edited images showing complex 3D occlusion and lighting effects. We evaluate Diffusion Handles: quantitatively, on a large synthetic data benchmark; and qualitatively by a user study, showing our output to be more plausible, and better than prior art at both, 3D editing and identity control. Project Webpage: https://diffusionhandles.github.io/
翻訳日:2023-12-08 17:49:31 公開日:2023-12-06
# 文脈内分類のためのラベル空間の操作

Manipulating the Label Space for In-Context Classification ( http://arxiv.org/abs/2312.00351v2 )

ライセンス: Link先を確認
Haokun Chen, Xu Yang, Yuhang Huang, Zihan Wu, Jing Wang, Xin Geng(参考訳) 言語モデル(LM)は、先行した単語に基づいて次の単語条件を生成して事前学習した後、与えられた文脈内例(ICE)のコンテキストに基づいて新しいタスク条件を学習するインコンテキスト学習(ICL)能力を取得する。 同様に、視覚条件付き言語モデリングは、視覚言語モデル(VLM)をICL能力で訓練するためにも用いられる。 しかしながら、言語モデリングの目的は、オブジェクトがテキストとペアリングされているかどうかを直接的に対比しないため、これらのVLMはCLIPのような対照的な学習ベースのモデルと比較して、典型的には弱い分類能力を示す。 分類のICLを改善するために、より多くのICEを使ってより多くの知識を提供するのは簡単な方法です。 しかし、これは選択時間を大幅に増加させる可能性があり、さらに重要なことに、追加のin-contextイメージは、vlmの処理能力を超えて、in-contextシーケンスの長さを延ばす傾向がある。 これらの制約を緩和するため,我々は,各氷のラベル空間を操作し,その知識密度を増加させることを提案し,より少ない氷でより多くの情報を伝達できるようにする。 具体的には,従来のImageNetや,CUB-200のようなよりきめ細かいデータセットを含む,多様なデータセット上でのコンテキスト内分類性能を改善するために,ラベル分布向上とビジュアル記述向上の2つの戦略を提案する。 具体的には、ImageNetのアプローチを用いて、4ショット設定で74.70\%から2ショットで76.21\%に精度を向上する。 CLIP を 0.67 % 上回る。 CUB-200では,CLIPよりも1ショット精度が48.86\%から69.05\%,12.15\%に向上した。 コードはhttps://anonymous.4open.science/r/MLS_ICCで与えられる。

After pre-training by generating the next word conditional on previous words, the Language Model (LM) acquires the ability of In-Context Learning (ICL) that can learn a new task conditional on the context of the given in-context examples (ICEs). Similarly, visually-conditioned Language Modelling is also used to train Vision-Language Models (VLMs) with ICL ability. However, such VLMs typically exhibit weaker classification abilities compared to contrastive learning-based models like CLIP, since the Language Modelling objective does not directly contrast whether an object is paired with a text. To improve the ICL of classification, using more ICEs to provide more knowledge is a straightforward way. However, this may largely increase the selection time, and more importantly, the inclusion of additional in-context images tends to extend the length of the in-context sequence beyond the processing capacity of a VLM. To alleviate these limitations, we propose to manipulate the label space of each ICE to increase its knowledge density, allowing for fewer ICEs to convey as much information as a larger set would. Specifically, we propose two strategies which are Label Distribution Enhancement and Visual Descriptions Enhancement to improve In-context classification performance on diverse datasets, including the classic ImageNet and more fine-grained datasets like CUB-200. Specifically, using our approach on ImageNet, we increase accuracy from 74.70\% in a 4-shot setting to 76.21\% with just 2 shots. surpassing CLIP by 0.67\%. On CUB-200, our method raises 1-shot accuracy from 48.86\% to 69.05\%, 12.15\% higher than CLIP. The code is given in https://anonymous.4open.science/r/MLS_ICC.
翻訳日:2023-12-08 17:48:20 公開日:2023-12-06
# バイオメディカル時系列のためのマルチスケール・マルチモーダルコントラスト学習ネットワーク

Multi-Scale and Multi-Modal Contrastive Learning Network for Biomedical Time Series ( http://arxiv.org/abs/2312.03796v1 )

ライセンス: Link先を確認
Hongbo Guo, Xinzi Xu, Hao Wu, and Guoxing Wang(参考訳) MBTS(Multi-modal Biomedical Time Series)のデータは生理状態の全体像を提供し、様々なバイオメディカル応用において重要な役割を担っている。 異なるモードにわたる固有ノイズと分布ギャップのため、MBTSはモデル化に複雑である。 MBTSの表現を学習するために様々なディープラーニングモデルが開発されているが、モーダル・モーダル変動の無知のため、依然として頑健さに欠けている。 本稿では, マルチスケール・マルチモーダル・バイオメディカル・時系列表現学習(MBSL)ネットワークを提案する。 まず、MBTSはモーダル間距離に基づいてグループ化され、最小モード内変動を持つ各グループは、個々のエンコーダによって効果的にモデル化できる。 さらに,マルチスケールの特徴抽出(エンコーダ)を強化するため,様々なパッチ長とマスク比が,それぞれ異なるスケールで意味情報を持つトークンを生成するように設計されている。 最後に,モーダル間グループ間の一貫性を最大化し,有用な情報を維持し,ノイズを除去すべく,クロスモーダルコントラスト学習を提案する。 4つの生体医学的応用に対する実験によると、MBSLは、呼吸速度の平均誤差(MAE)が33.9%、運動心拍数が13.8%、人間の活動認識の精度が1.41%、閉塞性睡眠時無呼吸症候群のF1スコアが1.14%である。

Multi-modal biomedical time series (MBTS) data offers a holistic view of the physiological state, holding significant importance in various bio-medical applications. Owing to inherent noise and distribution gaps across different modalities, MBTS can be complex to model. Various deep learning models have been developed to learn representations of MBTS but still fall short in robustness due to the ignorance of modal-to-modal variations. This paper presents a multi-scale and multi-modal biomedical time series representation learning (MBSL) network with contrastive learning to migrate these variations. Firstly, MBTS is grouped based on inter-modal distances, then each group with minimum intra-modal variations can be effectively modeled by individual encoders. Besides, to enhance the multi-scale feature extraction (encoder), various patch lengths and mask ratios are designed to generate tokens with semantic information at different scales and diverse contextual perspectives respectively. Finally, cross-modal contrastive learning is proposed to maximize consistency among inter-modal groups, maintaining useful information and eliminating noises. Experiments against four bio-medical applications show that MBSL outperforms state-of-the-art models by 33.9% mean average errors (MAE) in respiration rate, by 13.8% MAE in exercise heart rate, by 1.41% accuracy in human activity recognition, and by 1.14% F1-score in obstructive sleep apnea-hypopnea syndrome.
翻訳日:2023-12-08 17:41:54 公開日:2023-12-06
# 建設廃棄物運搬トラックの輸送活動予測:インプット・アウトプット・ハイデン・マルコフアプローチ

Predicting the Transportation Activities of Construction Waste Hauling Trucks: An Input-Output Hidden Markov Approach ( http://arxiv.org/abs/2312.03780v1 )

ライセンス: Link先を確認
Hongtai Yang, Boyi Lei, Ke Han, Luna Liu(参考訳) 建設廃棄物運搬トラック(CWHT)は、世界中の主要都市でよく見られる重厚車両の1つであるが、通常、NOxやPMエミッションを発生させるだけでなく、道路上の逃亡ダストを発生させるため、一連の規制や時空間アクセス制限が課される。 CWHTの目的地と居住時間のタイムリーかつ正確な予測は、効果的な環境管理において重要な役割を果たす。 この課題に対処するために,中国成都の300cwhtsにおいて,入力出力隠れマルコフモデル(iohmm)に基づく予測手法を提案し,検証を行った。 予測能力を改善するために、文脈要因がモデルにおいて考慮される。 その結果,IOHMMはマルコフ連鎖,線形回帰,長期記憶など,いくつかのベースラインモデルよりも優れていた。 CWHTsの輸送活動の予測可能性に影響を与える要因についても線形回帰モデルを用いて検討した。 提案モデルは,CWHTの今後の輸送活動の予測と介入の実施をタイムリーかつ効果的に行うことで,当局を支援することを約束している。

Construction waste hauling trucks (CWHTs), as one of the most commonly seen heavy-duty vehicles in major cities around the globe, are usually subject to a series of regulations and spatial-temporal access restrictions because they not only produce significant NOx and PM emissions but also causes on-road fugitive dust. The timely and accurate prediction of CWHTs' destinations and dwell times play a key role in effective environmental management. To address this challenge, we propose a prediction method based on an interpretable activity-based model, input-output hidden Markov model (IOHMM), and validate it on 300 CWHTs in Chengdu, China. Contextual factors are considered in the model to improve its prediction power. Results show that the IOHMM outperforms several baseline models, including Markov chains, linear regression, and long short-term memory. Factors influencing the predictability of CWHTs' transportation activities are also explored using linear regression models. Results suggest the proposed model holds promise in assisting authorities by predicting the upcoming transportation activities of CWHTs and administering intervention in a timely and effective manner.
翻訳日:2023-12-08 17:41:20 公開日:2023-12-06
# 還元tsallis相対エントロピーについて

On reduced Tsallis relative entropy ( http://arxiv.org/abs/2312.03778v1 )

ライセンス: Link先を確認
Shigeru Furuichi and Frank Hansen(参考訳) 縮小された相対エントロピーの変動表現を与える。 還元された tsallis 相対エントロピーが定義され、いくつかの結果が与えられる。 特に、還元されたツァリス相対エントロピーの凸性が与えられる。 金-トンプソンとジェンセンのトレース不等式の間の補間不等式は1パラメータ拡張指数関数と正定値行列に対して与えられる。 さらに、還元されたtsallis相対エントロピーの変動式を示すことにより、還元されたtsallis相対エントロピーの下限が一定の仮定で与えられる。 最後に、還元されたツァリス相対エントロピーの上界が与えられる。

A variational expression of the reduced relative entropy is given. A reduced Tsallis relative entropy is defined and some results are given. In particular, the convexity of the reduced Tsallis relative entropy is given. An interpolational inequality between Golden--Thompson and Jensen's trace inequalitie is given for one--parameter extended exponential function and positive definite matrices. In addition, a lower bound of the reduced Tsallis relative entropy is given under a certain assumption, by showing a variational expression of the reduced Tsallis relative entropy. Finally, an upper bound of the reduced Tsallis relative entropy is given.
翻訳日:2023-12-08 17:40:59 公開日:2023-12-06
# 画像逆攻撃に対する大規模マルチモーダルモデルのロバスト性について

On the Robustness of Large Multimodal Models Against Image Adversarial Attacks ( http://arxiv.org/abs/2312.03777v1 )

ライセンス: Link先を確認
Xuanimng Cui, Alejandro Aparcedo, Young Kyun Jang, Ser-Nam Lim(参考訳) 最近の命令チューニングの進歩は最先端の大規模マルチモーダルモデル(lmms)の開発につながった。 これらのモデルが新規であることを考えると、LMMに対する視覚的敵対攻撃の影響は十分に検討されていない。 我々は、画像分類、画像キャプション、視覚質問応答(VQA)など、様々な敵攻撃に対する様々なLMMの堅牢性について、包括的な研究を行った。 一般に、LMMは視覚的逆入力に対して堅牢ではない。 しかし,この結果から,QAペアの質問など,モデルに与えられた文脈が,視覚的対角入力の効果を軽減することが示唆された。 特に、LMMの評価では、ScienceQAタスクに対する攻撃に対して、99.73%の視覚的な攻撃に比べて、パフォーマンスがわずか8.10%低下した。 また,問合せ分解と呼ぶ実世界の画像分類への新しいアプローチを提案する。 入力プロンプトに存在クエリを組み込むことにより,攻撃効果の低下と画像分類精度の向上を観察する。 本研究は,LMMのロバスト性について未解明の側面を強調し,対向環境におけるマルチモーダルシステムのレジリエンス向上を目的とした今後の研究の舞台となる。

Recent advances in instruction tuning have led to the development of State-of-the-Art Large Multimodal Models (LMMs). Given the novelty of these models, the impact of visual adversarial attacks on LMMs has not been thoroughly examined. We conduct a comprehensive study of the robustness of various LMMs against different adversarial attacks, evaluated across tasks including image classification, image captioning, and Visual Question Answer (VQA). We find that in general LMMs are not robust to visual adversarial inputs. However, our findings suggest that context provided to the model via prompts, such as questions in a QA pair helps to mitigate the effects of visual adversarial inputs. Notably, the LMMs evaluated demonstrated remarkable resilience to such attacks on the ScienceQA task with only an 8.10% drop in performance compared to their visual counterparts which dropped 99.73%. We also propose a new approach to real-world image classification which we term query decomposition. By incorporating existence queries into our input prompt we observe diminished attack effectiveness and improvements in image classification accuracy. This research highlights a previously under-explored facet of LMM robustness and sets the stage for future work aimed at strengthening the resilience of multimodal systems in adversarial environments.
翻訳日:2023-12-08 17:40:51 公開日:2023-12-06
# faac:アンカーフレームと条件制御による顔アニメーション生成による忠実性と編集性の向上

FAAC: Facial Animation Generation with Anchor Frame and Conditional Control for Superior Fidelity and Editability ( http://arxiv.org/abs/2312.03775v1 )

ライセンス: Link先を確認
Linze Li, Sunqi Fan, Hengjun Pu, Zhaodong Bing, Yao Tang, Tianzhu Ye, Tong Yang, Liangyu Chen, Jiajun Liang(参考訳) 近年、拡散モデルはビデオ生成の大幅な進歩を促している。 しかし、顔に関連したビデオの作成は、低い顔の忠実度、フレームの一貫性の欠如、編集可能性の制限、コントロール不能な人間のポーズといった問題に直面している。 これらの課題に対処するために,フレーム一貫性を確保しつつ,顔の同一性と編集能力を両立させる顔アニメーション生成手法を提案する。 この手法は、アンカーフレームの概念を取り入れ、モーションモジュールを組み込む際にオリジナルのテキスト・ツー・イメージモデルにおける生成能力の劣化に対処する。 トレーニングフリーとトレーニングベースのアンカーフレーム方式の2つの戦略を提案する。 提案手法の有効性は,複数の代表的なDreamBoothモデルとLoRAモデルで検証され,顔の忠実度,テキスト・ツー・イメージの編集性,ビデオモーションといった面で,当初の結果よりも大幅に改善されている。 さらに, 3次元パラメトリック顔モデルを用いた条件制御により, 正確な顔の動きや表情をキャプチャする。 このソリューションは、複数の制御信号の統合により、顔アニメーション生成の創造性を高める。 追加サンプルはhttps://anonymous.4open.science/r/faacを参照。

Over recent years, diffusion models have facilitated significant advancements in video generation. Yet, the creation of face-related videos still confronts issues such as low facial fidelity, lack of frame consistency, limited editability and uncontrollable human poses. To address these challenges, we introduce a facial animation generation method that enhances both face identity fidelity and editing capabilities while ensuring frame consistency. This approach incorporates the concept of an anchor frame to counteract the degradation of generative ability in original text-to-image models when incorporating a motion module. We propose two strategies towards this objective: training-free and training-based anchor frame methods. Our method's efficacy has been validated on multiple representative DreamBooth and LoRA models, delivering substantial improvements over the original outcomes in terms of facial fidelity, text-to-image editability, and video motion. Moreover, we introduce conditional control using a 3D parametric face model to capture accurate facial movements and expressions. This solution augments the creative possibilities for facial animation generation through the integration of multiple control signals. For additional samples, please visit https://anonymous.4open.science/r/FAAC.
翻訳日:2023-12-08 17:40:34 公開日:2023-12-06
# OctreeOcc:Octreeクエリを用いた効率的なマルチグラニュラリティ実行予測

OctreeOcc: Efficient and Multi-Granularity Occupancy Prediction Using Octree Queries ( http://arxiv.org/abs/2312.03774v1 )

ライセンス: Link先を確認
Yuhang Lu, Xinge Zhu, Tai Wang, Yuexin Ma(参考訳) 近年,3Dシーンのきめ細かい理解のために,職業予測が注目を集めている。 伝統的なアプローチは一般に密度の高い正規の格子表現に依存しており、しばしば過剰な計算要求と小さな物体の空間的詳細が失われる。 本稿では,octree表現を利用して3dで有用な情報を適応的にキャプチャし,オブジェクト形状や大きさや複雑さの異なる意味領域に対応する可変粒度を提供する,革新的な3次元占有予測フレームワークであるocreeoccを紹介する。 特に,画像意味情報を組み込んで初期オクツリー構造の精度を向上させるとともに,オクツリー構造を反復的に洗練するための効果的な修正機構を設計する。 以上の結果から,OctreeOccは占有率予測において最先端の手法を上回るだけでなく,高密度グリッド法に比べて計算オーバーヘッドを15%-24%削減できることがわかった。

Occupancy prediction has increasingly garnered attention in recent years for its fine-grained understanding of 3D scenes. Traditional approaches typically rely on dense, regular grid representations, which often leads to excessive computational demands and a loss of spatial details for small objects. This paper introduces OctreeOcc, an innovative 3D occupancy prediction framework that leverages the octree representation to adaptively capture valuable information in 3D, offering variable granularity to accommodate object shapes and semantic regions of varying sizes and complexities. In particular, we incorporate image semantic information to improve the accuracy of initial octree structures and design an effective rectification mechanism to refine the octree structure iteratively. Our extensive evaluations show that OctreeOcc not only surpasses state-of-the-art methods in occupancy prediction, but also achieves a 15%-24% reduction in computational overhead compared to dense-grid-based methods.
翻訳日:2023-12-08 17:40:14 公開日:2023-12-06
# どれくらい低いのか? 教師なし異常検出のための非定型的分布サンプル

How Low Can You Go? Surfacing Prototypical In-Distribution Samples for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2312.03804v1 )

ライセンス: Link先を確認
Felix Meissen, Johannes Getzner, Alexander Ziller, Georgios Kaissis, Daniel Rueckert(参考訳) 教師なし異常検出(unsupervised anomaly detection, uad)はラベルなしの分布データのみをトレーニングし、異常値を検出することで、大きなラベル付け作業を軽減している。 一般的に、大きなトレーニングデータセットが高パフォーマンスなuadモデルのトレーニングを可能にするという仮定が通用する。 しかし、本研究では、トレーニングデータセット全体のトレーニングと比較して、非常に少ないトレーニングサンプルしか使用できないこと、場合によっては異常検出を改善できることが示されている。 本研究では,分布サンプルの大規模データセットから原型標本を同定する3つの手法を提案する。 このようなサンプルを10個に限定してトレーニングすることで、cifar10で96.37ドル、cifar100で95.9ドル、mnistで95.37ドル、ファッションmnistで95.38ドル、mvtec-adで96.37ドル、bratsで98.81ドル、rsna肺炎検出で81.95ドル、テストした25/67ドルのクラスでフルトレーニングの成績を上回っても、受信者の動作特性曲線(auroc)の下での領域が達成できることを実証した。 さらに,提案手法によって同定された原型内分布サンプルは,異なるモデルや他のデータセットによく翻訳され,その特徴をガイダンスとして利用することで,高性能サンプルの小さなサブセットを手作業で選択できることを示す。 私たちのコードはhttps://anonymous.4open.science/r/uad_prototypical_samples/で利用可能です。

Unsupervised anomaly detection (UAD) alleviates large labeling efforts by training exclusively on unlabeled in-distribution data and detecting outliers as anomalies. Generally, the assumption prevails that large training datasets allow the training of higher-performing UAD models. However, in this work, we show that using only very few training samples can already match - and in some cases even improve - anomaly detection compared to training with the whole training dataset. We propose three methods to identify prototypical samples from a large dataset of in-distribution samples. We demonstrate that by training with a subset of just ten such samples, we achieve an area under the receiver operating characteristics curve (AUROC) of $96.37 \%$ on CIFAR10, $92.59 \%$ on CIFAR100, $95.37 \%$ on MNIST, $95.38 \%$ on Fashion-MNIST, $96.37 \%$ on MVTec-AD, $98.81 \%$ on BraTS, and $81.95 \%$ on RSNA pneumonia detection, even exceeding the performance of full training in $25/67$ classes we tested. Additionally, we show that the prototypical in-distribution samples identified by our proposed methods translate well to different models and other datasets and that using their characteristics as guidance allows for successful manual selection of small subsets of high-performing samples. Our code is available at https://anonymous.4open.science/r/uad_prototypical_samples/
翻訳日:2023-12-08 17:29:41 公開日:2023-12-06
# 文脈学習による新しい順序決定課題への一般化

Generalization to New Sequential Decision Making Tasks with In-Context Learning ( http://arxiv.org/abs/2312.03801v1 )

ライセンス: Link先を確認
Sharath Chandra Raparthy, Eric Hambro, Robert Kirk, Mikael Henaff, Roberta Raileanu(参考訳) 少数のデモから新しいタスクを学習できる自律エージェントの訓練は、機械学習における長年の問題である。 近年、トランスフォーマーは、いくつかの例から何の重みも加えずに新しい言語や視覚タスクを学習することが示されている。 しかし、逐次的な意思決定設定は、環境の確率性やエージェントの行動が目に見えず、時には保存不可能な状態につながるため、エラーに対する耐性が低い追加の課題を生じさせる。 本稿では, 逐次決定問題に対するトランスフォーマーの適用が, 新しいタスクの文脈内学習を可能としないことを示すために, 実例を用いた。 次に、ある分布特性を持つ軌道のシーケンスのトレーニングが、新しい順序決定タスクのコンテキスト内学習にどのようにつながるかを示す。 異なる設計選択を調査し、より多くのタスクの多様性、環境確率性、トラジェクティブバーストネスなど、より大きなモデルとデータセットのサイズが、新しいアウト・オブ・ディストリビューションタスクのコンテキスト内学習の改善をもたらすことを発見した。 大規模なオフラインデータセットをトレーニングすることで、私たちのモデルは、ほんの数回のデモから重みを更新することなく、新しいMiniHackとProcgenタスクを学習できます。

Training autonomous agents that can learn new tasks from only a handful of demonstrations is a long-standing problem in machine learning. Recently, transformers have been shown to learn new language or vision tasks without any weight updates from only a few examples, also referred to as in-context learning. However, the sequential decision making setting poses additional challenges having a lower tolerance for errors since the environment's stochasticity or the agent's actions can lead to unseen, and sometimes unrecoverable, states. In this paper, we use an illustrative example to show that naively applying transformers to sequential decision making problems does not enable in-context learning of new tasks. We then demonstrate how training on sequences of trajectories with certain distributional properties leads to in-context learning of new sequential decision making tasks. We investigate different design choices and find that larger model and dataset sizes, as well as more task diversity, environment stochasticity, and trajectory burstiness, all result in better in-context learning of new out-of-distribution tasks. By training on large diverse offline datasets, our model is able to learn new MiniHack and Procgen tasks without any weight updates from just a handful of demonstrations.
翻訳日:2023-12-08 17:29:06 公開日:2023-12-06
# イベントカメラを用いた低消費電力連続遠隔行動定位

Low-power, Continuous Remote Behavioral Localization with Event Cameras ( http://arxiv.org/abs/2312.03799v1 )

ライセンス: Link先を確認
Friedhelm Hamann, Suman Ghosh, Ignacio Juarez Martinez, Tom Hart, Alex Kacelnik, Guillermo Gallego(参考訳) 自然科学の研究者は動物行動の定量化に信頼できる方法を必要としている。 近年,プロセスを自動化するためのコンピュータビジョン手法が数多く登場している。 しかし,遠隔地における野生生物の観測は,照明条件や電力供給・データ貯蔵の制約などにより困難な課題となっている。 イベントカメラは、低消費電力と高ダイナミックレンジ機能のため、バッテリー依存のリモート監視にユニークな利点を提供する。 我々はこの新しいセンサーを用いて、静電ディスプレイと呼ばれるチンストラップペンギンの挙動を定量化する。 時間的行動検出タスクとして問題を定式化し,行動開始時刻と終了時刻を決定する。 この目的のために,南極で数週間にわたって繁殖するペンギンのコロニーを記録し,16羽の巣のイベントデータをラベル付けした。 提案手法は,候補時間間隔(韻律)の生成器と,その中の動作の分類器から構成される。 実験によれば、イベントカメラの運動に対する自然な反応は連続的な行動監視と検出に有効であり、平均平均精度 (map) は58%に達している(良好な気象条件下では63%まで増加する)。 また,難解なデータセットに含まれる様々な照明条件に対する堅牢性を示す。 イベントカメラの低消費電力化により、従来のカメラの3倍の時間記録が可能となる。 この研究は、リモート野生生物観察のためのイベントカメラの使用の先駆けとなり、新たな学際的な機会を開く。 https://tub-rip.github.io/eventpenguins/

Researchers in natural science need reliable methods for quantifying animal behavior. Recently, numerous computer vision methods emerged to automate the process. However, observing wild species at remote locations remains a challenging task due to difficult lighting conditions and constraints on power supply and data storage. Event cameras offer unique advantages for battery-dependent remote monitoring due to their low power consumption and high dynamic range capabilities. We use this novel sensor to quantify a behavior in Chinstrap penguins called ecstatic display. We formulate the problem as a temporal action detection task, determining the start and end times of the behavior. For this purpose, we recorded a colony of breeding penguins in Antarctica during several weeks and labeled event data on 16 nests. The developed method consists of a generator of candidate time intervals (proposals) and a classifier of the actions within them. The experiments show that the event cameras' natural response to motion is effective for continuous behavior monitoring and detection, reaching a mean average precision (mAP) of 58% (which increases to 63% in good weather conditions). The results also demonstrate the robustness against various lighting conditions contained in the challenging dataset. The low-power capabilities of the event camera allows to record three times longer than with a conventional camera. This work pioneers the use of event cameras for remote wildlife observation, opening new interdisciplinary opportunities. https://tub-rip.github.io/eventpenguins/
翻訳日:2023-12-08 17:28:43 公開日:2023-12-06
# 反射強度事前知識を用いた単一画像反射除去

Single Image Reflection Removal with Reflection Intensity Prior Knowledge ( http://arxiv.org/abs/2312.03798v1 )

ライセンス: Link先を確認
Dongshen Han, Seungkyu Lee, Chaoning Zhang, Heechan Yoon, Hyukmin Kwon, HyunCheol Kim, HyonGon Choo(参考訳) 光の透過と反射の間にガラス表面で発生する多様な画像劣化のために、現実世界の画像におけるシングルイメージリフレクション除去(SIRR)は難しい課題である。 既存の多くの手法は、問題の解決に特定の前提に依存している。 本稿では,反射現象の強度を捉えた一般反射強度を先行して提案し,その効果を示す。 反射強度を事前に学習するために,反射優先抽出ネットワーク(RPEN)を導入する。 画像の領域パッチへの分割により、RPENは画像に先立って一様でない反射を学習する。 本稿では,RPENから事前に供給されたリフレクションに適応する単純なトランスフォーマU-Netアーキテクチャを用いて,プリエントベースリフレクション除去ネットワーク(PRRN)を提案する。 実世界のベンチマーク実験の結果から,sirにおける最先端精度を実現する手法の有効性が示された。

Single Image Reflection Removal (SIRR) in real-world images is a challenging task due to diverse image degradations occurring on the glass surface during light transmission and reflection. Many existing methods rely on specific prior assumptions to resolve the problem. In this paper, we propose a general reflection intensity prior that captures the intensity of the reflection phenomenon and demonstrate its effectiveness. To learn the reflection intensity prior, we introduce the Reflection Prior Extraction Network (RPEN). By segmenting images into regional patches, RPEN learns non-uniform reflection prior in an image. We propose Prior-based Reflection Removal Network (PRRN) using a simple transformer U-Net architecture that adapts reflection prior fed from RPEN. Experimental results on real-world benchmarks demonstrate the effectiveness of our approach achieving state-of-the-art accuracy in SIRR.
翻訳日:2023-12-08 17:28:18 公開日:2023-12-06
# AnimatableDreamer: テキストガイドによる非剛性3次元モデル生成とカノニカルスコア蒸留による再構成

AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation ( http://arxiv.org/abs/2312.03795v1 )

ライセンス: Link先を確認
Xinzhou Wang, Yikai Wang, Junliang Ye, Zhengyi Wang, Fuchun Sun, Pengkun Liu, Ling Wang, Kai Sun, Xintong Wang, Bin He(参考訳) テキストから3Dモデルへの適応は、高度な静的な3Dモデルの品質を持つが、特に大きな動きを持つアニマタブルオブジェクトに対しては、シーケンシャルな3Dモデル生成は依然として不十分である。 本研究は,モノクロ映像から抽出した物体の動きに付着しながら,多種多様な非剛体物体を生成できるテキストから4D生成フレームワークAnimatableDreamerを提案する。 animatabledreamerの中核となるのが、canonical score distillation(csd)と呼ばれる新しい最適化デザインです。これは、ビデオ毎に共有されるユニークな正準空間で蒸留処理を行いながら、時間的に変化するカメラ空間の異なるフレームをノイズにすることで、生成次元を4dから3dに単純化するものです。 具体的には、CSDは、スコア勾配が微分可能なワープによって正準空間に逆伝播することを保証し、したがって時間一貫性の生成を保証し、異なるポーズにおける形態的確率を維持する。 3dジェネレータをワーピング機能付き4dに引き上げることで、animatabledreamerは非剛性3dモデルの生成と再構成に関する新しい視点を提供する。 さらに、多視点一貫した拡散モデルからの帰納的知識により、CSDは新規な視点からの再構成を規則化し、生成過程を循環的に強化する。 広汎な実験により, モノクロ映像から高柔軟性テキスト誘導3次元モデルを生成するとともに, 通常の非剛性再構成法よりも再現性能が向上した。 プロジェクトページhttps://animatabledreamer.github.io.com

Text-to-3D model adaptations have advanced static 3D model quality, but sequential 3D model generation, particularly for animatable objects with large motions, is still scarce. Our work proposes AnimatableDreamer, a text-to-4D generation framework capable of generating diverse categories of non-rigid objects while adhering to the object motions extracted from a monocular video. At its core, AnimatableDreamer is equipped with our novel optimization design dubbed Canonical Score Distillation (CSD), which simplifies the generation dimension from 4D to 3D by denoising over different frames in the time-varying camera spaces while conducting the distillation process in a unique canonical space shared per video. Concretely, CSD ensures that score gradients back-propagate to the canonical space through differentiable warping, hence guaranteeing the time-consistent generation and maintaining morphological plausibility across different poses. By lifting the 3D generator to 4D with warping functions, AnimatableDreamer offers a novel perspective on non-rigid 3D model generation and reconstruction. Besides, with inductive knowledge from a multi-view consistent diffusion model, CSD regularizes reconstruction from novel views, thus cyclically enhancing the generation process. Extensive experiments demonstrate the capability of our method in generating high-flexibility text-guided 3D models from the monocular video, while also showing improved reconstruction performance over typical non-rigid reconstruction methods. Project page https://AnimatableDreamer.github.io.
翻訳日:2023-12-08 17:28:08 公開日:2023-12-06
# AnimateZero:ビデオ拡散モデルはゼロショット画像アニメーター

AnimateZero: Video Diffusion Models are Zero-Shot Image Animators ( http://arxiv.org/abs/2312.03793v1 )

ライセンス: Link先を確認
Jiwen Yu, Xiaodong Cun, Chenyang Qi, Yong Zhang, Xintao Wang, Ying Shan, Jian Zhang(参考訳) 大規模テキスト・ビデオ拡散モデル(T2V)は近年,視覚的品質,動き,時間的一貫性の面で大きな進歩を遂げている。 しかし、生成プロセスは依然としてブラックボックスであり、粗いテキスト記述以外の正確な制御能力なしに、すべての属性(外観、動きなど)を学習し、共同で生成する。 AnimateZero は,映像の特定の外観と対応する動きを分離した画像アニメーションにインスパイアされ,事前訓練したテキスト・ビデオ拡散モデル,すなわち AnimateDiff を公開し,より正確な外観とモーションコントロール能力を提供する。 出現制御には,テキスト・ツー・イメージ(t2i)生成から中間潜在子とその特徴を借用し,生成した第1のフレームが与えられた画像と等しくなるようにする。 時間的制御のために、元のT2Vモデルの大域的時間的注意を位置補正窓の注意に置き換え、他のフレームが第1フレームとよく一致するようにする。 提案手法を応用したAnimateZeroは、さらなるトレーニングを行なわずに生成進捗を制御できる。 与えられた画像のゼロショットイメージアニメーターとして、AnimateZeroはインタラクティブなビデオ生成やリアルなイメージアニメーションなど、複数の新しいアプリケーションを可能にする。 詳細な実験により,t2vと関連する応用において提案手法の有効性が示された。

Large-scale text-to-video (T2V) diffusion models have great progress in recent years in terms of visual quality, motion and temporal consistency. However, the generation process is still a black box, where all attributes (e.g., appearance, motion) are learned and generated jointly without precise control ability other than rough text descriptions. Inspired by image animation which decouples the video as one specific appearance with the corresponding motion, we propose AnimateZero to unveil the pre-trained text-to-video diffusion model, i.e., AnimateDiff, and provide more precise appearance and motion control abilities for it. For appearance control, we borrow intermediate latents and their features from the text-to-image (T2I) generation for ensuring the generated first frame is equal to the given generated image. For temporal control, we replace the global temporal attention of the original T2V model with our proposed positional-corrected window attention to ensure other frames align with the first frame well. Empowered by the proposed methods, AnimateZero can successfully control the generating progress without further training. As a zero-shot image animator for given images, AnimateZero also enables multiple new applications, including interactive video generation and real image animation. The detailed experiments demonstrate the effectiveness of the proposed method in both T2V and related applications.
翻訳日:2023-12-08 17:27:37 公開日:2023-12-06
# PCDP-SGD:プロジェクションによる個人別SGDの収束性の向上

PCDP-SGD: Improving the Convergence of Differentially Private SGD via Projection in Advance ( http://arxiv.org/abs/2312.03792v1 )

ライセンス: Link先を確認
Haichao Sha (1) and Ruixuan Liu (1) and Yixuan Liu (1) and Hong Chen (1) ((1) Renmin University of China)(参考訳) Differentially Private SGD~(DP-SGD)のパラダイムは、集中型および連合型両方の環境でのトレーニングデータの理論的保証を提供する。 しかし,dp-sgdによる有用性の低下は,医療画像診断などのハイステイクタスクに広く応用されている。 必要な摂動に加えて、収束問題は勾配クリッピングの情報損失に起因する。 本研究では,冗長な勾配ノルムを圧縮し,勾配クリッピング前の投影操作によりより重要なトップ勾配成分を保存する汎用フレームワークpcdp-sgdを提案する。 さらに,PCDP-SGDを差分プライバシーフェデレーション学習の基本要素として拡張し,データの異種課題を緩和し,効率的なコミュニケーションを実現する。 プレプロジェクションは,上勾配固有空間の分数へのクリッピング誤差とバイアスの依存性を減少させることにより,dp-sgdの収束を促進することを証明し,理論的には,異種結合下での収束を改善するためにクライアント間分散を制限する。 実験の結果,PCDP-SGDはコンピュータビジョンタスクにおける最先端のDP-SGD変種と比較して精度が高いことがわかった。 さらに、PCDP-SGDは、ローカルトレーニングセット上でDPが保証された場合、現在のフェデレーション学習フレームワークよりも優れている。

The paradigm of Differentially Private SGD~(DP-SGD) can provide a theoretical guarantee for training data in both centralized and federated settings. However, the utility degradation caused by DP-SGD limits its wide application in high-stakes tasks, such as medical image diagnosis. In addition to the necessary perturbation, the convergence issue is attributed to the information loss on the gradient clipping. In this work, we propose a general framework PCDP-SGD, which aims to compress redundant gradient norms and preserve more crucial top gradient components via projection operation before gradient clipping. Additionally, we extend PCDP-SGD as a fundamental component in differential privacy federated learning~(DPFL) for mitigating the data heterogeneous challenge and achieving efficient communication. We prove that pre-projection enhances the convergence of DP-SGD by reducing the dependence of clipping error and bias to a fraction of the top gradient eigenspace, and in theory, limits cross-client variance to improve the convergence under heterogeneous federation. Experimental results demonstrate that PCDP-SGD achieves higher accuracy compared with state-of-the-art DP-SGD variants in computer vision tasks. Moreover, PCDP-SGD outperforms current federated learning frameworks when DP is guaranteed on local training sets.
翻訳日:2023-12-08 17:27:12 公開日:2023-12-06
# 量子計算力学へ向けて

Towards Quantum Computational Mechanics ( http://arxiv.org/abs/2312.03791v1 )

ライセンス: Link先を確認
Burigede Liu, Michael Ortiz, Fehmi Cirak(参考訳) 量子コンピューティングの急速な進歩は、コンピュータシミュレーションの新しい時代を告げ、多様な分野にまたがる画期的な機会をもたらした。 この革命の中心は量子プロセッサが量子ビットを絡み合う能力であり、古典的計算の限界をはるかに超える極端なスケールで計算課題に対処する前例のない可能性を解き放ちます。 本研究では,量子コンピューティングを用いて計算力学を向上する方法について検討する。 我々は,マルチスケールソリッド・メカニクスの枠組みにおける代表的体積要素(RVE)の分析に重点を置いている。 RVE問題を解くために設計された革新的な量子アルゴリズムを導入する。 このアルゴリズムは、離散化サイズ$N$ in $\mathcal{O}(\textrm{Poly log}(N))$ timeを計算し、通常$N$と線形にスケールする従来の計算手法よりも指数関数的なスピードアップを達成することができる。 本研究では, 1 次元および 2 次元ポアソン方程式の解法や, 分割定数位相をもつ合成棒の rve を含むケーススタディを用いて, 本手法の有効性を検証する。 我々は、アプローチの効率性を理解するために、$\mathcal{O}(\textrm{Poly log}(N))$ Universal quantum gatesのみを必要とする量子回路設計を提供する。 私たちの研究は、量子コンピューティングと組み合わせ、計算力学に重きを置くための主要な方法を提案しています。

The rapid advancements in quantum computing as ushered in a new era for computer simulations, presenting groundbreaking opportunities across diverse disciplines. Central to this revolution is the quantum processor's capacity to entangle qubits, unlocking unprecedented possibilities for addressing computational challenges on an extreme scale, far beyond the reach of classical computing. In this study, we explore how quantum computing can be employed to enhance computational mechanics. Our focus is on the analysis of Representative Volume Element (RVE) within the framework of multiscale solid mechanics. We introduce an innovative quantum algorithm designed to solve the RVE problem. This algorithm is capable of compute RVEs of discretization size $N$ in $\mathcal{O}(\textrm{Poly log}(N))$ time, thus achieving an exponential speed-up over traditional classical computing approaches that typically scales linearly with $N$. We validate our approach with case studies including the solution of one and two dimensional Poisson's equation, as well as an RVE of a composite bar with piece-wise constant phases. We provide quantum circuit designs that requires only $\mathcal{O}(\textrm{Poly log}(N))$ universal quantum gates,underscoring the efficiency of our approach. Our work suggests a major way in which quantum computing can be combined with and brought to bear on computational mechanics.
翻訳日:2023-12-08 17:26:48 公開日:2023-12-06
# 半径分布直交コスト体積を経由するメモリ効率光フロー

Memory-Efficient Optical Flow via Radius-Distribution Orthogonal Cost Volume ( http://arxiv.org/abs/2312.03790v1 )

ライセンス: Link先を確認
Gangwei Xu, Shujun Chen, Hao Jia, Miaojie Feng, Xin Yang(参考訳) Recurrent All-Pairs Field Transforms (RAFT) または Global matching by Transformer のフル4Dコストボリュームは、光学的フロー推定において素晴らしい性能を達成する。 しかし、そのメモリ消費は入力解像度と二乗的に増加し、高解像度画像では実用的でない。 本稿では,高分解能光流量推定のためのメモリ効率の高い手法であるmeflowを提案する。 MeFlowの鍵となるのは,2次元の探索空間を動的に2次元の直交空間に分解する局所直交コスト容積表現である。 直交空間における本質的な情報を保存するために、自己注意を利用して2次元空間から直交空間へ特徴情報を伝達する。 さらに,大きな変位の対応性を無視可能なコストでモデル化するための,半径分布多スケール探索戦略を提案する。 SintelとKITTIのベンチマークと実世界の4K(2160\! タイムズ! 3840ドル)の画像。 Sintel と KITTI のベンチマークでは,高解像度入力において高いメモリ効率を維持しながら,競合性能を実現する。

The full 4D cost volume in Recurrent All-Pairs Field Transforms (RAFT) or global matching by Transformer achieves impressive performance for optical flow estimation. However, their memory consumption increases quadratically with input resolution, rendering them impractical for high-resolution images. In this paper, we present MeFlow, a novel memory-efficient method for high-resolution optical flow estimation. The key of MeFlow is a recurrent local orthogonal cost volume representation, which decomposes the 2D search space dynamically into two 1D orthogonal spaces, enabling our method to scale effectively to very high-resolution inputs. To preserve essential information in the orthogonal space, we utilize self attention to propagate feature information from the 2D space to the orthogonal space. We further propose a radius-distribution multi-scale lookup strategy to model the correspondences of large displacements at a negligible cost. We verify the efficiency and effectiveness of our method on the challenging Sintel and KITTI benchmarks, and real-world 4K ($2160\!\times\!3840$) images. Our method achieves competitive performance on both Sintel and KITTI benchmarks, while maintaining the highest memory efficiency on high-resolution inputs.
翻訳日:2023-12-08 17:26:20 公開日:2023-12-06
# 深層学習と埋め込み可視化による多言語テキスト分類と識別の比較分析

Comparative Analysis of Multilingual Text Classification & Identification through Deep Learning and Embedding Visualization ( http://arxiv.org/abs/2312.03789v1 )

ライセンス: Link先を確認
Arinjay Wyawhare(参考訳) 本研究では,ディープラーニングと埋め込み可視化を利用して,多言語テキスト分類法の比較研究を行う。 この研究では、17の言語を含むデータセットにLangDetect、LangId、FastText、Sentence Transformerを採用している。 次元がクラスタリングに与える影響を探求し、fasttextの2d視覚化におけるより明確なクラスタリングを明らかにする。 特に、FastTextのマルチ層パーセプトロンモデルは、精度、精度、リコール、F1スコアを達成し、Sentence Transformerモデルを上回った。 本研究は,多言語テキスト分類におけるこれらの手法の有効性を強調し,埋め込み学習における多言語コーパスの重要性を強調した。 将来の研究の基盤を築き、言語検出と分類システムを開発する実践者を支援する。 さらに、多層パーセプトロン、LSTM、および分類のための畳み込みモデルの比較を含む。

This research conducts a comparative study on multilingual text classification methods, utilizing deep learning and embedding visualization. The study employs LangDetect, LangId, FastText, and Sentence Transformer on a dataset encompassing 17 languages. It explores dimensionality's impact on clustering, revealing FastText's clearer clustering in 2D visualization due to its extensive multilingual corpus training. Notably, the FastText multi-layer perceptron model achieved remarkable accuracy, precision, recall, and F1 score, outperforming the Sentence Transformer model. The study underscores the effectiveness of these techniques in multilingual text classification, emphasizing the importance of large multilingual corpora for training embeddings. It lays the groundwork for future research and assists practitioners in developing language detection and classification systems. Additionally, it includes the comparison of multi-layer perceptron, LSTM, and Convolution models for classification.
翻訳日:2023-12-08 17:25:57 公開日:2023-12-06
# SmoothQuant+:LSMのための4ビット後処理の精度と効率

SmoothQuant+: Accurate and Efficient 4-bit Post-Training WeightQuantization for LLM ( http://arxiv.org/abs/2312.03788v1 )

ライセンス: Link先を確認
Jiayi Pan, Chengcan Wang, Kaifu Zheng, Yangguang Li, Zhenyu Wang, Bin Feng(参考訳) 大規模言語モデル(llm)は様々なタスクにおいて顕著な能力を示している。 しかし、その巨大なモデルサイズと計算リソースとメモリリソースに対する要求は、デプロイをモデル化する上でも課題となる。 4ビット後の量子化(PTQ)は、FP16モデルと比較してメモリフットプリントを約75%削減するが、精度は低下している。 本稿では,SmoothQuant+を提案する。SmoothQuant+は4ビットのウェイトオンリーのPTQで,追加のトレーニングを必要としない。 smoothquant+は、活性化異常値によって重量量子化の損失が増幅されるという事実に基づいて、量子化前のチャネルによる活性化異常値の平滑化を行い、対応する等価値の重みを調整しながら、線形層に対してグループワイズ4ビット重み量子化を行う。 SmoothQuant+をLLM用に特別に開発した高度な高スループット推論エンジンであるvLLMフレームワークに統合し、効率的なW4A16 CUDAカーネルを搭載し、vLLMがSmoothQuant+ 4ビット重み量子化をシームレスにサポートできるようにした。 SmoothQuant+では、Code Llama-34BモデルはA100 40GB GPU上で量子化およびデプロイが可能であり、2つのA100 40GB GPU上にデプロイされたFP16モデルと比較して、ロスレス精度とスループットの1.9から4.0倍のスループット向上を実現している。 さらに、トークン当たりのレイテンシは、2つのA100 40GB GPU上にデプロイされたFP16モデルの68%に過ぎない。 これは我々が知っているLSMの最先端の4ビット量量子化である。

Large language models (LLMs) have shown remarkable capabilities in various tasks. However their huge model size and the consequent demand for computational and memory resources also pose challenges to model deployment. Currently, 4-bit post-training quantization (PTQ) has achieved some success in LLMs, reducing the memory footprint by approximately 75% compared to FP16 models, albeit with some accuracy loss. In this paper, we propose SmoothQuant+, an accurate and efficient 4-bit weight-only PTQ that requires no additional training, which enables lossless in accuracy for LLMs for the first time. Based on the fact that the loss of weight quantization is amplified by the activation outliers, SmoothQuant+ smoothes the activation outliers by channel before quantization, while adjusting the corresponding weights for mathematical equivalence, and then performs group-wise 4-bit weight quantization for linear layers. We have integrated SmoothQuant+ into the vLLM framework, an advanced high-throughput inference engine specially developed for LLMs, and equipped it with an efficient W4A16 CUDA kernels, so that vLLM can seamlessly support SmoothQuant+ 4-bit weight quantization. Our results show that, with SmoothQuant+, the Code Llama-34B model can be quantized and deployed on a A100 40GB GPU, achieving lossless accuracy and a throughput increase of 1.9 to 4.0 times compared to the FP16 model deployed on two A100 40GB GPUs. Moreover, the latency per token is only 68% of the FP16 model deployed on two A100 40GB GPUs. This is the state-of-the-art 4-bit weight quantization for LLMs as we know.
翻訳日:2023-12-08 17:25:41 公開日:2023-12-06
# スポーツ推薦システムの概要と研究課題

Sports Recommender Systems: Overview and Research Issues ( http://arxiv.org/abs/2312.03785v1 )

ライセンス: Link先を確認
Alexander Felfernig and Manfred Wundara and Thi Ngoc Trang Tran and Viet-Man Le and Sebastian Lubos and Seda Polat-Erdeniz(参考訳) スポーツレコメンデーションシステムは、健康な生活を育む可能性、個人の幸福感の向上、スポーツのパフォーマンスの向上によって注目を集めている。 これらのシステムは、例えば、健康的でパフォーマンスの高い食品の推奨、トレーニングプラクティスの推奨、才能とチームの推薦、競技における特定の戦術の推奨などによって、スポーツの人々を支援する。 仮想世界のアプリケーション、例えばeスポーツにおける地図や対戦相手の推奨により、これらのシステムは、物理的存在が必要な通常のスポーツシナリオをすでに超越している。 異なる作業例に基づいて,スポーツレコメンドシステムの適用と技術の概要を紹介する。 全体として、関連技術の現状を分析し、オープンな研究課題について議論する。

Sports recommender systems receive an increasing attention due to their potential of fostering healthy living, improving personal well-being, and increasing performances in sport. These systems support people in sports, for example, by the recommendation of healthy and performance boosting food items, the recommendation of training practices, talent and team recommendation, and the recommendation of specific tactics in competitions. With applications in the virtual world, for example, the recommendation of maps or opponents in e-sports, these systems already transcend conventional sports scenarios where physical presence is needed. On the basis of different working examples, we present an overview of sports recommender systems applications and techniques. Overall, we analyze the related state-of-the-art and discuss open research issues.
翻訳日:2023-12-08 17:25:04 公開日:2023-12-06
# 3次元セマンティックセグメンテーションの基礎モデルと新しいクラス発見

Novel class discovery meets foundation models for 3D semantic segmentation ( http://arxiv.org/abs/2312.03782v1 )

ライセンス: Link先を確認
Luigi Riz, Cristiano Saltori, Yiming Wang, Elisa Ricci and Fabio Poiesi(参考訳) 意味的セグメンテーションにおける新規クラス発見(NCD)のタスクは、注釈付き(ベース)クラスから利用可能な監督に依存して、未ラベル(ノーベル)クラスを正確にセグメンテーションできるモデルを訓練することを必要とする。 2次元画像データでは広く研究されているが、NCDタスクの3次元点雲領域への拡張は、2次元の場合に存在しない仮定や課題を特徴とする先駆的な試みである。 本稿では,4方向の点雲データ解析の進歩について述べる。 まず、ポイントクラウドセマンティックセグメンテーションのためのNCDの新たなタスクを紹介する。 次に,既存の2次元画像セマンティクスセグメンテーションのncd法のみを3次元データに直接変換することで,最適な結果が得られることを示す。 第3に,オンラインクラスタリング,不確実性推定,セマンティック蒸留に基づく新しいNCD手法を提案する。 最後に,ポイントクラウドセマンティクスセグメンテーションにおけるncdの性能を厳密に評価するための新しい評価プロトコルを提案する。 本論文は,SemanticKITTI,SemanticPOSS,S3DISデータセットの総合評価を通じて,提案手法が検討されたベースラインよりもかなり優れていることを示す。

The task of Novel Class Discovery (NCD) in semantic segmentation entails training a model able to accurately segment unlabelled (novel) classes, relying on the available supervision from annotated (base) classes. Although extensively investigated in 2D image data, the extension of the NCD task to the domain of 3D point clouds represents a pioneering effort, characterized by assumptions and challenges that are not present in the 2D case. This paper represents an advancement in the analysis of point cloud data in four directions. Firstly, it introduces the novel task of NCD for point cloud semantic segmentation. Secondly, it demonstrates that directly transposing the only existing NCD method for 2D image semantic segmentation to 3D data yields suboptimal results. Thirdly, a new NCD approach based on online clustering, uncertainty estimation, and semantic distillation is presented. Lastly, a novel evaluation protocol is proposed to rigorously assess the performance of NCD in point cloud semantic segmentation. Through comprehensive evaluations on the SemanticKITTI, SemanticPOSS, and S3DIS datasets, the paper demonstrates substantial superiority of the proposed method over the considered baselines.
翻訳日:2023-12-08 17:24:53 公開日:2023-12-06
# Lite-Mind: 効率的で多彩な脳表現ネットワークを目指して

Lite-Mind: Towards Efficient and Versatile Brain Representation Network ( http://arxiv.org/abs/2312.03781v1 )

ライセンス: Link先を確認
Zixuan Gong, Qi Zhang, Duoqian Miao, Guangyin Bao, Liang Hu(参考訳) 脳からの視覚情報、特に非侵襲的fMRI法による復号化の研究が急速に進んでいる。 この課題は、fMRI信号の限られたデータ可用性と低信号-雑音比から生じ、fMRI-画像検索の低精度タスクにつながる。 最先端のMindEyeは、CLIPの視覚変換器の最終的な隠蔽層にfMRI埋め込みを合わせるために、高いパラメータ数オーダーの深いMLP、すなわち被写体毎の996万のMLPバックボーンを活用することにより、fMRIから画像への検索性能を著しく向上させる。 しかし、同一の実験的な設定であっても、被験者間で有意な個人差が存在し、被験者固有のモデルの訓練を行う。 重要なパラメータは、fMRIデコーディングを実用機器、特に各被験者に特定のモデルを必要とする場合に、重大な課題となる。 そこで本研究では,FMRIボクセルをCLIPの微細な情報に効率よく整列する,離散フーリエ変換に基づく軽量で効率的で多用途な脳表現ネットワークLite-Mindを提案する。 実験の結果,Lite-Mind は対象1の NSD データセットに対して,94.3% fMRI-to-image の精度を達成でき,パラメータは MindEye よりも98.7% 少ないことがわかった。 Lite-Mindはまた、より小さな脳データセットに移行できることが証明されており、GODデータセット上でゼロショット分類のための新しい最先端技術を確立している。 コードはhttps://github.com/gongzix/lite-mindで入手できる。

Research in decoding visual information from the brain, particularly through the non-invasive fMRI method, is rapidly progressing. The challenge arises from the limited data availability and the low signal-to-noise ratio of fMRI signals, leading to a low-precision task of fMRI-to-image retrieval. State-of-the-art MindEye remarkably improves fMRI-to-image retrieval performance by leveraging a deep MLP with a high parameter count orders of magnitude, i.e., a 996M MLP Backbone per subject, to align fMRI embeddings to the final hidden layer of CLIP's vision transformer. However, significant individual variations exist among subjects, even within identical experimental setups, mandating the training of subject-specific models. The substantial parameters pose significant challenges in deploying fMRI decoding on practical devices, especially with the necessitating of specific models for each subject. To this end, we propose Lite-Mind, a lightweight, efficient, and versatile brain representation network based on discrete Fourier transform, that efficiently aligns fMRI voxels to fine-grained information of CLIP. Our experiments demonstrate that Lite-Mind achieves an impressive 94.3% fMRI-to-image retrieval accuracy on the NSD dataset for Subject 1, with 98.7% fewer parameters than MindEye. Lite-Mind is also proven to be able to be migrated to smaller brain datasets and establishes a new state-of-the-art for zero-shot classification on the GOD dataset. The code is available at https://github.com/gongzix/Lite-Mind.
翻訳日:2023-12-08 17:24:32 公開日:2023-12-06
# 超ラジカル相転移からのスピン-モーメントエンタングルメントのダイナミクス

Dynamics of spin-momentum entanglement from superradiant phase transitions ( http://arxiv.org/abs/2312.03827v1 )

ライセンス: Link先を確認
Oksana Chelpanova, Kushal Seetharam, Rodrigo Rosa-Medina, Nicola Reiter, Fabian Finger, Tobias Donner, and Jamir Marino(参考訳) マルチレベル原子を用いた多体キャビティqedの運用機構の探求は、量子相関の量子保存能力の向上のためのエキサイティングな研究フロンティアである。 本研究では,空洞内の超低温原子の運動量とスピン状態の組み合わせを光学的に取り扱うことにより,多体キャビティqed実験を2段階から4段階に拡張することを提案する。 その結果得られたモデルは、疑似スピン作用素から構築されたディッケハミルトニアン対で構成され、2つの中間超ラジアント相転移を効果的に捕捉する。 位相図は、スピンと運動量原子の自由度が弱く強い絡み合った状態を示す領域を示す。 これらの状態は、緩やかな緩和から速い緩和まで様々な動的反応を示し、持続的絡み合い時間振動のオプションが追加されている。 キャビティ内の異なる光偏光を利用した再生方式を提案し,システムダイナミクスの制御におけるキャビティ損失の役割について考察する。 我々の研究は、多体共振器 QED で発生する様々な非平衡相転移を多レベル原子記述を持つ系における量子相関の蓄積に繋ぐ方法である。

Exploring operational regimes of many-body cavity QED with multi-level atoms remains an exciting research frontier for their enhanced storage capabilities of intra-level quantum correlations. In this work, we propose an extension of a prototypical many-body cavity QED experiment from a two to a four-level description by optically addressing a combination of momentum and spin states of the ultracold atoms in the cavity. The resulting model comprises a pair of Dicke Hamiltonians constructed from pseudo-spin operators, effectively capturing two intertwined superradiant phase transitions. The phase diagram reveals regions featuring weak and strong entangled states of spin and momentum atomic degrees of freedom. These states exhibit different dynamical responses, ranging from slow to fast relaxation, with the added option of persistent entanglement temporal oscillations. We discuss the role of cavity losses in steering the system dynamics into such entangled states and propose a readout scheme that leverages different light polarizations within the cavity. Our work paves the way to connect the rich variety of non-equilibrium phase transitions that occur in many-body cavity QED to the buildup of quantum correlations in systems with multi-level atom descriptions.
翻訳日:2023-12-08 17:16:44 公開日:2023-12-06
# nbi: 天文学者の神経後部推定用パッケージ

nbi: the Astronomer's Package for Neural Posterior Estimation ( http://arxiv.org/abs/2312.03824v1 )

ライセンス: Link先を確認
Keming Zhang, Joshua Bloom, St\'efan van der Walt, Nina Hernitschek(参考訳) 天文学におけるニューラル後方推定(NPE)手法の約束にもかかわらず、NPEのルーチン推論ワークフローへの適応は遅かった。 我々は、観測データに合わせたカスタムフェタタイザネットワークの必要性、推論の不正確性、物理フォワードモデルの非特定化という3つの重要な問題を特定する。 最初の2つの問題に対処するために、新しいフレームワークとオープンソースのnbi(neural bayesian inference)を導入し、amortizedとシーケンシャルnpeの両方をサポートする。 まず、nbiはライトカーブやスペクトルといったシーケンシャルなデータに対して有効性を示す、組み込みの"機能"ネットワークを提供する。 第2に,NPE 下でのサロゲート後部を重要サンプリングのための提案分布としてのみ用いることで,漸近的に正確な推論を行うアルゴリズム SNPE-IS を導入する。 これらの特徴により、nbiは、光曲線やスペクトルを含む天文学的推論問題に適用することができる。 我々はnbiがNested Smplingのような既存の手法の効果的な代替手段として機能するかを論じる。 私たちのパッケージはhttps://github.com/kmzzhang/nbiにあります。

Despite the promise of Neural Posterior Estimation (NPE) methods in astronomy, the adaptation of NPE into the routine inference workflow has been slow. We identify three critical issues: the need for custom featurizer networks tailored to the observed data, the inference inexactness, and the under-specification of physical forward models. To address the first two issues, we introduce a new framework and open-source software nbi (Neural Bayesian Inference), which supports both amortized and sequential NPE. First, nbi provides built-in "featurizer" networks with demonstrated efficacy on sequential data, such as light curve and spectra, thus obviating the need for this customization on the user end. Second, we introduce a modified algorithm SNPE-IS, which facilities asymptotically exact inference by using the surrogate posterior under NPE only as a proposal distribution for importance sampling. These features allow nbi to be applied off-the-shelf to astronomical inference problems involving light curves and spectra. We discuss how nbi may serve as an effective alternative to existing methods such as Nested Sampling. Our package is at https://github.com/kmzzhang/nbi.
翻訳日:2023-12-08 17:16:23 公開日:2023-12-06
# 物体凝縮による高ピーク粒子追跡

High Pileup Particle Tracking with Object Condensation ( http://arxiv.org/abs/2312.03823v1 )

ライセンス: Link先を確認
Kilian Lieret, Gage DeZoort, Devdoot Chatterjee, Jian Park, Siqi Miao, Pan Li(参考訳) 最近の研究で、グラフニューラルネットワーク(GNN)は、荷電粒子追跡のための従来のアルゴリズムのパフォーマンスに匹敵し、HL-LHCによって引き起こされる計算課題に対処するスケーラビリティを改善した。 ほとんどのGNN追跡アルゴリズムはエッジ分類に基づいており、スプリアス接続を含む初期グラフからトラックを連結成分として識別する。 本稿では、任意の数のオブジェクト(トラック)に属するポイント(hits)をクラスタリングし、各オブジェクトのプロパティを回帰する多目的学習フレームワークである、オブジェクト凝縮(OC)に基づく代替案を検討する。 本研究は, 先行研究の結果をもとに, 合理化モデルを示し, ハイパイルアップ環境における一発oc追跡アルゴリズムへの進歩を示す。

Recent work has demonstrated that graph neural networks (GNNs) can match the performance of traditional algorithms for charged particle tracking while improving scalability to meet the computing challenges posed by the HL-LHC. Most GNN tracking algorithms are based on edge classification and identify tracks as connected components from an initial graph containing spurious connections. In this talk, we consider an alternative based on object condensation (OC), a multi-objective learning framework designed to cluster points (hits) belonging to an arbitrary number of objects (tracks) and regress the properties of each object. Building on our previous results, we present a streamlined model and show progress toward a one-shot OC tracking algorithm in a high-pileup environment.
翻訳日:2023-12-08 17:16:02 公開日:2023-12-06
# Alpha-CLIP: 好きな場所にフォーカスするCLIPモデル

Alpha-CLIP: A CLIP Model Focusing on Wherever You Want ( http://arxiv.org/abs/2312.03818v1 )

ライセンス: Link先を確認
Zeyi Sun, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang, Shu Kong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang(参考訳) コントラスト言語-画像事前学習(CLIP)は,多様なタスクにわたる画像から貴重なコンテンツ情報を抽出する上で重要な役割を担っている。 テキスト的および視覚的なモダリティを調整し、特定のタスクに関係のないものも含め、画像全体を理解する。 しかし,画像の微妙な理解と編集のためには,人や知覚モデルによってポイント,マスク,ボックスとして表示できる特定の関心領域に焦点を当てることが重要である。 この要求を満たすために,我々は,補助アルファチャネル付きクリップの拡張版であるalpha-clipを導入し,注意領域の提案と,構築された数百万のrgbaリージョンテキストペアによる微調整を行った。 Alpha-CLIPは、CLIPの視覚的認識能力を保持するだけでなく、画像内容の強調を正確に制御できる。 オープンワールド認識、マルチモーダル大規模言語モデル、条件付き2d/3d生成など、さまざまなタスクにおいて有効性を示す。 画像関連タスクのための汎用ツールとして機能する可能性が強い。

Contrastive Language-Image Pre-training (CLIP) plays an essential role in extracting valuable content information from images across diverse tasks. It aligns textual and visual modalities to comprehend the entire image, including all the details, even those irrelevant to specific tasks. However, for a finer understanding and controlled editing of images, it becomes crucial to focus on specific regions of interest, which can be indicated as points, masks, or boxes by humans or perception models. To fulfill the requirements, we introduce Alpha-CLIP, an enhanced version of CLIP with an auxiliary alpha channel to suggest attentive regions and fine-tuned with constructed millions of RGBA region-text pairs. Alpha-CLIP not only preserves the visual recognition ability of CLIP but also enables precise control over the emphasis of image contents. It demonstrates effectiveness in various tasks, including but not limited to open-world recognition, multimodal large language models, and conditional 2D / 3D generation. It has a strong potential to serve as a versatile tool for image-related tasks.
翻訳日:2023-12-08 17:15:49 公開日:2023-12-06
# 拡散錯覚:ぼろぼろぼろにイメージを隠す

Diffusion Illusions: Hiding Images in Plain Sight ( http://arxiv.org/abs/2312.03817v1 )

ライセンス: Link先を確認
Ryan Burgert, Xiang Li, Abe Leite, Kanchana Ranasinghe, Michael S. Ryoo(参考訳) 物理的に配置し、ある方法で見ると、光学的錯覚を生じさせる特別な「プライム」画像を計算的に生成する問題を探究する。 まず,この問題に対する形式的定義を提案する。 次にDiffusion Illusionsを紹介します。これは、これらの錯覚を自動的に生成するように設計された最初の包括的パイプラインです。 具体的には, 凍結したテキストから画像への拡散モデルを用いて, 既存の「コア蒸留損失」を適応させ, 新しい「ドリーム目標損失」を提案する。 主画像の配置が異なる3種類の錯覚について検討し,それらから派生した画像がユーザ・チョーセンのテキストプロンプトや画像と整合するように,上記の損失を用いて最適化する。 これらの錯覚を総合的に実験し,提案手法の有効性を質的,定量的に検証した。 さらに、現実の世界で動くように設計されているので、錯覚の物理的作りの成功を実演します。 私たちのコードとサンプルはインタラクティブプロジェクトのWebサイトで公開されています。

We explore the problem of computationally generating special `prime' images that produce optical illusions when physically arranged and viewed in a certain way. First, we propose a formal definition for this problem. Next, we introduce Diffusion Illusions, the first comprehensive pipeline designed to automatically generate a wide range of these illusions. Specifically, we both adapt the existing `score distillation loss' and propose a new `dream target loss' to optimize a group of differentially parametrized prime images, using a frozen text-to-image diffusion model. We study three types of illusions, each where the prime images are arranged in different ways and optimized using the aforementioned losses such that images derived from them align with user-chosen text prompts or images. We conduct comprehensive experiments on these illusions and verify the effectiveness of our proposed method qualitatively and quantitatively. Additionally, we showcase the successful physical fabrication of our illusions -- as they are all designed to work in the real world. Our code and examples are publicly available at our interactive project website: https://diffusionillusions.com
翻訳日:2023-12-08 17:15:30 公開日:2023-12-06
# AVID:拡散モデルで描いたどんな長編ビデオでも

AVID: Any-Length Video Inpainting with Diffusion Model ( http://arxiv.org/abs/2312.03816v1 )

ライセンス: Link先を確認
Zhixing Zhang, Bichen Wu, Xiaoyan Wang, Yaqiao Luo, Luxin Zhang, Yinan Zhao, Peter Vajda, Dimitris Metaxas, Licheng Yu(参考訳) 拡散モデルの最近の進歩は、テキスト誘導画像の塗装をうまく実現している。 このような編集機能をビデオ領域に拡張することは簡単と思われるが、テキスト誘導ビデオの塗装に関する作業は少ない。 ビデオ、初期フレームのマスキング領域、編集プロンプトが与えられた場合、マスク外領域をそのまま保ちながら、編集ガイダンスに従って各フレームに埋め込むモデルが必要となる。 i$) 編集されたビデオの時間的一貫性、(ii$) 異なる構造的忠実度レベルで異なるインペインティングタイプをサポートすること、(iii$) 可変ビデオの長さを扱うことである。 これらの課題に対処するために,AVIDと呼ばれる拡散モデルを用いたAny-Length Video Inpaintingを導入する。 このモデルの中心となるのは、固定長ビデオのインペイントのための効果的なモーションモジュールと調整可能な構造ガイダンスである。 そこで本研究では,中間フレームの注意誘導機構を備えた時間的多次元サンプリングパイプラインを提案する。 包括的実験により,映像の持続時間範囲の異なる様々なインペイントタイプを,高品質で頑健に扱えることを示す。 さらなる視覚化結果はhttps://zhang-zx.github.io/AVID/ で公開されている。

Recent advances in diffusion models have successfully enabled text-guided image inpainting. While it seems straightforward to extend such editing capability into video domain, there has been fewer works regarding text-guided video inpainting. Given a video, a masked region at its initial frame, and an editing prompt, it requires a model to do infilling at each frame following the editing guidance while keeping the out-of-mask region intact. There are three main challenges in text-guided video inpainting: ($i$) temporal consistency of the edited video, ($ii$) supporting different inpainting types at different structural fidelity level, and ($iii$) dealing with variable video length. To address these challenges, we introduce Any-Length Video Inpainting with Diffusion Model, dubbed as AVID. At its core, our model is equipped with effective motion modules and adjustable structure guidance, for fixed-length video inpainting. Building on top of that, we propose a novel Temporal MultiDiffusion sampling pipeline with an middle-frame attention guidance mechanism, facilitating the generation of videos with any desired duration. Our comprehensive experiments show our model can robustly deal with various inpainting types at different video duration range, with high quality. More visualization results is made publicly available at https://zhang-zx.github.io/AVID/ .
翻訳日:2023-12-08 17:15:13 公開日:2023-12-06
# llm as os (llmao)、エージェント・アズ・アプリ:aios、エージェント、aios-agentエコシステムを想像する

LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem ( http://arxiv.org/abs/2312.03815v1 )

ライセンス: Link先を確認
Yingqiang Ge, Yujie Ren, Wenyue Hua, Shuyuan Xu, Juntao Tan, Yongfeng Zhang(参考訳) 本稿では,Large Language Model (LLM) が (Artificial) Intelligent Operating System (IOS, AIOS) として機能する,革命的なAIOS-Agentエコシステムを構想する。 この基盤のもと、多様なLLMベースのAIエージェントアプリケーション(Agents、AAPs)が開発され、AIOS-Agentエコシステムを豊かにし、従来のOS-APPエコシステムからパラダイムシフトを示す。 llmは、os(システムレベル)、アプリケーション(アプリケーションレベル)、エージェント(アプリケーションレベル)、自然言語(ユーザーレベル)、デバイス/ライブラリ(ハードウェア/ミドルウェアレベル)といった主要な概念によって、コンピュータシステム、アーキテクチャ、ソフトウェア、プログラミング言語の設計と実装に革命をもたらすだろうと考えています。

This paper envisions a revolutionary AIOS-Agent ecosystem, where Large Language Model (LLM) serves as the (Artificial) Intelligent Operating System (IOS, or AIOS)--an operating system ``with soul''. Upon this foundation, a diverse range of LLM-based AI Agent Applications (Agents, or AAPs) are developed, enriching the AIOS-Agent ecosystem and signaling a paradigm shift from the traditional OS-APP ecosystem. We envision that LLM's impact will not be limited to the AI application level, instead, it will in turn revolutionize the design and implementation of computer system, architecture, software, and programming language, featured by several main concepts: LLM as OS (system-level), Agents as Applications (application-level), Natural Language as Programming Interface (user-level), and Tools as Devices/Libraries (hardware/middleware-level).
翻訳日:2023-12-08 17:14:47 公開日:2023-12-06
# pearl: 生産可能な強化学習エージェント

Pearl: A Production-ready Reinforcement Learning Agent ( http://arxiv.org/abs/2312.03814v1 )

ライセンス: Link先を確認
Zheqing Zhu, Rodrigo de Salvo Braz, Jalaj Bhandari, Daniel Jiang, Yi Wan, Yonathan Efroni, Liyuan Wang, Ruiyang Xu, Hongbo Guo, Alex Nikulkov, Dmytro Korenkevych, Urun Dogan, Frank Cheng, Zheng Wu, Wanqiao Xu(参考訳) 強化学習(RL)は、長期的な目標を達成するための汎用的なフレームワークを提供する。 その汎用性により、遅延報酬の処理、部分観測可能性の処理、探索とエクスプロイトのジレンマへの対処、オフラインデータを利用したオンラインパフォーマンスの向上、安全性の制約の確保など、現実世界のインテリジェントシステムが直面する幅広い問題をフォーマル化できます。 これらの問題に対処するRL研究コミュニティによるかなりの進歩にもかかわらず、既存のオープンソースRLライブラリは、RLソリューションパイプラインの狭い部分に集中する傾向にあり、他の側面はほとんど考慮されていない。 本稿では,これらの課題をモジュール的に受け入れるように設計された,生産対応のrlエージェントソフトウェアパッケージであるpearlを紹介する。 予備ベンチマーク結果の提示に加えて,本論文では,pearl の産業採用状況について紹介する。 PearlはGithubでgithub.com/facebookresearch/pearlでオープンソース化され、公式ウェブサイトはpearlagent.github.ioにある。

Reinforcement Learning (RL) offers a versatile framework for achieving long-term goals. Its generality allows us to formalize a wide range of problems that real-world intelligent systems encounter, such as dealing with delayed rewards, handling partial observability, addressing the exploration and exploitation dilemma, utilizing offline data to improve online performance, and ensuring safety constraints are met. Despite considerable progress made by the RL research community in addressing these issues, existing open-source RL libraries tend to focus on a narrow portion of the RL solution pipeline, leaving other aspects largely unattended. This paper introduces Pearl, a Production-ready RL agent software package explicitly designed to embrace these challenges in a modular fashion. In addition to presenting preliminary benchmark results, this paper highlights Pearl's industry adoptions to demonstrate its readiness for production usage. Pearl is open sourced on Github at github.com/facebookresearch/pearl and its official website is located at pearlagent.github.io.
翻訳日:2023-12-08 17:14:28 公開日:2023-12-06
# 平均集中型言語モデルにおけるアクティベーションステアリングの改善

Improving Activation Steering in Language Models with Mean-Centring ( http://arxiv.org/abs/2312.03813v1 )

ライセンス: Link先を確認
Ole Jorgensen, Dylan Cope, Nandi Schoots, Murray Shanahan(参考訳) 近年の活性化ステアリングにおける研究は、Large Language Models (LLMs) の出力をよりよく制御する可能性を示しているが、ステアリングベクトルの発見を伴う。 エンジニアは通常、これらのモデルで機能がどのように表現されているかを知らないため、これは難しい。 我々は平均セントリングの概念をステアリングベクトルに適用することでこの問題に対処しようとしている。 対象のデータセットに関連するアクティベーションの平均値を取得して,すべてのトレーニングアクティベーションの平均値を減算すると,効果的なステアリングベクトルが生成される。 本手法は, 有害テキストの生成を回避し, 対象ジャンルに向けてストーリーの完成を制御することによって, 自然言語タスクの様々なモデル上で検証する。 また,関数ベクトルの抽出に平均中心法を適用し,自然言語タスクの実行を(以前のベースラインと比較して)かなりのマージンで効率的にトリガーする。 このことから, アクティベーションステアリングの有効性は, 幅広い文脈で容易に向上できる可能性が示唆された。

Recent work in activation steering has demonstrated the potential to better control the outputs of Large Language Models (LLMs), but it involves finding steering vectors. This is difficult because engineers do not typically know how features are represented in these models. We seek to address this issue by applying the idea of mean-centring to steering vectors. We find that taking the average of activations associated with a target dataset, and then subtracting the mean of all training activations, results in effective steering vectors. We test this method on a variety of models on natural language tasks by steering away from generating toxic text, and steering the completion of a story towards a target genre. We also apply mean-centring to extract function vectors, more effectively triggering the execution of a range of natural language tasks by a significant margin (compared to previous baselines). This suggests that mean-centring can be used to easily improve the effectiveness of activation steering in a wide range of contexts.
翻訳日:2023-12-08 17:14:09 公開日:2023-12-06
# 決定木を通してランダムな森を見る。 機械学習モデルを用いた病理組織から健康システムへの学習支援 : 課題と機会

Seeing the random forest through the decision trees. Supporting learning health systems from histopathology with machine learning models: Challenges and opportunities ( http://arxiv.org/abs/2312.03812v1 )

ライセンス: Link先を確認
Ricardo Gonzalez, Ashirbani Saha, Clinton J.V. Campbell, Peyman Nejat, Cynthia Lokker, Andrew P. Norgan(参考訳) 本稿では, 機械学習モデルを用いた病理組織学における課題について考察し, 「ラーニングヘルスシステム」 をサポートする新たな機会を提示する。 まず、著者らはこれらの課題を緩和戦略に従って分割した後、詳しく説明した: 革新的なアプローチ、時間、将来の技術能力を必要とするもの、そして批判的な視点から概念の再評価を必要とするもの。 次に,mlモデルから抽出した隠れ情報をデジタル化病理学スライドと他の医療ビッグデータと統合して,"学習医療システム"を支援する新たな機会を提案する。

This paper discusses some overlooked challenges faced when working with machine learning models for histopathology and presents a novel opportunity to support "Learning Health Systems" with them. Initially, the authors elaborate on these challenges after separating them according to their mitigation strategies: those that need innovative approaches, time, or future technological capabilities and those that require a conceptual reappraisal from a critical perspective. Then, a novel opportunity to support "Learning Health Systems" by integrating hidden information extracted by ML models from digitalized histopathology slides with other healthcare big data is presented.
翻訳日:2023-12-08 17:13:49 公開日:2023-12-06
# 量子参照フレームの再検討

Quantum reference frames, revisited ( http://arxiv.org/abs/2312.03811v1 )

ライセンス: Link先を確認
Matthew J. Lake and Marek Miller(参考訳) 量子参照フレーム(QRF)のトピックは、最近の文献で大きな注目を集めている。 おそらく、そのようなフレームの正しい記述は、量子力学の技術的応用と、将来の量子重力の理論の探索を含む基礎の両方にとって重要である。 本稿では,本論文に対する主流的アプローチの潜在的な矛盾を指摘し,これらの問題を回避するための代替的定義を提案する。 重要なことは、QRF間の変換はユニタリ作用素によって表現できるという考えを否定し、それの明確な物理的理由を説明する。 用語の競合する定義を経験的に区別できる実験プロトコルも提案されている。 不確実性関係,時空対称性,ゲージ対称性,重力の量子化,その他の基礎的問題に対する新モデルの影響について考察し,今後の研究の方向性について考察する。

The topic of quantum reference frames (QRFs) has attracted a great deal of attention in the recent literature. Potentially, the correct description of such frames is important for both the technological applications of quantum mechanics and for its foundations, including the search for a future theory of quantum gravity. In this letter, we point out potential inconsistencies in the mainstream approach to this subject and propose an alternative definition that avoids these problems. Crucially, we reject the notion that transformations between QRFs can be represented by unitary operators and explain the clear physical reasons for this. An experimental protocol, capable of empirically distinguishing between competing definitions of the term, is also proposed. The implications of the new model, for uncertainty relations, spacetime symmetries, gauge symmetries, the quantisation of gravity, and other foundational issues are discussed, and possible directions for future work in this field are considered.
翻訳日:2023-12-08 17:13:38 公開日:2023-12-06
# surfaceaug:マルチモーダルグラウンド真理サンプリングにおけるギャップを閉じる

SurfaceAug: Closing the Gap in Multimodal Ground Truth Sampling ( http://arxiv.org/abs/2312.03808v1 )

ライセンス: Link先を確認
Ryan Rubel and Nathan Clark and Andrew Dudash(参考訳) 近年のモデルアーキテクチャとデータ拡張の進歩にもかかわらず、マルチモーダルオブジェクト検出器はLiDARのみの検出器よりもわずかに優れている。 この欠点は、十分に強力なマルチモーダルデータ拡張がないためである。 そこで本研究では,新しい基底真理サンプリングアルゴリズムであるSurfaceAugを提案する。 SurfaceAugはイメージとポイントクラウドの両方を再サンプリングすることでオブジェクトをペーストし、両方のモードでオブジェクトレベルの変換を可能にする。 我々は,KITTI上でマルチモーダル検出器を訓練することによりアルゴリズムの評価を行い,その性能を以前の研究と比較した。 surfaceaugは,カー検出タスクにおいて既存の手法を上回っており,マルチモーダルグラウンド真理サンプリングの新たな技術を確立している。

Despite recent advances in both model architectures and data augmentation, multimodal object detectors still barely outperform their LiDAR-only counterparts. This shortcoming has been attributed to a lack of sufficiently powerful multimodal data augmentation. To address this, we present SurfaceAug, a novel ground truth sampling algorithm. SurfaceAug pastes objects by resampling both images and point clouds, enabling object-level transformations in both modalities. We evaluate our algorithm by training a multimodal detector on KITTI and compare its performance to previous works. We show experimentally that SurfaceAug outperforms existing methods on car detection tasks and establishes a new state of the art for multimodal ground truth sampling.
翻訳日:2023-12-08 17:13:24 公開日:2023-12-06
# hessian/jacobian-free確率的二値最適化における${o}(\epsilon^{-1.5})$の複雑性を達成する

Achieving ${O}(\epsilon^{-1.5})$ Complexity in Hessian/Jacobian-free Stochastic Bilevel Optimization ( http://arxiv.org/abs/2312.03807v1 )

ライセンス: Link先を確認
Yifan Yang, Peiyao Xiao, Kaiyi Ji(参考訳) 本稿では,上層目標関数が一般に非凸であり,下層目標関数が強凸である二層最適化問題を再検討する。 この種の問題は広く研究されているが、どのようにして${O}(\epsilon^{-1.5})$${O}(\epsilon^{-1.5})$ in Hessian/Jacobian-free stochastic bilevel optimization without no second-order derivative calculation。 このギャップを埋めるために,単純な完全単一ループ構造,投影支援有限差分ヘッセン/ジャコビアンベクトル近似,運動量に基づく更新を特徴とする,新しいヘッセン/ジャコビアンフリー二レベル最適化器fdehboを提案する。 理論的には、FdeHBO は ${O}(\epsilon^{-1.5})$ iterations (それぞれ ${O}(1)$ sample と 1次勾配情報のみ) を必要とし、$\epsilon$-正確な定常点を求める。 我々が知る限り、これは非凸強凸確率的二値最適化のための${o}(\epsilon^{-1.5})$サンプル複雑性を持つ最初のヘッセン/ヤコビアンフリー法である。

In this paper, we revisit the bilevel optimization problem, in which the upper-level objective function is generally nonconvex and the lower-level objective function is strongly convex. Although this type of problem has been studied extensively, it still remains an open question how to achieve an ${O}(\epsilon^{-1.5})$ sample complexity of ${O}(\epsilon^{-1.5})$ in Hessian/Jacobian-free stochastic bilevel optimization without any second-order derivative computation. To fill this gap, we propose a novel Hessian/Jacobian-free bilevel optimizer named FdeHBO, which features a simple fully single-loop structure, a projection-aided finite-difference Hessian/Jacobian-vector approximation, and momentum-based updates. Theoretically, we show that FdeHBO requires ${O}(\epsilon^{-1.5})$ iterations (each using ${O}(1)$ samples and only first-order gradient information) to find an $\epsilon$-accurate stationary point. As far as we know, this is the first Hessian/Jacobian-free method with an ${O}(\epsilon^{-1.5})$ sample complexity for nonconvex-strongly-convex stochastic bilevel optimization.
翻訳日:2023-12-08 17:13:11 公開日:2023-12-06
# XCube ($\mathcal{X}^3$:スパースボクセル階層を用いた大規模3次元生成モデリング

XCube ($\mathcal{X}^3$): Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies ( http://arxiv.org/abs/2312.03806v1 )

ライセンス: Link先を確認
Xuanchi Ren, Jiahui Huang, Xiaohui Zeng, Ken Museth, Sanja Fidler, Francis Williams(参考訳) 任意の属性を持つ高分解能スパース3Dボクセルグリッドのための新しい生成モデルである $\mathcal{X}^3$ を提示する。 我々のモデルは、テスト時間最適化に時間がかからないフィードフォワード方式で、最高1024^3$の効率的な解像度で数百万のボクセルを生成することができる。 これを実現するために,高効率なvdbデータ構造上に構築したカスタムフレームワークを用いて,段階的に高分解能のグリッドを生成する階層型ボクセル潜在拡散モデルを採用する。 高分解能オブジェクトの生成とは別に,100m$\times$100mの大規模屋外シーンにおけるXCubeの有効性を10cmのボクセルサイズで実証した。 我々は過去のアプローチよりも明確な質的、定量的な改善を観察する。 非条件生成に加えて、ユーザガイド編集、単一スキャンからのシーン補完、テキスト・トゥ・3Dといった様々なタスクを解くために、我々のモデルが利用できることを示す。 詳細はhttps://research.nvidia.com/labs/toronto-ai/xcube/を参照。

We present $\mathcal{X}^3$ (pronounced XCube), a novel generative model for high-resolution sparse 3D voxel grids with arbitrary attributes. Our model can generate millions of voxels with a finest effective resolution of up to $1024^3$ in a feed-forward fashion without time-consuming test-time optimization. To achieve this, we employ a hierarchical voxel latent diffusion model which generates progressively higher resolution grids in a coarse-to-fine manner using a custom framework built on the highly efficient VDB data structure. Apart from generating high-resolution objects, we demonstrate the effectiveness of XCube on large outdoor scenes at scales of 100m$\times$100m with a voxel size as small as 10cm. We observe clear qualitative and quantitative improvements over past approaches. In addition to unconditional generation, we show that our model can be used to solve a variety of tasks such as user-guided editing, scene completion from a single scan, and text-to-3D. More results and details can be found at https://research.nvidia.com/labs/toronto-ai/xcube/.
翻訳日:2023-12-08 17:12:44 公開日:2023-12-06
# SynC-CLIP: CLIPをデータ制限シナリオで一般化する合成データ

SYNC-CLIP: Synthetic Data Make CLIP Generalize Better in Data-Limited Scenarios ( http://arxiv.org/abs/2312.03805v1 )

ライセンス: Link先を確認
Mushui Liu and Weijie He and Ziqian Lu and Yunlong Yu(参考訳) Prompt Learningは、CLIPのようなビジョン言語モデル(VLM)を下流タスクに転送する強力なテクニックである。 しかし、ベースクラスのみに微調整されたプロンプトベースのメソッドは、特にデータが制限された場合に、オープン語彙のシナリオで新しいクラスに一般化するのに苦労する可能性がある。 本稿では,CLIPの一般化能力を高めるためにSynthetiCデータを活用するSynC-CLIPという革新的な手法を提案する。 実検体と合成検体間の分布シフトの観察に基づいて,実検体と合成検体を異なる領域として扱い,ドメイン固有情報を取り込むための個別のドメインプロンプトと,2つの領域間の意味的一貫性を保つための共有ビジュアルプロンプトを提案する。 クロスドメインの機能を調整することにより、新しいクラスからの合成データは、決定境界を再バランスするための暗黙のガイダンスを提供することができる。 3つのモデル一般化タスクの実験結果から,本手法は様々なベンチマークにおいて非常に高い競合性を示す。 特に、SynC-CLIPは、最先端の競合であるPromptSRCよりも、オープン語彙シナリオの11データセットにわたる新しいクラスの平均3.0%向上している。

Prompt learning is a powerful technique for transferring Vision-Language Models (VLMs) such as CLIP to downstream tasks. However, the prompt-based methods that are fine-tuned solely with base classes may struggle to generalize to novel classes in open-vocabulary scenarios, especially when data are limited. To address this issue, we propose an innovative approach called SYNC-CLIP that leverages SYNthetiC data for enhancing the generalization capability of CLIP. Based on the observation of the distribution shift between the real and synthetic samples, we treat real and synthetic samples as distinct domains and propose to optimize separate domain prompts to capture domain-specific information, along with the shared visual prompts to preserve the semantic consistency between two domains. By aligning the cross-domain features, the synthetic data from novel classes can provide implicit guidance to rebalance the decision boundaries. Experimental results on three model generalization tasks demonstrate that our method performs very competitively across various benchmarks. Notably, SYNC-CLIP outperforms the state-of-the-art competitor PromptSRC by an average improvement of 3.0% on novel classes across 11 datasets in open-vocabulary scenarios.
翻訳日:2023-12-08 17:12:28 公開日:2023-12-06
# BigCodeプロジェクトのガバナンスカード

The BigCode Project Governance Card ( http://arxiv.org/abs/2312.03872v1 )

ライセンス: Link先を確認
BigCode collaboration: Sean Hughes, Harm de Vries, Jennifer Robinson, Carlos Mu\~noz Ferrandis, Loubna Ben Allal, Leandro von Werra, Jennifer Ding, Sebastien Paquet, Yacine Jernite(参考訳) このドキュメントは、bigcodeプロジェクトにおけるガバナンスのさまざまなメカニズムと領域の概要として役立ちます。 プロジェクト期間中に行われた選択に関する関連情報を広く一般に提供することで、透明性を支援し、将来の取り組みが自身のアプローチを形成するために活用できるオープンリサーチプロジェクトの意図的なガバナンスの例として機能することを目的としている。 最初のセクションであるProject Structureは、プロジェクト組織、その宣言された目標と価値、内部決定プロセス、資金とリソースをカバーしています。 第2のセクションであるdata and model governanceは、データ主題の同意、プライバシ、およびモデルリリースに関する質問に関する決定をカバーする。

This document serves as an overview of the different mechanisms and areas of governance in the BigCode project. It aims to support transparency by providing relevant information about choices that were made during the project to the broader public, and to serve as an example of intentional governance of an open research project that future endeavors can leverage to shape their own approach. The first section, Project Structure, covers the project organization, its stated goals and values, its internal decision processes, and its funding and resources. The second section, Data and Model Governance, covers decisions relating to the questions of data subject consent, privacy, and model release.
翻訳日:2023-12-08 17:05:52 公開日:2023-12-06
# hidden yet quantizable: ランダム化試行による強度統合のための下限

Hidden yet quantifiable: A lower bound for confounding strength using randomized trials ( http://arxiv.org/abs/2312.03871v1 )

ライセンス: Link先を確認
Piersilvio De Bartolomeis, Javier Abad, Konstantin Donhauser, Fanny Yang(参考訳) ペースの速い精密医療の時代には、観察的研究が臨床における新しい治療法を適切に評価する上で重要な役割を果たしている。 しかし、観察されていない結合は、非ランダムデータから引き出された因果的結論を著しく損なう可能性がある。 本研究では,ランダム化試行を利用して未観測のコンバウンディングを定量化する手法を提案する。 まず、所定の閾値以上の強度で観測不能な散乱を検出する統計的試験を設計する。 次に, この試験を用いて, 観察されていない結合強度の漸近的に有効な下限を推定する。 いくつかの合成および半合成データセットに対する統計的テストの有効性と妥当性を評価する。 さらに, 実環境における観測されていないコンファウンディングの欠如と存在を, 下限が正しく識別できることを示す。

In the era of fast-paced precision medicine, observational studies play a major role in properly evaluating new treatments in clinical practice. Yet, unobserved confounding can significantly compromise causal conclusions drawn from non-randomized data. We propose a novel strategy that leverages randomized trials to quantify unobserved confounding. First, we design a statistical test to detect unobserved confounding with strength above a given threshold. Then, we use the test to estimate an asymptotically valid lower bound on the unobserved confounding strength. We evaluate the power and validity of our statistical test on several synthetic and semi-synthetic datasets. Further, we show how our lower bound can correctly identify the absence and presence of unobserved confounding in a real-world setting.
翻訳日:2023-12-08 17:05:42 公開日:2023-12-06
# Inpaint3D:2D Inpainting Diffusionを用いた3次元シーンコンテンツ生成

Inpaint3D: 3D Scene Content Generation using 2D Inpainting Diffusion ( http://arxiv.org/abs/2312.03869v1 )

ライセンス: Link先を確認
Kira Prabhu, Jane Wu, Lynn Tsai, Peter Hedman, Dan B Goldman, Ben Poole, Michael Broxton(参考訳) 本稿では,2次元拡散モデルを学習した3次元シーン表現(例えば,nerf)に蒸留することにより,シーンの3次元領域にマスキングされたマルチビュー画像を与える新しいアプローチを提案する。 カメラのポーズやマルチビュー情報の拡散モデルを明示的に条件付けする3次元生成法とは異なり、拡散モデルは1つのマスク付き2d画像のみに条件付けされる。 しかしながら, この2次元拡散モデルは, スコア蒸留サンプリングとNeRF再構成損失の組み合わせを用いてNeRFを最適化する3次元多視点再構成問題において, 生成前のモデルとして機能することを示す。 予測深度は正確な幾何学を奨励するために追加の監督として使用される。 オブジェクトの除去に焦点を当てた3Dインペイント手法との比較を行った。 提案手法は,任意の3次元マスク領域を埋めるコンテンツを生成することができるため,さらに3次元オブジェクト補完,3次元オブジェクト置換,3次元シーン補完を実証する。

This paper presents a novel approach to inpainting 3D regions of a scene, given masked multi-view images, by distilling a 2D diffusion model into a learned 3D scene representation (e.g. a NeRF). Unlike 3D generative methods that explicitly condition the diffusion model on camera pose or multi-view information, our diffusion model is conditioned only on a single masked 2D image. Nevertheless, we show that this 2D diffusion model can still serve as a generative prior in a 3D multi-view reconstruction problem where we optimize a NeRF using a combination of score distillation sampling and NeRF reconstruction losses. Predicted depth is used as additional supervision to encourage accurate geometry. We compare our approach to 3D inpainting methods that focus on object removal. Because our method can generate content to fill any 3D masked region, we additionally demonstrate 3D object completion, 3D object replacement, and 3D scene completion.
翻訳日:2023-12-08 17:05:31 公開日:2023-12-06
# 条件付きバリュー・アット・リスクテストによるマルチグループフェアネス評価

Multi-Group Fairness Evaluation via Conditional Value-at-Risk Testing ( http://arxiv.org/abs/2312.03867v1 )

ライセンス: Link先を確認
Lucas Monteiro Paes, Ananda Theertha Suresh, Alex Beutel, Flavio P. Calmon, Ahmad Beirami(参考訳) 予測と分類タスクで使用される機械学習(ml)モデルは、センシティブな属性(例えば人種、性別、年齢)によって決定される集団間でのパフォーマンス格差を表示する。 複数の属性(例えば、人種、性別、年齢)によって定義される集団間での固定MLモデルの性能を評価することの問題点を考察する。 ここで、グループ間の最悪のパフォーマンスギャップ(例えば、エラー率の最大の差)を推定するサンプルの複雑さは、グループ固有の機密属性の数によって指数関数的に増加する。 この問題に対処するため,CVaR(Conditional Value-at-Risk)に基づく性能格差テスト手法を提案する。 モデルがほぼ同等の性能を持つ群の小さな確率的スラックを許容することにより、パフォーマンス違反を発見するのに必要なサンプル複雑性が指数関数的に減少し、グループ数の二乗根の最大上限値となることを示した。 我々の分析の副産物として、群が特定の事前分布によって重み付けされている場合、先行分布の2/3$のR'enyiエントロピーが提案したCVaRテストアルゴリズムのサンプル複雑性を捉えていることを示す。 最後に,非i.i.d.データ収集戦略がグループ数に依存しないサンプル複雑性をもたらすことを示す。

Machine learning (ML) models used in prediction and classification tasks may display performance disparities across population groups determined by sensitive attributes (e.g., race, sex, age). We consider the problem of evaluating the performance of a fixed ML model across population groups defined by multiple sensitive attributes (e.g., race and sex and age). Here, the sample complexity for estimating the worst-case performance gap across groups (e.g., the largest difference in error rates) increases exponentially with the number of group-denoting sensitive attributes. To address this issue, we propose an approach to test for performance disparities based on Conditional Value-at-Risk (CVaR). By allowing a small probabilistic slack on the groups over which a model has approximately equal performance, we show that the sample complexity required for discovering performance violations is reduced exponentially to be at most upper bounded by the square root of the number of groups. As a byproduct of our analysis, when the groups are weighted by a specific prior distribution, we show that R\'enyi entropy of order $2/3$ of the prior distribution captures the sample complexity of the proposed CVaR test algorithm. Finally, we also show that there exists a non-i.i.d. data collection strategy that results in a sample complexity independent of the number of groups.
翻訳日:2023-12-08 17:05:13 公開日:2023-12-06
# de bruijnグラフ上のグラフニューラルネットワークを用いたゲノム配列表現の学習

Learning Genomic Sequence Representations using Graph Neural Networks over De Bruijn Graphs ( http://arxiv.org/abs/2312.03865v1 )

ライセンス: Link先を確認
Kacper Kapu\'sniak, Manuel Burger, Gunnar R\"atsch, Amir Joudaki(参考訳) ゲノム配列データの急速な拡張は、堅牢なシーケンス表現を実現するための新しい方法を要求する。 既存の技法はしばしば複雑な構造の詳細を無視し、主に文脈情報を強調する。 そこで我々は, コンテクストと構造的文字列情報を融合する k-mer 埋め込みを開発し, 構造的類似性接続を持つデブリュアングラフを拡張した。 その後,不均質なグラフ畳み込みネットワークエンコーダを用いたコントラスト学習に基づく自己教師あり手法を考案し,ノード類似性に基づく正のペアを構成する。 編集距離近似と最も近い文字列検索タスクでは,組込みが先行技術を上回る。

The rapid expansion of genomic sequence data calls for new methods to achieve robust sequence representations. Existing techniques often neglect intricate structural details, emphasizing mainly contextual information. To address this, we developed k-mer embeddings that merge contextual and structural string information by enhancing De Bruijn graphs with structural similarity connections. Subsequently, we crafted a self-supervised method based on Contrastive Learning that employs a heterogeneous Graph Convolutional Network encoder and constructs positive pairs based on node similarities. Our embeddings consistently outperform prior techniques for Edit Distance Approximation and Closest String Retrieval tasks.
翻訳日:2023-12-08 17:04:47 公開日:2023-12-06
# 効率的な大規模言語モデル:調査

Efficient Large Language Models: A Survey ( http://arxiv.org/abs/2312.03863v1 )

ライセンス: Link先を確認
Zhongwei Wan, Xin Wang, Che Liu, Samiul Alam, Yu Zheng, Zhongnan Qu, Shen Yan, Yi Zhu, Quanlu Zhang, Mosharaf Chowdhury, Mi Zhang(参考訳) 大言語モデル(LLM)は、自然言語理解、言語生成、複雑な推論といった重要なタスクにおいて顕著な能力を示し、社会に大きな影響を与える可能性がある。 しかし、このような能力は、彼らが要求する膨大なリソースを伴い、効率の課題に対処する効果的な技術を開発することの強い必要性を強調している。 本調査では,効率的なLLM研究の体系的,包括的レビューを行う。 論文は3つの主要なカテゴリからなる分類学で編成され、それぞれモデル中心、データ中心、フレームワーク中心の観点から、相互に相互に相互に連携する効率的なLLMトピックを網羅する。 私たちはまたGitHubリポジトリを作成し、この調査で紹介された論文をhttps://github.com/AIoT-MLSys-Lab/EfficientLLMs, https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Surveyでコンパイルしました。 我々の調査は、研究者や実践者が効率的なLLMにおける研究の体系的な理解を得て、この重要かつエキサイティングな分野に貢献するための貴重な情報源となることを願っています。

Large Language Models (LLMs) have demonstrated remarkable capabilities in important tasks such as natural language understanding, language generation, and complex reasoning and have the potential to make a substantial impact on our society. Such capabilities, however, come with the considerable resources they demand, highlighting the strong need to develop effective techniques for addressing their efficiency challenges. In this survey, we provide a systematic and comprehensive review of efficient LLMs research. We organize the literature in a taxonomy consisting of three main categories, covering distinct yet interconnected efficient LLMs topics from model-centric, data-centric, and framework-centric perspective, respectively. We have also created a GitHub repository where we compile the papers featured in this survey at https://github.com/AIoT-MLSys-Lab/EfficientLLMs, https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey, and will actively maintain this repository and incorporate new research as it emerges. We hope our survey can serve as a valuable resource to help researchers and practitioners gain a systematic understanding of the research developments in efficient LLMs and inspire them to contribute to this important and exciting field.
翻訳日:2023-12-08 17:04:35 公開日:2023-12-06
# 量子力学からの帰納的バイアス--非可換計測による学習順序効果

An inductive bias from quantum mechanics: learning order effects with non-commuting measurements ( http://arxiv.org/abs/2312.03862v1 )

ライセンス: Link先を確認
Kaitlin Gili, Guillermo Alonso, Maria Schuld(参考訳) 優れた機械学習アルゴリズムを構築するには、2つの主要なアプローチがある。大きなモデルに大量のデータを供給するか、データの構造に適合する'インダクティブバイアス'でモデルクラスを選択する。 第2のアプローチを機械学習のための量子アルゴリズム設計の出発点とする場合、量子力学における数学的構造が量子モデルにおいて有用な帰納バイアスをもたらすかを理解することが重要である。 本研究では、量子認知文学の理論的証拠を量子機械学習の分野に持ち込み、量子可観測物の非可換性が、質問の順序を切り替える際の人間の回答パターンの変化などの「順序効果」でデータを学ぶのにどのように役立つかを研究する。 連続的な学習可能な測定値からなる生成量子モデルを、観測対象の順序を変化させることで、与えられたタスク(または質問順)に適応できるマルチタスク学習環境を設計し、人間の心理学にインスパイアされた人工データセットを提供して調査を行う。 我々の最初の実験シミュレーションでは、データに存在する順序効果の量が増加するにつれて、量子モデルはより非可換性を学び、量子モデルは、他のモデルアーキテクチャがタスクに適合することを示す合図で訓練された時に、目に見えない質問順序のためのより良いサンプルを生成することができることを示した。

There are two major approaches to building good machine learning algorithms: feeding lots of data into large models, or picking a model class with an ''inductive bias'' that suits the structure of the data. When taking the second approach as a starting point to design quantum algorithms for machine learning, it is important to understand how mathematical structures in quantum mechanics can lead to useful inductive biases in quantum models. In this work, we bring a collection of theoretical evidence from the Quantum Cognition literature to the field of Quantum Machine Learning to investigate how non-commutativity of quantum observables can help to learn data with ''order effects'', such as the changes in human answering patterns when swapping the order of questions in a survey. We design a multi-task learning setting in which a generative quantum model consisting of sequential learnable measurements can be adapted to a given task -- or question order -- by changing the order of observables, and we provide artificial datasets inspired by human psychology to carry out our investigation. Our first experimental simulations show that in some cases the quantum model learns more non-commutativity as the amount of order effect present in the data is increased, and that the quantum model can learn to generate better samples for unseen question orders when trained on others - both signs that the model architecture suits the task.
翻訳日:2023-12-08 17:04:05 公開日:2023-12-06
# シャープなナイフを隠すのをやめよう:webassembly linuxインターフェース

Stop Hiding The Sharp Knives: The WebAssembly Linux Interface ( http://arxiv.org/abs/2312.03858v1 )

ライセンス: Link先を確認
Arjun Ramesh, Tianshu Huang, Ben L. Titzer, Anthony Rowe(参考訳) WebAssemblyは多くのプログラミング言語がターゲットとするポータブルバイナリフォーマットとして人気を集めている。 低レベルな仮想命令セット、最小限のメモリフットプリント、多くの高性能実装により、多くのコンテキストにおいて、軽量なプロセス内メモリサンドボックスにうまく採用されている。 これらの利点にもかかわらず、WebAssemblyは多くの標準的なシステムインターフェースが欠けており、既存のアプリケーションの再利用が困難である。 WebAssembly Linux Interfaceは、Linuxのユーザ空間システムコールの薄い層であり、WebAssemblyがネイティブプロセスや基盤となるオペレーティングシステムとシームレスに対話する新しい仮想化クラスを作成します。 ユーザスペースの最低レベルを仮想化することにより、wuriはアプリケーションのポータビリティを少ない労力で提供し、既存のコンパイラバックエンドを再利用する。 webassemblyのコントロールフロー完全性保証により、これらのモジュールはリモートコードインジェクション攻撃に対する追加レベルの保護を受ける。 さらに、機能ベースのAPI自体をWALIの観点で仮想化し、実装することで、再利用性とロバスト性を向上させることができる。 WALIを現代的なWebAssemblyエンジンに実装し、そのパフォーマンスを多数のアプリケーションで評価します。

WebAssembly is gaining popularity as a portable binary format targetable from many programming languages. With a well-specified low-level virtual instruction set, minimal memory footprint and many high-performance implementations, it has been successfully adopted for lightweight in-process memory sandboxing in many contexts. Despite these advantages, WebAssembly lacks many standard system interfaces, making it difficult to reuse existing applications. This paper proposes WALI: The WebAssembly Linux Interface, a thin layer over Linux's userspace system calls, creating a new class of virtualization where WebAssembly seamlessly interacts with native processes and the underlying operating system. By virtualizing the lowest level of userspace, WALI offers application portability with little effort and reuses existing compiler backends. With WebAssembly's control flow integrity guarantees, these modules gain an additional level of protection against remote code injection attacks. Furthermore, capability-based APIs can themselves be virtualized and implemented in terms of WALI, improving reuse and robustness through better layering. We present an implementation of WALI in a modern WebAssembly engine and evaluate its performance on a number of applications which we can now compile with mostly trivial effort.
翻訳日:2023-12-08 17:03:41 公開日:2023-12-06
# Dr. JekyllとMr. Hyde: LLMの2つの顔

Dr. Jekyll and Mr. Hyde: Two Faces of LLMs ( http://arxiv.org/abs/2312.03853v1 )

ライセンス: Link先を確認
Matteo Gioele Collu, Tom Janssen-Groesbeek, Stefanos Koffas, Mauro Conti, Stjepan Picek(参考訳) 今年は、特にチャットボットアシスタントのようなアプリケーションと組み合わせると、大きな言語モデルの使用が増加するのを目の当たりにした。 これらのアシスタントからの不適切な応答を防ぐために、安全機構と特別な訓練手順が設定されている。 この研究では、チャットgptとbard(そしてある程度はbing chat)に対するこれらの措置を回避し、それらが本来あるべき真理あるアシスタントと相反する特性を持つ複雑なパーソナラを擬人化する。 まずこれらのペルソナの詳細な伝記を作成し、それから同じチャットボットで新しいセッションで使用します。 私たちの会話は、アシスタントが提供できない応答を得るためにロールプレイスタイルに従いました。 ペルソナの利用により、禁止されている応答が実際に提供されることを示し、不正、違法、有害な情報を得ることを可能にする。 この研究は、敵対的ペルソナを使用することで、ChatGPTとBardによって設定された安全メカニズムを克服できることを示している。 また、このような敵対的なペルソナを活性化する方法もいくつか導入されており、どちらのチャットボットもこの種の攻撃に対して脆弱であることを示している。

This year, we witnessed a rise in the use of Large Language Models, especially when combined with applications like chatbot assistants. Safety mechanisms and specialized training procedures are put in place to prevent improper responses from these assistants. In this work, we bypass these measures for ChatGPT and Bard (and, to some extent, Bing chat) by making them impersonate complex personas with opposite characteristics as those of the truthful assistants they are supposed to be. We start by creating elaborate biographies of these personas, which we then use in a new session with the same chatbots. Our conversation followed a role-play style to get the response the assistant was not allowed to provide. By making use of personas, we show that the response that is prohibited is actually provided, making it possible to obtain unauthorized, illegal, or harmful information. This work shows that by using adversarial personas, one can overcome safety mechanisms set out by ChatGPT and Bard. It also introduces several ways of activating such adversarial personas, altogether showing that both chatbots are vulnerable to this kind of attack.
翻訳日:2023-12-08 17:03:21 公開日:2023-12-06
# LEGO:ビジュアルインストラクションチューニングによるEGO中心のアクションフレーム生成

LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning ( http://arxiv.org/abs/2312.03849v1 )

ライセンス: Link先を確認
Bolin Lai, Xiaoliang Dai, Lawrence Chen, Guan Pang, James M. Rehg, Miao Liu(参考訳) エゴセントリックな視点から人間の日常行動の教示画像を生成することは、効率的なスキル伝達への重要なステップとなる。 本稿では,エゴセントリックなアクションフレーム生成という新しい問題を提案する。 ユーザプロンプト質問に対するアクションフレーム条件付けと,ユーザの環境をキャプチャする入力エゴセントリックなイメージを合成することが目的である。 特に、既存のエゴセントリックなデータセットには、アクションの実行を記述する詳細なアノテーションが欠けている。 さらに、拡散に基づく画像操作モデルでは、対応するエゴセントリック画像画素空間内のアクションの状態変化を制御できない。 この目的のために,視覚インストラクションチューニングを通じて視覚大言語モデル(vllm)を微調整し,拡張された動作記述をキュレートし,提案する問題に対処する。 さらに,VLLMからの画像とテキストの埋め込みを付加条件として,EGO中心(LEGO)アクションフレーム生成の学習を提案する。 ego4dとepic-kitchensという2つのエゴセントリックデータセット上で提案モデルを検証する。 本実験は,定量的および定性的評価において,先行画像操作モデルよりも顕著な改善を示した。 また, 詳細なアブレーション研究と分析を行い, 本手法について考察する。

Generating instructional images of human daily actions from an egocentric viewpoint serves a key step towards efficient skill transfer. In this paper, we introduce a novel problem -- egocentric action frame generation. The goal is to synthesize the action frame conditioning on the user prompt question and an input egocentric image that captures user's environment. Notably, existing egocentric datasets lack the detailed annotations that describe the execution of actions. Additionally, the diffusion-based image manipulation models fail to control the state change of an action within the corresponding egocentric image pixel space. To this end, we finetune a visual large language model (VLLM) via visual instruction tuning for curating the enriched action descriptions to address our proposed problem. Moreover, we propose to Learn EGOcentric (LEGO) action frame generation using image and text embeddings from VLLM as additional conditioning. We validate our proposed model on two egocentric datasets -- Ego4D and Epic-Kitchens. Our experiments show prominent improvement over prior image manipulation models in both quantitative and qualitative evaluation. We also conduct detailed ablation studies and analysis to provide insights on our method.
翻訳日:2023-12-08 17:02:59 公開日:2023-12-06
# krylov基底における量子カオス、積分可能性、および後期

Quantum chaos, integrability, and late times in the Krylov basis ( http://arxiv.org/abs/2312.03848v1 )

ライセンス: Link先を確認
Vijay Balasubramanian, Javier M. Magan, Qingyue Wu(参考訳) 量子カオス系は、微細な特徴(ギャップと相関)がランダム行列理論(RMT)によってよく説明されるスペクトルを示すと推測される。 量子カオス系は局所的平均と共分散がrmtによってよく説明されるランチョススペクトルを表示する。 本提案を支援するために,カオスシステムと可積分システムの例にその妥当性を示す。 次に,rmtsにおけるhaar-random初期状態について,lanczosスペクトルの平均と共分散がスペクトル形状因子を含む一般生存確率のフルタイム挙動と拡散複雑性をもたらすことを示した。 さらに,エネルギー固有状態と連続的に重なる初期状態に対しては,平均ランチョススペクトルを用いて,krylov基底要素の確率の長い時間平均を求める。 この分析は、積分可能なシステムと量子カオスのクラスを区別する統計である固有複雑性の概念を示唆する。 最後に,拡散複雑性とRTTの普遍性クラスとの関係を,ダイソン指数とポアソン分布スペクトルの様々な値の探索により明らかにする。

Quantum chaotic systems are conjectured to display a spectrum whose fine-grained features (gaps and correlations) are well described by Random Matrix Theory (RMT). We propose and develop a complementary version of this conjecture: quantum chaotic systems display a Lanczos spectrum whose local means and covariances are well described by RMT. To support this proposal, we first demonstrate its validity in examples of chaotic and integrable systems. We then show that for Haar-random initial states in RMTs the mean and covariance of the Lanczos spectrum suffices to produce the full long time behavior of general survival probabilities including the spectral form factor, as well as the spread complexity. In addition, for initial states with continuous overlap with energy eigenstates, we analytically find the long time averages of the probabilities of Krylov basis elements in terms of the mean Lanczos spectrum. This analysis suggests a notion of eigenstate complexity, the statistics of which differentiate integrable systems and classes of quantum chaos. Finally, we clarify the relation between spread complexity and the universality classes of RMT by exploring various values of the Dyson index and Poisson distributed spectra.
翻訳日:2023-12-08 17:02:40 公開日:2023-12-06
# フラッド・アダプテーションの諸相の解明と今後の課題

Exposing Disparities in Flood Adaptation for Equitable Future Interventions ( http://arxiv.org/abs/2312.03843v1 )

ライセンス: Link先を確認
Lidia Cano Pecharroman and ChangHoon Hahn(参考訳) 政府はより頻繁な洪水に備えた新しい気候適応政策の実施を競うため、すべての地域社会に有効な政策を模索し、気候正義を守らなければならない。 これは、全体的な有効性だけでなく、その利益がすべてのコミュニティで感じられるかどうかについても政策を評価する必要がある。 本研究では,fema全国洪水保険制度コミュニティ評価システムと25万ドルの洪水保険請求のデータセットを用いて,洪水適応の格差を考えることの重要性について述べる。 我々は, 深層発生モデルに基づく因果推論手法である${\rm C{\scriptsize AUSAL}F{\scriptsize LOW}}$を用いて, 地域社会の収入, 多様性, 人口, 洪水リスク, 教育達成率, 降水量に基づく洪水適応介入の処理効果を推定する。 このプログラムは1世帯あたり5,000~15,000ドルのコミュニティを節約している。 しかし、これらの貯蓄はコミュニティ全体に均等に分散していない。 例えば、低所得コミュニティの貯蓄は、洪水リスクが他の全てと同等の高所得コミュニティとは対照的に急激に減少する。 低所得のコミュニティでさえも、主に白人と非白人のコミュニティの間の貯蓄のギャップがあり、主に白人のコミュニティの貯蓄は1世帯あたり6000ドルを超える可能性がある。 世界中のコミュニティが洪水による損失を減らす努力を積み重ねているため、単に一連の洪水適応措置を規定するだけでは不十分である。 プログラムは、ディスエンフランチャイズメント、人種差別、不平等の歴史的パターンを補うために必要な技術的、経済的支援をコミュニティに提供する必要がある。 今後の洪水適応努力は、全体的な損失を減らし、既存のギャップを埋めて、気候適応レースにおけるコミュニティを公平に支援することを目指している。

As governments race to implement new climate adaptation policies that prepare for more frequent flooding, they must seek policies that are effective for all communities and uphold climate justice. This requires evaluating policies not only on their overall effectiveness but also on whether their benefits are felt across all communities. We illustrate the importance of considering such disparities for flood adaptation using the FEMA National Flood Insurance Program Community Rating System and its dataset of $\sim$2.5 million flood insurance claims. We use ${\rm C{\scriptsize AUSAL}F{\scriptsize LOW}}$, a causal inference method based on deep generative models, to estimate the treatment effect of flood adaptation interventions based on a community's income, diversity, population, flood risk, educational attainment, and precipitation. We find that the program saves communities \$5,000--15,000 per household. However, these savings are not evenly spread across communities. For example, for low-income communities savings sharply decline as flood-risk increases in contrast to their high-income counterparts with all else equal. Even among low-income communities, there is a gap in savings between predominantly white and non-white communities: savings of predominantly white communities can be higher by more than \$6000 per household. As communities worldwide ramp up efforts to reduce losses inflicted by floods, simply prescribing a series flood adaptation measures is not enough. Programs must provide communities with the necessary technical and economic support to compensate for historical patterns of disenfranchisement, racism, and inequality. Future flood adaptation efforts should go beyond reducing losses overall and aim to close existing gaps to equitably support communities in the race for climate adaptation.
翻訳日:2023-12-08 17:02:18 公開日:2023-12-06
# カオスおよび積分可能なユニタリ回路ダイナミクスにおけるhayden-preskill回復

Hayden-Preskill recovery in chaotic and integrable unitary circuit dynamics ( http://arxiv.org/abs/2312.03838v1 )

ライセンス: Link先を確認
Michael A. Rampp and Pieter W. Claeys(参考訳) Hayden-Preskillプロトコルは、ユニタリダイナミクス後のローカルサブシステムからの情報回復能力を探索する。 これにより、量子多体系の量子誤り訂正符号を動的に実装する能力が解決される。 符号化の挙動への遷移は、エンタングルメント膜理論のような効果的なアプローチで論じられている。 本稿では,局所量子多体系におけるスクランブルの動的プローブとしてHayden-Preskillリカバリを用いた正確な結果を示す。 本研究では,Floquet(Dual-unitary)とHaar-random(Haar-random)の2種類の回路モデルについて検討する。 効果的なアプローチを超えて,情報伝達やスクランブルに対応する異なる動的シグネチャについて論じる。 驚くべきことに、あるカオス回路は完全な忠実度で情報を転送する。 積分可能なデュアルユニタリ回路では、情報伝達を準粒子の伝播と散乱に関連付ける。 数値的および解析的な洞察を用いて、情報回復の質的特徴はこれらの解点から遠ざかっていると論じる。 以上の結果から,情報回復プロトコルはカオス的および可積分的行動の識別に有用であり,長寿命準粒子や双対ユニタリティーといった特性的な動的特徴に敏感であることが示唆された。

The Hayden-Preskill protocol probes the capability of information recovery from local subsystems after unitary dynamics. As such it resolves the capability of quantum many-body systems to dynamically implement a quantum error-correcting code. The transition to coding behavior has been mostly discussed using effective approaches, such as entanglement membrane theory. Here, we present exact results on the use of Hayden-Preskill recovery as a dynamical probe of scrambling in local quantum many-body systems. We investigate certain classes of unitary circuit models, both structured Floquet (dual-unitary) and Haar-random circuits. We discuss different dynamical signatures corresponding to information transport or scrambling, respectively, that go beyond effective approaches. Surprisingly, certain chaotic circuits transport information with perfect fidelity. In integrable dual-unitary circuits, we relate the information transmission to the propagation and scattering of quasiparticles. Using numerical and analytical insights, we argue that the qualitative features of information recovery extend away from these solvable points. Our results suggest that information recovery protocols can serve to distinguish chaotic and integrable behavior, and that they are sensitive to characteristic dynamical features, such as long-lived quasiparticles or dual-unitarity.
翻訳日:2023-12-08 17:01:44 公開日:2023-12-06
# 混乱したTavis-Cummingsモデルにおける積分性、多重フラクタル性、および2光子ダイナミクス

Integrability, multifractality, and two-photon dynamics in disordered Tavis-Cummings models ( http://arxiv.org/abs/2312.03833v1 )

ライセンス: Link先を確認
Agnieszka Wierzchucka, Francesco Piazza, Pieter W. Claeys(参考訳) タヴィス・カミングスモデル(Tavis-Cummings model)は、2レベル量子エミッタ(スピン)の集合を集合キャビティモードに結合するパラダイム中央モードモデルである。 本稿では,非線形フォトニクスに関連する2励起セクタに着目し,固有状態スペクトル,局在特性およびダイナミクスへの影響について検討する。 これらのモデルは、スピンとキャビティのカップリングと個々のスピンのエネルギーシフトという2つの障害源を許容する。 このモデルは、均一結合と不均一エネルギーシフトの極限において正確に解けることが知られているが、同次エネルギーシフトと不均一結合の反対限における可解性を確立し、正確な解と対応する保存量を示す。 固有状態の3つの異なるクラスを同定し、可積分点と密接な結びつきを持つ多フラクタル性および半局所化の度合いを示し、これらの解ける点から遠ざかる摂動に対する安定性を研究する。 ボソン束と2光子遮断を示す平衡から離れたキャビティ占有数のダイナミクスは、固有状態の局在特性と明確に関連しており、これらのモデルが乱れがあるにもかかわらず、集合スピン記述をどのようにサポートするかを示している。

The Tavis-Cummings model is a paradigmatic central-mode model where a set of two-level quantum emitters (spins) are coupled to a collective cavity mode. Here we study the eigenstate spectrum, its localization properties and the effect on dynamics, focusing on the two-excitation sector relevant for nonlinear photonics. These models admit two sources of disorder: in the coupling between the spins and the cavity and in the energy shifts of the individual spins. While this model was known to be exactly solvable in the limit of a homogeneous coupling and inhomogeneous energy shifts, we here establish the solvability in the opposite limit of a homogeneous energy shift and inhomogeneous coupling, presenting the exact solution and corresponding conserved quantities. We identify three different classes of eigenstates, exhibiting different degrees of multifractality and semilocalization closely tied to the integrable points, and study their stability to perturbations away from these solvable points. The dynamics of the cavity occupation number away from equilibrium, exhibiting boson bunching and a two-photon blockade, is explicitly related to the localization properties of the eigenstates and illustrates how these models support a collective spin description despite the presence of disorder.
翻訳日:2023-12-08 17:01:22 公開日:2023-12-06
# qslack: 変分量子半定義型プログラミングのためのslack可変アプローチ

QSlack: A slack-variable approach for variational quantum semi-definite programming ( http://arxiv.org/abs/2312.03830v1 )

ライセンス: Link先を確認
Jingxuan Chen, Hanna Westerheim, Zo\"e Holmes, Ivy Luo, Theshani Nuradha, Dhrumil Patel, Soorya Rethinasamy, Kathie Wang, Mark M. Wilde(参考訳) 最適化問題の解決は、量子コンピュータが既知の古典的アルゴリズムを高速化する上で重要な課題である。 半定値プログラミング(SDP)や線形プログラミング(LP)を含む最適化問題のクラスは、計算機科学、工学、数学、物理学の多くの領域で広く適用可能である。 ここでは,変数の次元が指数関数的に大きい半定値線形プログラムに着目し,従来のSDPとLPソルバはそのような大規模問題に役に立たない。 我々は,それぞれの最適値を推定するためのqslackとcslackの手法を提案する。 1)不等式制約を等式制約に変換するためのslack変数の導入。 2)制約付き最適化をペナルティ法による制約なし最適化に変換すること、及び 3)すべての可能な非負変数に対する最適化を、パラメータ化された量子状態とパラメータ化された確率分布の最適化に置き換える。 SDP と LP の入力が効率的に測定可能であると仮定すると、結果の目的関数の全ての項は、SDP の場合の量子コンピュータまたは LP の場合の量子または確率コンピュータによって効率的に推定可能である。 さらに, sdp と lp の双対性理論を用いることにより, これらの手法が, 目的関数の大域的オプティマを見いだせるならば, 結果値が上と下の両方から真の最適値を挟むという理論的保証を与えることを証明した。 最後に、様々なサンプル最適化問題に関するqslackとcslackメソッドを紹介し、実装の詳細と結果のパフォーマンスについて論じる。 これらの問題に対する原始問題と双対問題の両方の実装は、基礎的真理に近づき、典型的には10^{-2}$という命令の誤りをもたらす。

Solving optimization problems is a key task for which quantum computers could possibly provide a speedup over the best known classical algorithms. Particular classes of optimization problems including semi-definite programming (SDP) and linear programming (LP) have wide applicability in many domains of computer science, engineering, mathematics, and physics. Here we focus on semi-definite and linear programs for which the dimensions of the variables involved are exponentially large, so that standard classical SDP and LP solvers are not helpful for such large-scale problems. We propose the QSlack and CSlack methods for estimating their optimal values, respectively, which work by 1) introducing slack variables to transform inequality constraints to equality constraints, 2) transforming a constrained optimization to an unconstrained one via the penalty method, and 3) replacing the optimizations over all possible non-negative variables by optimizations over parameterized quantum states and parameterized probability distributions. Under the assumption that the SDP and LP inputs are efficiently measurable observables, it follows that all terms in the resulting objective functions are efficiently estimable by either a quantum computer in the SDP case or a quantum or probabilistic computer in the LP case. Furthermore, by making use of SDP and LP duality theory, we prove that these methods provide a theoretical guarantee that, if one could find global optima of the objective functions, then the resulting values sandwich the true optimal values from both above and below. Finally, we showcase the QSlack and CSlack methods on a variety of example optimization problems and discuss details of our implementation, as well as the resulting performance. We find that our implementations of both the primal and dual for these problems approach the ground truth, typically achieving errors of order $10^{-2}$.
翻訳日:2023-12-08 17:00:57 公開日:2023-12-06
# 適応型依存学習グラフニューラルネットワーク

Adaptive Dependency Learning Graph Neural Networks ( http://arxiv.org/abs/2312.03903v1 )

ライセンス: Link先を確認
Abishek Sriramulu, Nicolas Fourrier and Christoph Bergmeir(参考訳) グラフニューラルネットワーク(gnn)は最近、トラフィック予測や地域ベースの需要予測といったタスクにおける複雑な空間的および時間的パターンをモデル化する能力により、予測領域で人気が高まっている。 これらの手法の多くは入力として事前定義されたグラフを必要とするが、実生活における多変量時系列問題では、よく定義された依存グラフはほとんど存在しない。 この要求により、小売やエネルギーといった他の領域における多変量予測問題に対して、GNNが広く利用されることが困難になる。 本稿では,ニューラルネットワークと統計構造学習モデルを組み合わせたハイブリッドアプローチを提案し,その依存関係を自己学習し,多変量データから動的に変化する依存性グラフを構築する。 ニューラルネットワークと組み合わせた統計的構造モデリングは、系列間の依存関係を決定する因果意味論を導入することによって、十分に導出的で効率的なアプローチを提供する。 最後に,実世界のベンチマークデータセットに対して,事前定義された依存関係グラフを使わずに,提案手法により性能が大幅に向上することを示す。

Graph Neural Networks (GNN) have recently gained popularity in the forecasting domain due to their ability to model complex spatial and temporal patterns in tasks such as traffic forecasting and region-based demand forecasting. Most of these methods require a predefined graph as input, whereas in real-life multivariate time series problems, a well-predefined dependency graph rarely exists. This requirement makes it harder for GNNs to be utilised widely for multivariate forecasting problems in other domains such as retail or energy. In this paper, we propose a hybrid approach combining neural networks and statistical structure learning models to self-learn the dependencies and construct a dynamically changing dependency graph from multivariate data aiming to enable the use of GNNs for multivariate forecasting even when a well-defined graph does not exist. The statistical structure modeling in conjunction with neural networks provides a well-principled and efficient approach by bringing in causal semantics to determine dependencies among the series. Finally, we demonstrate significantly improved performance using our proposed approach on real-world benchmark datasets without a pre-defined dependency graph.
翻訳日:2023-12-08 16:53:49 公開日:2023-12-06
# 2012年のメリーランド議会選挙区地図の再検討

Redrawing the 2012 map of the Maryland congressional districts ( http://arxiv.org/abs/2312.03901v1 )

ライセンス: Link先を確認
Noah Lee, Hyunwoo Park and Sangho Shim(参考訳) ゲリーマンダーリング(Gerrymandering)は、投票者人口を操作するために偏見のある選挙地図を描くプラクティスである。 ゲリーマンデリングが問題になったのは2019年で、連邦最高裁判所は、地方地図の描き方を決める権限が裁判所にはないと判断し、州議会議員が選挙地区計画の策定に携わった。 政治地区問題は解決し、2019年にこの問題を提起したメリーランド議会選挙区の2012年地図を再作成した。

Gerrymandering is the practice of drawing biased electoral maps that manipulate the voter population to gain an advantage. The most recent time gerrymandering became an issue was 2019 when the U.S. Federal Supreme Court decided that the court does not have the authority to dictate how to draw the district map and state legislators are the ones who should come up with an electoral district plan. We solve the political districting problem and redraw the 2012 map of Maryland congressional districts which raised the issue in 2019.
翻訳日:2023-12-08 16:53:30 公開日:2023-12-06
# 単語長の最適性の再検討

Revisiting the Optimality of Word Lengths ( http://arxiv.org/abs/2312.03897v1 )

ライセンス: Link先を確認
Tiago Pimentel, Clara Meister, Ethan Gotlieb Wilcox, Kyle Mahowald, Ryan Cotterell(参考訳) zipf (1935) は、単語形式は発話のコミュニケーションコストを最小化するために最適化されていると仮定した。 発話の長さによってコストが与えられるという仮定の下で、彼は単語の長さが周波数と逆相関していることを示すことによって、この主張を支持した。 しかし、通信コストは異なる方法で操作できる。 Piantadosi et al. (2011) は、コストは発話の情報量とチャネル容量の間の距離として測定されるべきであり、ここではチャネルキャパシティ仮説(CCH)を定めている。 この論理に従えば、単語の長さはその前提値(文脈における負の対数確率)の期待値に比例するべきである。 本稿では、PiantadosiらによるCCHの導出は、CCHのコストを最小化するのではなく、より低いバウンドで、CCH-lower と呼ぶ。 本稿では,CCHのコストを最小化するための改良手法を提案する。 この方法では、言語の単語長は、代用詞の期待値と、その分散対平均比に比例するべきである。 実験により,これらの通信コスト関数,Zipf,CCH-lower,CCHを比較した。 13の言語といくつかの実験的な設定で、長さは他の仮説よりも頻度で予測できることがわかった。 実際、surprisalの期待値、あるいは期待値と平均値の分散比がより良い言語モデルを用いて推定されると、単語長の予測は悪化する。 これらの結果は、Zipfの長年の仮説が持つ証拠とみなす。

Zipf (1935) posited that wordforms are optimized to minimize utterances' communicative costs. Under the assumption that cost is given by an utterance's length, he supported this claim by showing that words' lengths are inversely correlated with their frequencies. Communicative cost, however, can be operationalized in different ways. Piantadosi et al. (2011) claim that cost should be measured as the distance between an utterance's information rate and channel capacity, which we dub the channel capacity hypothesis (CCH) here. Following this logic, they then proposed that a word's length should be proportional to the expected value of its surprisal (negative log-probability in context). In this work, we show that Piantadosi et al.'s derivation does not minimize CCH's cost, but rather a lower bound, which we term CCH-lower. We propose a novel derivation, suggesting an improved way to minimize CCH's cost. Under this method, we find that a language's word lengths should instead be proportional to the surprisal's expectation plus its variance-to-mean ratio. Experimentally, we compare these three communicative cost functions: Zipf's, CCH-lower , and CCH. Across 13 languages and several experimental settings, we find that length is better predicted by frequency than either of the other hypotheses. In fact, when surprisal's expectation, or expectation plus variance-to-mean ratio, is estimated using better language models, it leads to worse word length predictions. We take these results as evidence that Zipf's longstanding hypothesis holds.
翻訳日:2023-12-08 16:53:21 公開日:2023-12-06
# HLoOP - 双曲型2空間局所外乱確率

HLoOP -- Hyperbolic 2-space Local Outlier Probabilities ( http://arxiv.org/abs/2312.03895v1 )

ライセンス: Link先を確認
Cl\'emence Allietta, Jean-Philippe Condomines, Jean-Yves Tourneret, Emmanuel Lochin(参考訳) ハイパーボリック幾何は、下流処理のために低歪みの階層グラフ構造を埋め込む能力があるため、機械学習において大きな注目を集めている。 本稿では,hloop (hyperbolic local outlier probability) と呼ばれる双曲型2次元空間に接するデータセットの局所的外れ値を検出するための簡易なフレームワークを提案する。 ユークリッド空間内では、局所外乱検出のためのよく知られたテクニックは、局所外乱係数(LOF)とその変種であるLoOP(Local Outlier Probability)に基づいており、これはデータベクトルの外乱レベルをモデル化するための確率論的概念を取り入れている。 開発されたhloopは、密度に基づくアウトリアースコアと確率的、統計的指向のアプローチを組み合わせることで、最も近い隣人を見つけることができる。 したがって、この方法は、双曲空間で表されるガウス確率密度関数に従って、データポイントからその近傍へのリームマン距離を計算することである。 これは、この空間におけるガウス累積分布を定義することによって達成される。 HLoOPアルゴリズムはWordNetデータセット上でテストされ、有望な結果が得られる。 コードとデータは、再生産の要求に応じて利用可能になる。

Hyperbolic geometry has recently garnered considerable attention in machine learning due to its capacity to embed hierarchical graph structures with low distortions for further downstream processing. This paper introduces a simple framework to detect local outliers for datasets grounded in hyperbolic 2-space referred to as HLoOP (Hyperbolic Local Outlier Probability). Within a Euclidean space, well-known techniques for local outlier detection are based on the Local Outlier Factor (LOF) and its variant, the LoOP (Local Outlier Probability), which incorporates probabilistic concepts to model the outlier level of a data vector. The developed HLoOP combines the idea of finding nearest neighbors, density-based outlier scoring with a probabilistic, statistically oriented approach. Therefore, the method consists in computing the Riemmanian distance of a data point to its nearest neighbors following a Gaussian probability density function expressed in a hyperbolic space. This is achieved by defining a Gaussian cumulative distribution in this space. The HLoOP algorithm is tested on the WordNet dataset yielding promising results. Code and data will be made available on request for reproductibility.
翻訳日:2023-12-08 16:52:56 公開日:2023-12-06
# 調整のための熟考技術

Deliberative Technology for Alignment ( http://arxiv.org/abs/2312.03893v1 )

ライセンス: Link先を確認
Andrew Konya, Deger Turan, Aviv Ovadya, Lina Qui, Daanish Masood, Flynn Devine, Lisa Schirch, Isabella Roberts, Deliberative Alignment Forum(参考訳) 人類が機関を未来に維持し、拡張するためには、私たちが作り出す最も強力なシステムは、人類の意志と未来を一致させるものでなければならない。 現在最も強力なシステムは、政府、企業、NGOのような大規模機関である。 規制と外交を人間の意志と整合させるために、これらの機関ですでに議論的な技術が使われており、現代のAIは、この技術を大幅に改善する準備が整っている。 同時に、超人的AGIへの競争はすでに進行中であり、それが生み出すAIシステムは、未来の最も強力なシステムになるかもしれない。 このような強力なAIと人類の意志を一致させることができず、破滅的な結果をもたらす可能性がある。 現時点では、強力なaiの影響を人類の意志に合わせるために、慎重な技術を使う機会の窓がある。 さらに、AI能力が向上するにつれてアライメントの品質が向上するように、強力なAIと熟考的なアライメントシステムとの共生結合を設計することも可能だ。

For humanity to maintain and expand its agency into the future, the most powerful systems we create must be those which act to align the future with the will of humanity. The most powerful systems today are massive institutions like governments, firms, and NGOs. Deliberative technology is already being used across these institutions to help align governance and diplomacy with human will, and modern AI is poised to make this technology significantly better. At the same time, the race to superhuman AGI is already underway, and the AI systems it gives rise to may become the most powerful systems of the future. Failure to align the impact of such powerful AI with the will of humanity may lead to catastrophic consequences, while success may unleash abundance. Right now, there is a window of opportunity to use deliberative technology to align the impact of powerful AI with the will of humanity. Moreover, it may be possible to engineer a symbiotic coupling between powerful AI and deliberative alignment systems such that the quality of alignment improves as AI capabilities increase.
翻訳日:2023-12-08 16:52:38 公開日:2023-12-06
# 運転行動に対するインフラ型警報システムの評価 : 概観

Evaluation of Infrastructure-based Warning System on Driving Behaviors-A Roundabout Study ( http://arxiv.org/abs/2312.03891v1 )

ライセンス: Link先を確認
Cong Zhang, Chi Tian, Tianfang Han, Hang Li, Yiheng Feng, Yunfeng Chen, Robert W. Proctor, Jiansong Zhang(参考訳) スマート交差点は、センサー、通信、エッジコンピューティング技術による道路安全を改善する可能性がある。 スマート交差点に設置された知覚センサは、交通環境をリアルタイムで監視し、v2x通信を介して周辺旅行者にインフラベースの警告を送ることができる。 本稿では,運転者の運転行動にインフラに基づく警告が与える影響とラウンドアラウンドアラウンドセーフティの改善について,運転シミュレーション研究を通じて検討した。 運転シミュレータとして,都市移動シミュレーション(sumo)とwebotsを統合したシミュレーションプラットフォームを開発した。 ミシガン州アンアーバーにある実世界のラウンドアバウションが研究エリアとして共同シミュレーションプラットフォームに構築され、マージシナリオが検討された。 36人の参加者が募集され、3つの危険レベル(例えば、低、中、高)と3つの衝突警告設計(例えば、警告なし、前もって1秒の警告、前もって2秒の警告)の下を移動するよう求められた。 その結果,警告のないシナリオと比較して潜在的なリスクを最小限に抑えることにより,高度な警告は安全性を著しく向上させることができることがわかった。 以前の警告により、よりスムーズなドライバ応答と突然の減速が実現された。 さらに,警告表示時の運転者の停止判断を予測するために,個別の意図予測モデルを開発した。 全ての試験された機械学習モデルの中で、XGBoostモデルは95.56%の精度と97.73%のリコール率で最高の予測精度を達成した。

Smart intersections have the potential to improve road safety with sensing, communication, and edge computing technologies. Perception sensors installed at a smart intersection can monitor the traffic environment in real time and send infrastructure-based warnings to nearby travelers through V2X communication. This paper investigated how infrastructure-based warnings can influence driving behaviors and improve roundabout safety through a driving-simulator study - a challenging driving scenario for human drivers. A co-simulation platform integrating Simulation of Urban Mobility (SUMO) and Webots was developed to serve as the driving simulator. A real-world roundabout in Ann Arbor, Michigan was built in the co-simulation platform as the study area, and the merging scenarios were investigated. 36 participants were recruited and asked to navigate the roundabout under three danger levels (e.g., low, medium, high) and three collision warning designs (e.g., no warning, warning issued 1 second in advance, warning issued 2 seconds in advance). Results indicated that advanced warnings can significantly enhance safety by minimizing potential risks compared to scenarios without warnings. Earlier warnings enabled smoother driver responses and reduced abrupt decelerations. In addition, a personalized intention prediction model was developed to predict drivers' stop-or-go decisions when the warning is displayed. Among all tested machine learning models, the XGBoost model achieved the highest prediction accuracy with a precision rate of 95.56% and a recall rate of 97.73%.
翻訳日:2023-12-08 16:52:21 公開日:2023-12-06
# 不均質から均質拡大への移行

Transition from inhomogeneous to homogeneous broadening at a lasing prethreshold ( http://arxiv.org/abs/2312.03890v1 )

ライセンス: Link先を確認
I. S. Pashkevich, I. V. Doronin, E. S. Andrianov, A. A. Zyablovsky(参考訳) 活性媒質中の放出線幅は均質で不均質な広がりによって現れる。 不均質な広がりを持つレーザーでは臨界ポンプ速度があり、その上に特別なモードが形成される。 このモードは、キャビティモードと遷移周波数の異なる活性粒子のロックイン振動からなる。 ポンプ速度の臨界値以下では、レーザーの放射スペクトルはガウスプロファイルを持ち、不均質な広がりが支配的である。 ポンプレートの臨界値を超えると、特別なモードが主にレーザー放射スペクトルを決定する。 その結果、スペクトルは均質拡大のためのローレンツ形状特性が得られる。 特殊モードの形成は浸出に先行し, 臨界ポンプ速度が浸出プレスホールドの役割を担っていることを実証する。 均一幅と不均一幅の両方が存在する単一モードレーザーのしきい値と発生周波数の式を得る。

The emission linewidth in active medium emerges due to homogeneous and inhomogeneous broadening. We demonstrate that in lasers with inhomogeneous broadening there is a critical pump rate, above which the special mode forms. This mode consists of locked-in oscillations of cavity mode and of the active particles with different transition frequencies. Below the critical value of the pump rate, the radiation spectrum of the laser has a Gaussian profile, provided that inhomogeneous broadening is dominant. Above the critical value of pump rate, the special mode mostly determines the laser radiation spectrum. As the result, the spectrum attains Lorentz shape characteristic for homogeneous broadening. We demonstrate that the formation of the special mode precedes lasing and that the critical pump rate plays the role of lasing prethreshold. We obtain expressions for the threshold and generation frequency of single-mode laser where both homogeneous and inhomogeneous broadening are present.
翻訳日:2023-12-08 16:51:52 公開日:2023-12-06
# コミュニケーション効率の良いフェデレーション学習システムにおける次元化のためのマスクプルーニング手法

A Masked Pruning Approach for Dimensionality Reduction in Communication-Efficient Federated Learning Systems ( http://arxiv.org/abs/2312.03889v1 )

ライセンス: Link先を確認
Tamir L.S. Gez, Kobi Cohen(参考訳) Federated Learning(FL)は、ローカルデータセットを保持する多数のノードにわたってモデルをトレーニングするために設計された、成長する機械学習(ML)パラダイムである。 その人気が高まったのは、プライバシー面での深層ニューラルネットワーク(DNN)モデルのトレーニングと、通信リソースの効率的な利用において、顕著なメリットがあるためだ。 残念ながら、DNNは計算と通信のコストが高く、複雑なタスクのメモリ消費に悩まされている。 これらの要因は、ハードウェアリソースが制限された通信制約システムにおけるflアルゴリズムの適用性を制限する。 本稿では,これらの制約を克服する新しいアルゴリズムを開発し,フラニング法とFL法を相乗的に組み合わせ,低次元のモデル表現と通信コストの最小化を図り,この手法をMPFL (Masked Pruning over FL) と呼ぶ。 このアルゴリズムは最初にPSを介してノードに重みを分配することによって動作する。 その後、各ノードはモデルをローカルにトレーニングし、プラニングマスクを計算する。 これらの低次元マスクはPSに送信され、コンセンサスプルーニングマスクを生成し、ノードに送信される。 この反復過程はマスキングプルーニングモデルのロバスト性と安定性を高める。 生成されたマスクはFLモデルのトレーニングに使用され、帯域幅の大幅な削減を実現している。 既存の方法と比較してMPFLの優れた性能を示す実験を行った。 さらに,関連分野の研究者や開発者のために,オープンソースソフトウェアパッケージを開発した。

Federated Learning (FL) represents a growing machine learning (ML) paradigm designed for training models across numerous nodes that retain local datasets, all without directly exchanging the underlying private data with the parameter server (PS). Its increasing popularity is attributed to notable advantages in terms of training deep neural network (DNN) models under privacy aspects and efficient utilization of communication resources. Unfortunately, DNNs suffer from high computational and communication costs, as well as memory consumption in intricate tasks. These factors restrict the applicability of FL algorithms in communication-constrained systems with limited hardware resources. In this paper, we develop a novel algorithm that overcomes these limitations by synergistically combining a pruning-based method with the FL process, resulting in low-dimensional representations of the model with minimal communication cost, dubbed Masked Pruning over FL (MPFL). The algorithm operates by initially distributing weights to the nodes through the PS. Subsequently, each node locally trains its model and computes pruning masks. These low-dimensional masks are then transmitted back to the PS, which generates a consensus pruning mask, broadcasted back to the nodes. This iterative process enhances the robustness and stability of the masked pruning model. The generated mask is used to train the FL model, achieving significant bandwidth savings. We present an extensive experimental study demonstrating the superior performance of MPFL compared to existing methods. Additionally, we have developed an open-source software package for the benefit of researchers and developers in related fields.
翻訳日:2023-12-08 16:51:40 公開日:2023-12-06
# 機械学習におけるハードウェア選択の公平性について

On The Fairness Impacts of Hardware Selection in Machine Learning ( http://arxiv.org/abs/2312.03886v1 )

ライセンス: Link先を確認
Sree Harsha Nelaturu, Nishaanth Kanna Ravichandran, Cuong Tran, Sara Hooker, Ferdinando Fioretto(参考訳) 機械学習のエコシステムでは、ハードウェアの選択は単なるユーティリティと見なされ、アルゴリズムやデータのスポットライトに隠れている。 この監視は、ML-as-a-serviceプラットフォームのようなコンテキストにおいて特に問題となる。 ハードウェアの選択は一般化特性にどのように影響するか? 本稿では,ハードウェアがモデル性能と公平性の微妙なバランスに及ぼす影響について検討する。 ハードウェアの選択が既存の格差を悪化させる可能性を示し、これらの相違は、異なる階層群間での勾配流と損失面の変化に起因することを示した。 理論的および実証的分析の両面から,本論文はハードウェアによる性能不均衡を緩和するための効果的な戦略を提案する。

In the machine learning ecosystem, hardware selection is often regarded as a mere utility, overshadowed by the spotlight on algorithms and data. This oversight is particularly problematic in contexts like ML-as-a-service platforms, where users often lack control over the hardware used for model deployment. How does the choice of hardware impact generalization properties? This paper investigates the influence of hardware on the delicate balance between model performance and fairness. We demonstrate that hardware choices can exacerbate existing disparities, attributing these discrepancies to variations in gradient flows and loss surfaces across different demographic groups. Through both theoretical and empirical analysis, the paper not only identifies the underlying factors but also proposes an effective strategy for mitigating hardware-induced performance imbalances.
翻訳日:2023-12-08 16:51:18 公開日:2023-12-06
# 高次微分の要約によるニューラルネットへのニュートン法の適用

Adapting Newton's Method to Neural Networks through a Summary of Higher-Order Derivatives ( http://arxiv.org/abs/2312.03885v1 )

ライセンス: Link先を確認
Pierre Wolinski(参考訳) 変数のベクトルの関数 $\mathcal{L}$ に適用される勾配に基づく最適化法を、$\boldsymbol{\theta}$ がテンソル $(\mathbf{T}_1, \cdots, \mathbf{T}_S)$ のタプルとして表される場合に考える。 このフレームワークは、勾配降下によるニューラルネットワークのトレーニングなど、多くの一般的なユースケースを含んでいる。 まず, テンソル$\mathbf{T}_s$ 上の高次情報, 特にテンソル $\mathbf{T}_s$ 間の相互作用について, 自動微分と計算手法に基づいて高次情報を提供する計算コスト手法を提案する。 第2に,この手法を順序2で使用し,様々なアーキテクチャの深層ニューラルネットワークの学習に適した2次最適化手法を構築した。 この二階法では、$\boldsymbol{\theta}$ の分割構造をテンソル $(\mathbf{t}_1, \cdots, \mathbf{t}_s)$ に利用し、$\boldsymbol{\theta}$ に従えば $\mathcal{l}$ のヘッセンの計算も必要としない。 鍵となる部分は、より小さな行列を「分割に従ってヘッセン」と解釈し、正確に効率的に計算できる計算である。 ヘシアンあるいはその逆の対角あるいはブロック対角近似を行うニューラルネットワークで用いられる多くの既存の実用的二階法とは対照的に、提案手法は層間の相互作用を無視しない。 最後に、分割の粗さを調整してよく知られた最適化手法を復元することができる: 粗いケースはコーシーの最も急降下法に対応し、最も細かいケースは通常のニュートン法に対応している。

We consider a gradient-based optimization method applied to a function $\mathcal{L}$ of a vector of variables $\boldsymbol{\theta}$, in the case where $\boldsymbol{\theta}$ is represented as a tuple of tensors $(\mathbf{T}_1, \cdots, \mathbf{T}_S)$. This framework encompasses many common use-cases, such as training neural networks by gradient descent. First, we propose a computationally inexpensive technique providing higher-order information on $\mathcal{L}$, especially about the interactions between the tensors $\mathbf{T}_s$, based on automatic differentiation and computational tricks. Second, we use this technique at order 2 to build a second-order optimization method which is suitable, among other things, for training deep neural networks of various architectures. This second-order method leverages the partition structure of $\boldsymbol{\theta}$ into tensors $(\mathbf{T}_1, \cdots, \mathbf{T}_S)$, in such a way that it requires neither the computation of the Hessian of $\mathcal{L}$ according to $\boldsymbol{\theta}$, nor any approximation of it. The key part consists in computing a smaller matrix interpretable as a "Hessian according to the partition", which can be computed exactly and efficiently. In contrast to many existing practical second-order methods used in neural networks, which perform a diagonal or block-diagonal approximation of the Hessian or its inverse, the method we propose does not neglect interactions between layers. Finally, we can tune the coarseness of the partition to recover well-known optimization methods: the coarsest case corresponds to Cauchy's steepest descent method, the finest case corresponds to the usual Newton's method.
翻訳日:2023-12-08 16:51:06 公開日:2023-12-06
# WonderJourney: どこにでも行く

WonderJourney: Going from Anywhere to Everywhere ( http://arxiv.org/abs/2312.03884v1 )

ライセンス: Link先を確認
Hong-Xing Yu, Haoyi Duan, Junhwa Hur, Kyle Sargent, Michael Rubinstein, William T. Freeman, Forrester Cole, Deqing Sun, Noah Snavely, Jiajun Wu, Charles Herrmann(参考訳) wonderjourneyは,永続的な3dシーン生成のためのモジュール化フレームワークである。 単一のタイプのシーンに焦点を当てたビュー生成に関する以前の作業とは異なり、ユーザが提供する場所(テキスト記述や画像)から始めて、多様だが一貫性のある3Dシーンの長いシーケンスを旅する。 我々はLLMを利用して、この旅のシーンのテキスト記述を生成する。テキスト駆動のポイントクラウド生成パイプラインは、魅力的な3Dシーンのコヒーレントなシーケンスを作り、大きなVLMは生成されたシーンを検証する。 様々なシーンタイプやスタイルにまたがって、魅力的で多様な視覚的な結果を示し、想像上の「wonderjourneys」を形成する。 プロジェクトウェブサイト: https://kovenyu.com/wonderjourney/

We introduce WonderJourney, a modularized framework for perpetual 3D scene generation. Unlike prior work on view generation that focuses on a single type of scenes, we start at any user-provided location (by a text description or an image) and generate a journey through a long sequence of diverse yet coherently connected 3D scenes. We leverage an LLM to generate textual descriptions of the scenes in this journey, a text-driven point cloud generation pipeline to make a compelling and coherent sequence of 3D scenes, and a large VLM to verify the generated scenes. We show compelling, diverse visual results across various scene types and styles, forming imaginary "wonderjourneys". Project website: https://kovenyu.com/WonderJourney/
翻訳日:2023-12-08 16:50:26 公開日:2023-12-06
# FoMo Rewards: ファンデーションモデルを報酬関数としてキャストできますか?

FoMo Rewards: Can we cast foundation models as reward functions? ( http://arxiv.org/abs/2312.03881v1 )

ライセンス: Link先を確認
Ekdeep Singh Lubana, Johann Brehmer, Pim de Haan, Taco Cohen(参考訳) 強化学習のための汎用報酬関数としての鋳造基礎モデルの有効性について検討する。 そこで本研究では,既存の視覚モデルと大規模言語モデルとをインターフェースするシンプルなパイプラインを提案する。 具体的には、観察の軌跡から、ユーザがエージェントに実行させたいと思うタスクを記述する命令の可能性を推測する。 提案手法は,報酬関数から理想的に期待される特徴を示す。高値と望ましい振る舞いを関連付け,いくつかの類似するが不正確なポリシーに対して低い値を関連付ける。 全体として、我々の研究は、基礎モデルを通して対話的なタスクのためのオープンエンドエージェントを設計する可能性を開く。

We explore the viability of casting foundation models as generic reward functions for reinforcement learning. To this end, we propose a simple pipeline that interfaces an off-the-shelf vision model with a large language model. Specifically, given a trajectory of observations, we infer the likelihood of an instruction describing the task that the user wants an agent to perform. We show that this generic likelihood function exhibits the characteristics ideally expected from a reward function: it associates high values with the desired behaviour and lower values for several similar, but incorrect policies. Overall, our work opens the possibility of designing open-ended agents for interactive tasks via foundation models.
翻訳日:2023-12-08 16:50:12 公開日:2023-12-06
# ドメイン制約は結果データが欠落した場合のリスク予測を改善する

Domain constraints improve risk prediction when outcome data is missing ( http://arxiv.org/abs/2312.03878v1 )

ライセンス: Link先を確認
Sidhika Balachandar, Nikhil Garg, Emma Pierson(参考訳) 機械学習モデルは、しばしば人間の決定による結果を予測するために訓練される。 例えば、医者が患者に病気の検査をさせると決めた場合、患者は陽性になるだろうか? 我々は、医師が歴史的にテストした患者のテスト結果のみを観察します。 結果が得られない未検査の患者は、観察された範囲や観察されていない範囲で検査された患者と異なる場合がある。 この設定をキャプチャするベイズモデルクラスを提案する。 このモデルの目的は、検査と未検査の両方の患者のリスクを正確に見積もることである。 未検査患者の幅広い可能性のために、このモデルの推定は困難である。 そこで,本研究では,健康設定において可能な2つの領域制約を提案する。病原性制約,および,人間の意思決定者が純粋にリスクに基づく意思決定から逸脱する専門性制約である。 領域制約がパラメータ推論を改善するための理論および合成データについて述べる。 本研究は, がんリスク予測のケーススタディに適用し, そのモデルが癌診断を予測し, その推定テストポリシが既知の公衆衛生政策を捉え, テストアロケーションにおける準最適性を同定できることを示す。 我々のケーススタディは医療分野ですが、多くの環境でモデル推定を改善することができる領域制約の一般的なクラスを明らかにします。

Machine learning models are often trained to predict the outcome resulting from a human decision. For example, if a doctor decides to test a patient for disease, will the patient test positive? A challenge is that the human decision censors the outcome data: we only observe test outcomes for patients doctors historically tested. Untested patients, for whom outcomes are unobserved, may differ from tested patients along observed and unobserved dimensions. We propose a Bayesian model class which captures this setting. The purpose of the model is to accurately estimate risk for both tested and untested patients. Estimating this model is challenging due to the wide range of possibilities for untested patients. To address this, we propose two domain constraints which are plausible in health settings: a prevalence constraint, where the overall disease prevalence is known, and an expertise constraint, where the human decision-maker deviates from purely risk-based decision-making only along a constrained feature set. We show theoretically and on synthetic data that domain constraints improve parameter inference. We apply our model to a case study of cancer risk prediction, showing that the model's inferred risk predicts cancer diagnoses, its inferred testing policy captures known public health policies, and it can identify suboptimalities in test allocation. Though our case study is in healthcare, our analysis reveals a general class of domain constraints which can improve model estimation in many settings.
翻訳日:2023-12-08 16:50:00 公開日:2023-12-06
# 高度で信頼性の高い中距離気象予報のためのスケーリングトランスニューラルネットワーク

Scaling transformer neural networks for skillful and reliable medium-range weather forecasting ( http://arxiv.org/abs/2312.03876v1 )

ライセンス: Link先を確認
Tung Nguyen, Rohan Shah, Hritik Bansal, Troy Arcomano, Sandeep Madireddy, Romit Maulik, Veerabhadra Kotamarthi, Ian Foster, Aditya Grover(参考訳) 気象予報は気候変動の影響を予測し緩和するための根本的な問題である。 近年,深層学習に基づく気象予報のためのデータ駆動型アプローチは,運用システムと競合する精度を達成し,大きな可能性を秘めている。 しかし、これらの手法は十分にアブレーション分析をすることなく複雑でカスタマイズされたアーキテクチャを採用することが多く、その成功に真に寄与するものを理解することは困難である。 本稿では,標準トランスフォーマーバックボーンの変更を最小限にして,天気予報の最先端性能を実現する簡易トランスフォーマーモデルであるstormerを紹介する。 気象固有組込み,ランダム化ダイナミクス予測,圧力重み付け損失など,注意深い実験分析を通じてストーマーの重要な構成要素を同定した。 Stormerの中核はランダムな予測目標であり、様々な時間間隔で天気のダイナミクスを予測するためにモデルを訓練する。 推論中、ターゲットリードタイムの複数の予測を生成し、それらを組み合わせて予測精度を向上させることができる。 weatherbench 2では、stormerは短距離から中距離の予測で競争力を保ち、現在のメソッドを7日間以上上回りながら、トレーニングデータと計算の桁違いを要求される。 さらに,モデルサイズとトレーニングトークンの増加による予測精度の一貫した向上を示すとともに,stormerの優れたスケーリング特性を示す。 コードとチェックポイントは公開される予定だ。

Weather forecasting is a fundamental problem for anticipating and mitigating the impacts of climate change. Recently, data-driven approaches for weather forecasting based on deep learning have shown great promise, achieving accuracies that are competitive with operational systems. However, those methods often employ complex, customized architectures without sufficient ablation analysis, making it difficult to understand what truly contributes to their success. Here we introduce Stormer, a simple transformer model that achieves state-of-the-art performance on weather forecasting with minimal changes to the standard transformer backbone. We identify the key components of Stormer through careful empirical analyses, including weather-specific embedding, randomized dynamics forecast, and pressure-weighted loss. At the core of Stormer is a randomized forecasting objective that trains the model to forecast the weather dynamics over varying time intervals. During inference, this allows us to produce multiple forecasts for a target lead time and combine them to obtain better forecast accuracy. On WeatherBench 2, Stormer performs competitively at short to medium-range forecasts and outperforms current methods beyond 7 days, while requiring orders-of-magnitude less training data and compute. Additionally, we demonstrate Stormer's favorable scaling properties, showing consistent improvements in forecast accuracy with increases in model size and training tokens. Code and checkpoints will be made publicly available.
翻訳日:2023-12-08 16:49:36 公開日:2023-12-06
# 圧力揺動吸着器のCO_{2}$キャプチャの最適化:最適性評価を用いたディープニューラルネットワークアプローチと決定処理のためのオペレーティングマップ

Optimizing $CO_{2}$ Capture in Pressure Swing Adsorption Units: A Deep Neural Network Approach with Optimality Evaluation and Operating Maps for Decision-Making ( http://arxiv.org/abs/2312.03873v1 )

ライセンス: Link先を確認
Carine Menezes Rebello, Idelfonso B. R. Nogueira(参考訳) 本研究は, 二酸化炭素(CO_{2}$)捕捉における加圧スウィング吸着ユニットの強化に着目し, 循環吸着プロセスのシュロゲート最適化手法を提案する。 我々は、2つのディープニューラルネットワーク(DNN)モデルからなるマルチインプット・シングルアウトプット(MISO)フレームワークを開発し、実装した。 これらのモデルは最適化フレームワークに統合され、pso( particle swarm optimization)と統計解析を利用して包括的なパレートフロント表現を生成する。 このアプローチは、実行可能な運用領域(FOR)を明確にし、最適な意思決定シナリオのスペクトルを強調した。 提案手法の重要な側面は最適化の有効性の評価であった。 これは、パレートフロントから派生した決定変数を現象モデルに対してテストし、サロゲートモデルの信頼性を確認した。 その後、これらの決定変数の実行可能な操作領域を分析した。 これらの変数間の相互作用を解明するために詳細な相関マップを構築し、プロセス動作に影響を与える最も影響のある要因を明らかにする。 この研究は、オペレーターが最適なプロセスの位置を特定し、特定の運用目標を優先順位付けするのに役立つ実用的で洞察に富んだ運用マップを提供する。

This study presents a methodology for surrogate optimization of cyclic adsorption processes, focusing on enhancing Pressure Swing Adsorption units for carbon dioxide ($CO_{2}$) capture. We developed and implemented a multiple-input, single-output (MISO) framework comprising two deep neural network (DNN) models, predicting key process performance indicators. These models were then integrated into an optimization framework, leveraging particle swarm optimization (PSO) and statistical analysis to generate a comprehensive Pareto front representation. This approach delineated feasible operational regions (FORs) and highlighted the spectrum of optimal decision-making scenarios. A key aspect of our methodology was the evaluation of optimization effectiveness. This was accomplished by testing decision variables derived from the Pareto front against a phenomenological model, affirming the surrogate models reliability. Subsequently, the study delved into analyzing the feasible operational domains of these decision variables. A detailed correlation map was constructed to elucidate the interplay between these variables, thereby uncovering the most impactful factors influencing process behavior. The study offers a practical, insightful operational map that aids operators in pinpointing the optimal process location and prioritizing specific operational goals.
翻訳日:2023-12-08 16:49:12 公開日:2023-12-06
# ダイヤモンド中のグループIV色中心を持つ巨大フォトニック多粒子配向状態の決定論的創製

Deterministic Creation of Large Photonic Multipartite Entangled States with Group-IV Color Centers in Diamond ( http://arxiv.org/abs/2312.03952v1 )

ライセンス: Link先を確認
Gregor Pieplow, Yannick Strocka, Mariano Isaza-Monsalve, Joseph H. D. Munns, Tim Schr\"oder(参考訳) 測定に基づく量子計算は、格子グラフまたはクラスター状態と呼ばれる大きな多部交絡状態の単一量子ビット測定に依存する。 グラフ状態は量子通信の重要なリソースであり、ツリークラスタ状態は一方向の量子リピータにとって重要なリソースである。 この種の状態のフォトニック実現は、環境相互作用の弱いことやフォトニック量子ビットをルーティングし測定するためのよく開発されたインフラなど、フォトニックプラットフォームの利点の多くを継承するだろう。 本研究では,グループIV色中心に対する線形クラスタ状態とGHZ状態生成手法を開発した。 特に本論文では,コヒーレントスピンゲートや励磁ゲートなど,必要な制御操作について詳細に検討する。 我々はスピンゲートの非共振ラマンスキームを選択するが、これはマイクロ波制御よりもはるかに高速である。 我々は低レベルスキームに頼らず、高忠実度ラマンゲートの設計に効率的な近似を用いる。 我々は,スズ空洞の色中心を空洞に結合させたスピン制御および励起方式を,現実的な実験条件としてベンチマークした。 さらに,ラマンと励起ゲートの放射的および非放射的崩壊機構の存在下での細部について検討した。 最後に、大きな絡み合ったフォトニック状態の生成における高速かつ高忠実なスピンゲートの重要性を強調する品質尺度が考案された。

Measurement-based quantum computation relies on single qubit measurements of large multipartite entangled states, so-called lattice-graph or cluster states. Graph states are also an important resource for quantum communication, where tree cluster states are a key resource for one-way quantum repeaters. A photonic realization of this kind of state would inherit many of the benefits of photonic platforms, such as very little dephasing due to weak environmental interactions and the well-developed infrastructure to route and measure photonic qubits. In this work, a linear cluster state and GHZ state generation scheme is developed for group-IV color centers. In particular, this article focuses on an in-depth investigation of the required control operations, including the coherent spin and excitation gates. We choose an off-resonant Raman scheme for the spin gates, which can be much faster than microwave control. We do not rely on a reduced level scheme and use efficient approximations to design high-fidelity Raman gates. We benchmark the spin-control and excitation scheme using the tin vacancy color center coupled to a cavity, assuming a realistic experimental setting. Additionally, the article investigates the fidelities of the Raman and excitation gates in the presence of radiative and non-radiative decay mechanisms. Finally, a quality measure is devised, which emphasizes the importance of fast and high-fidelity spin gates in the creation of large entangled photonic states.
翻訳日:2023-12-08 16:43:02 公開日:2023-12-06
# 二重老化における最適化の役割の理解

Understanding the Role of Optimization in Double Descent ( http://arxiv.org/abs/2312.03951v1 )

ライセンス: Link先を確認
Chris Yuhao Liu, Jeffrey Flanigan(参考訳) 実験誤差がピークに達し、モデルサイズが大きくなるにつれて減少するモデルワイド・ダブル降下現象は、理論と実践の差が顕著に観測されていることから、研究者の注目を集める興味深いトピックである。 加えて、様々なタスクやアーキテクチャで二重降下が観察されている一方で、重みの減衰や早期停止といった明示的な正規化がなくても、二重降下のピークが顕著に欠如または減少することがある。 本稿では,この興味深い現象を最適化の観点から検討し,なぜ二重降下が弱くなるか全く起こるかという簡単な最適化に基づく説明を提案する。 我々の知識を最大限に活用するため、我々はモデルワイズ二重降下(初期化、正規化、バッチサイズ、学習率、最適化アルゴリズム)に寄与する多くの異なる要因が最適化の観点から統一されることを最初に証明した。 これらの因子は最適化問題やオプティマイザの条件数に直接影響し、オプティマイザが検出した最終最小値に影響を与え、二重降下ピークの高さを減少または増大させる。 ランダムな特徴モデルと2層ニューラルネットワークを様々な最適化条件下で制御した実験を行い、この最適化に基づく統一ビューを実証する。 ダブル降下は、現実世界の機械学習のセットアップでは問題になりそうにない。 さらに,本研究の結果は,弱い2重降下ピークと,慎重に設計した設定で観測可能な強いピークとのギャップを説明するのに役立つ。

The phenomenon of model-wise double descent, where the test error peaks and then reduces as the model size increases, is an interesting topic that has attracted the attention of researchers due to the striking observed gap between theory and practice \citep{Belkin2018ReconcilingMM}. Additionally, while double descent has been observed in various tasks and architectures, the peak of double descent can sometimes be noticeably absent or diminished, even without explicit regularization, such as weight decay and early stopping. In this paper, we investigate this intriguing phenomenon from the optimization perspective and propose a simple optimization-based explanation for why double descent sometimes occurs weakly or not at all. To the best of our knowledge, we are the first to demonstrate that many disparate factors contributing to model-wise double descent (initialization, normalization, batch size, learning rate, optimization algorithm) are unified from the viewpoint of optimization: model-wise double descent is observed if and only if the optimizer can find a sufficiently low-loss minimum. These factors directly affect the condition number of the optimization problem or the optimizer and thus affect the final minimum found by the optimizer, reducing or increasing the height of the double descent peak. We conduct a series of controlled experiments on random feature models and two-layer neural networks under various optimization settings, demonstrating this optimization-based unified view. Our results suggest the following implication: Double descent is unlikely to be a problem for real-world machine learning setups. Additionally, our results help explain the gap between weak double descent peaks in practice and strong peaks observable in carefully designed setups.
翻訳日:2023-12-08 16:42:19 公開日:2023-12-06
# 拡張性と一般化可能なパスロスマップ予測

A Scalable and Generalizable Pathloss Map Prediction ( http://arxiv.org/abs/2312.03950v1 )

ライセンス: Link先を確認
Ju-Hyung Lee and Andreas F. Molisch(参考訳) 大規模チャネル予測,すなわち地理的/形態的/建築地図からのパスロスの推定は,無線ネットワーク計画の重要な要素である。 レイトレーシング(RT)ベースの手法は長年にわたって広く使われてきたが、B5G/6Gシステムではネットワークの密度の増大や高周波数の使用が禁止される可能性がある。 本稿ではPMNetと呼ばれるデータ駆動型無モデルパスロスマップ予測(PMP)手法を提案する。 PMNetは教師付き学習アプローチを採用しており、限られた量のRTデータとマップデータに基づいて訓練されている。 一度訓練すると、pmnetは数ミリ秒で高い精度(rmseのレベルは10^{-2}$)でロケーション上のパスロスを予測できる。 転送学習(TL)を用いてPMNetをさらに拡張する。 TLによりPMNetは、トレーニング済みのモデルから知識を転送し、精度を維持しながら、新しいネットワークシナリオを素早く(x5.6の高速化)、効率的に(x4.5の少ないデータを使用する)学習することができる。 この結果から,PMNetはスケーラブルで一般化可能なMLベースのPMP手法であり,複数のネットワーク最適化アプリケーションで使用可能な可能性を示している。

Large-scale channel prediction, i.e., estimation of the pathloss from geographical/morphological/building maps, is an essential component of wireless network planning. Ray tracing (RT)-based methods have been widely used for many years, but they require significant computational effort that may become prohibitive with the increased network densification and/or use of higher frequencies in B5G/6G systems. In this paper, we propose a data-driven, model-free pathloss map prediction (PMP) method, called PMNet. PMNet uses a supervised learning approach: it is trained on a limited amount of RT (or channel measurement) data and map data. Once trained, PMNet can predict pathloss over location with high accuracy (an RMSE level of $10^{-2}$) in a few milliseconds. We further extend PMNet by employing transfer learning (TL). TL allows PMNet to learn a new network scenario quickly (x5.6 faster training) and efficiently (using x4.5 less data) by transferring knowledge from a pre-trained model, while retaining accuracy. Our results demonstrate that PMNet is a scalable and generalizable ML-based PMP method, showing its potential to be used in several network optimization applications.
翻訳日:2023-12-08 16:41:05 公開日:2023-12-06
# 歴史的文書画像エンハンス向上のための階層型トークン・ツー・トケントランスネットワーク

A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical Document Image Enhancement ( http://arxiv.org/abs/2312.03946v1 )

ライセンス: Link先を確認
Risab Biswas, Swalpa Kumar Roy, Umapada Pal(参考訳) 文書画像エンハンスメントは、文書画像に害を与えるような多くの劣化状況があり、文書画像の認識と解析がより困難であるため、文書解析の割り当てにおいて最高の性能を達成するための基本的かつ重要なステージである。 本稿では,Tokens-token視覚変換器をベースとした新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである \textbf{T2T-BinFormer} を提案する。 各画像はvitモデルを用いて定義された長さのトークンの集合に分割され、トークン間のグローバル関係をモデル化するために数回適用される。 しかし、従来の入力データのトークン化は、入力画像の隣接画素間の重要な局所構造を十分に反映しないため、効率が低下する。 文書画像強調タスクにおいて、簡単なViTや画像のハード分割ではなく、プログレッシブトークン化技術を用いて画像からこの局所情報をキャプチャし、より効果的な結果を得る。 様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。 本研究の主要な分野は,文書双対化作業へのアーキテクチャの応用である。 ソースコードはhttps://github.com/RisabBiswas/T2T-BinFormerで入手できる。

Document image enhancement is a fundamental and important stage for attaining the best performance in any document analysis assignment because there are many degradation situations that could harm document images, making it more difficult to recognize and analyze them. In this paper, we propose \textbf{T2T-BinFormer} which is a novel document binarization encoder-decoder architecture based on a Tokens-to-token vision transformer. Each image is divided into a set of tokens with a defined length using the ViT model, which is then applied several times to model the global relationship between the tokens. However, the conventional tokenization of input data does not adequately reflect the crucial local structure between adjacent pixels of the input image, which results in low efficiency. Instead of using a simple ViT and hard splitting of images for the document image enhancement task, we employed a progressive tokenization technique to capture this local information from an image to achieve more effective results. Experiments on various DIBCO and H-DIBCO benchmarks demonstrate that the proposed model outperforms the existing CNN and ViT-based state-of-the-art methods. In this research, the primary area of examination is the application of the proposed architecture to the task of document binarization. The source code will be made available at https://github.com/RisabBiswas/T2T-BinFormer.
翻訳日:2023-12-08 16:40:16 公開日:2023-12-06
# PECANN:グラフベースの近似近傍探索による並列クラスタリング

PECANN: Parallel Efficient Clustering with Graph-Based Approximate Nearest Neighbor Search ( http://arxiv.org/abs/2312.03940v1 )

ライセンス: Link先を確認
Shangdi Yu, Joshua Engels, Yihao Huang, Julian Shun(参考訳) 本稿では,ポイント集合の密度に基づくクラスタリングについて検討する。 これらの手法は、任意の形状のクラスターを検出するために、点の密度の高い領域を使用する。 特に,実際にうまく機能することを示す一般的なアルゴリズムである密度ピーククラスタリングの変種について検討した。 当社の目標は、一般的に普及している大規模な高次元データセットをクラスタ化することです。 従来のソリューションはシーケンシャルで、大きなデータにスケールできないか、低次元のデータに特化している。 本稿では,このアルゴリズムに共通するいくつかの重要なステップを抽象化することにより,密度ピークの異なる変種をひとつのフレームワークPECANNにまとめる。 そのような重要なステップの1つは述語関数を満たす近辺を探すことである。本論文の主な貢献の一つは、グラフに基づく近似近辺探索(anns)を用いて述語探索を行う効率的な方法である。 並列性を両立させるために,少数のラウンドで述語を満足する近傍近傍の点を見つけることができる二重探索手法を提案する。 提案手法は,PECANNに接続可能な既存のグラフベースANNSアルゴリズムにも適用可能である。 PECANNを用いて5つのクラスタリングアルゴリズムを実装し,最大128万点,最大1024次元の合成および実世界のデータセットを双方向ハイパースレッディングを備えた30コアマシン上で評価する。 高次元密度ピーククラスタリングのための最新のFASTDPアルゴリズムと比較すると,ARIの競合点を達成しつつ,最良のアルゴリズムは45x-734倍高速である。 低次元に最適化された最先端の並列DPCアルゴリズムと比較して,PECANNは2桁高速であることを示す。 私たちが知る限り、我々の研究は、大規模な高次元実世界画像とテキスト埋め込みデータセットでdpcの変種を評価する最初の方法です。

This paper studies density-based clustering of point sets. These methods use dense regions of points to detect clusters of arbitrary shapes. In particular, we study variants of density peaks clustering, a popular type of algorithm that has been shown to work well in practice. Our goal is to cluster large high-dimensional datasets, which are prevalent in practice. Prior solutions are either sequential, and cannot scale to large data, or are specialized for low-dimensional data. This paper unifies the different variants of density peaks clustering into a single framework, PECANN, by abstracting out several key steps common to this class of algorithms. One such key step is to find nearest neighbors that satisfy a predicate function, and one of the main contributions of this paper is an efficient way to do this predicate search using graph-based approximate nearest neighbor search (ANNS). To provide ample parallelism, we propose a doubling search technique that enables points to find an approximate nearest neighbor satisfying the predicate in a small number of rounds. Our technique can be applied to many existing graph-based ANNS algorithms, which can all be plugged into PECANN. We implement five clustering algorithms with PECANN and evaluate them on synthetic and real-world datasets with up to 1.28 million points and up to 1024 dimensions on a 30-core machine with two-way hyper-threading. Compared to the state-of-the-art FASTDP algorithm for high-dimensional density peaks clustering, which is sequential, our best algorithm is 45x-734x faster while achieving competitive ARI scores. Compared to the state-of-the-art parallel DPC-based algorithm, which is optimized for low dimensions, we show that PECANN is two orders of magnitude faster. As far as we know, our work is the first to evaluate DPC variants on large high-dimensional real-world image and text embedding datasets.
翻訳日:2023-12-08 16:39:52 公開日:2023-12-06
# 修正スイス住宅データセットにおける条件付きフロアプラン生成へのハウスディフュージョンの適用

Adapting HouseDiffusion for conditional Floor Plan generation on Modified Swiss Dwellings dataset ( http://arxiv.org/abs/2312.03938v1 )

ライセンス: Link先を確認
Emanuel Kuhn(参考訳) 自動フロアプラン生成は近年,いくつかの手法が提案されている。 CVAAD Floor Plan Auto-Completionワークショップでは、入力制約として既存の建物の構造壁を含む新たなデータセットであるMSDを導入した。 この技術報告は、最近の研究であるHouseDiffusion(arXiv:2211.13287 [cs.CV])をMSDデータセットに拡張するためのアプローチを示す。 この適応には、モデルのトランスフォーマー層を一連の壁線の条件に修正する必要がある。 本報告は、入力として提供される建物構造のバイナリマスクから壁線を抽出するための前処理パイプラインを導入する。 さらに,全室多角形を矩形に単純化するデータ処理手法により,性能が向上することが判明した。 このことは、将来の研究が拡散モデルにおける変数長ポリゴンのより良い表現を探求すべきであることを示している。 コードは後日公開される予定だ。

Automated floor plan generation has recently gained momentum with several methods that have been proposed. The CVAAD Floor Plan Auto-Completion workshop challenge introduced MSD, a new dataset that includes existing structural walls of the building as an additional input constraint. This technical report presents an approach for extending a recent work, HouseDiffusion (arXiv:2211.13287 [cs.CV]), to the MSD dataset. The adaption involves modifying the model's transformer layers to condition on a set of wall lines. The report introduces a pre-processing pipeline to extract wall lines from the binary mask of the building structure provided as input. Additionally, it was found that a data processing procedure that simplifies all room polygons to rectangles leads to better performance. This indicates that future work should explore better representations of variable-length polygons in diffusion models. The code will be made available at a later date.
翻訳日:2023-12-08 16:39:23 公開日:2023-12-06
# 子どもの映像のコンテンツモデレーションのための視覚言語モデルの可能性

The Potential of Vision-Language Models for Content Moderation of Children's Videos ( http://arxiv.org/abs/2312.03936v1 )

ライセンス: Link先を確認
Syed Hammad Ahmed, Shengnan Hu, Gita Sukthankar(参考訳) 自然言語監督は、オブジェクト検出やアクティビティ認識など、多くのコンピュータビジョンタスクにおいてゼロショット学習に有効であることが示されている。 しかし、ビデオコンテンツモデレーションのようなより微妙なタスクでは、情報的なプロンプトを生成することは難しい。 ビデオが暴力やわいせつを超えて不適切である理由がたくさんあるため、これは難しい可能性がある。 例えば、詐欺師は人気のある教育ビデオに似ているが意味のある情報を持たないジャンクコンテンツを作成しようとする。 本稿では,教師付きおよびゼロショット設定の両方において,子どもの漫画のコンテンツモデレーションのためのクリップ変動の性能を評価する。 提案するモデル (Vanilla CLIP with Projection Layer) は,Malicious or Benign (MOB) ベンチマークによる映像コンテンツのモデレーションにおいて, 従来よりも優れていることを示す。 本稿では,文脈固有の言語がコンテンツのモデレーション性能に与える影響を深く分析する。 コンテントモデレーションのプロンプトには,特にCLIPトレーニングデータによく表現されていないマンガビデオに,より多くのコンテキストを含めることの重要性が示唆された。

Natural language supervision has been shown to be effective for zero-shot learning in many computer vision tasks, such as object detection and activity recognition. However, generating informative prompts can be challenging for more subtle tasks, such as video content moderation. This can be difficult, as there are many reasons why a video might be inappropriate, beyond violence and obscenity. For example, scammers may attempt to create junk content that is similar to popular educational videos but with no meaningful information. This paper evaluates the performance of several CLIP variations for content moderation of children's cartoons in both the supervised and zero-shot setting. We show that our proposed model (Vanilla CLIP with Projection Layer) outperforms previous work conducted on the Malicious or Benign (MOB) benchmark for video content moderation. This paper presents an in depth analysis of how context-specific language prompts affect content moderation performance. Our results indicate that it is important to include more context in content moderation prompts, particularly for cartoon videos as they are not well represented in the CLIP training data.
翻訳日:2023-12-08 16:39:06 公開日:2023-12-06
# クロスドメインFew-Shot学習のための適応重み付き共学習

Adaptive Weighted Co-Learning for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2312.03928v1 )

ライセンス: Link先を確認
Abdullah Alchihabi, Marzi Heidari, Yuhong Guo(参考訳) 新規なターゲット予測タスクのためのラベル付きインスタンスと、十分に注釈されたソースドメインとターゲットドメインの間の重要なドメインシフトが利用可能であるため、cross-domain few-shot learning (cdfsl)は、非常に困難な適応問題を引き起こす。 本稿では,cdfsl課題に対処するための簡易適応型重み付き共学習(awcol)手法を提案する。 提案手法は,各モデルから確率的予測を生成するための重み付き移動平均予測戦略を展開し,その予測から得られた擬似ラベルと例重みに基づいて,2つのモデルを相互に微調整することで適応的コラーニングを行う。 さらに、偽予測をペナルティ化することにより微調整プロセスを改善するために、負の擬似ラベル正則化器を更に配置する。 複数のベンチマークデータセットで包括的な実験を行い,提案手法が最先端のcdfsl性能を実現することを実証した。

Due to the availability of only a few labeled instances for the novel target prediction task and the significant domain shift between the well annotated source domain and the target domain, cross-domain few-shot learning (CDFSL) induces a very challenging adaptation problem. In this paper, we propose a simple Adaptive Weighted Co-Learning (AWCoL) method to address the CDFSL challenge by adapting two independently trained source prototypical classification models to the target task in a weighted co-learning manner. The proposed method deploys a weighted moving average prediction strategy to generate probabilistic predictions from each model, and then conducts adaptive co-learning by jointly fine-tuning the two models in an alternating manner based on the pseudo-labels and instance weights produced from the predictions. Moreover, a negative pseudo-labeling regularizer is further deployed to improve the fine-tuning process by penalizing false predictions. Comprehensive experiments are conducted on multiple benchmark datasets and the empirical results demonstrate that the proposed method produces state-of-the-art CDFSL performance.
翻訳日:2023-12-08 16:38:47 公開日:2023-12-06
# 伝統的なCSクラス活動と社会善・倫理・コミュニケーション・リーダーシップスキルのコンピューティングの統合

Integrating Traditional CS Class Activities with Computing for Social Good, Ethics, and Communication and Leadership Skills ( http://arxiv.org/abs/2312.03924v1 )

ライセンス: Link先を確認
Renato Cortinovis, Devender Goyal, Luiz Fernando Capretz(参考訳) ソフトウェアと情報技術は、自動意思決定やソーシャルメディアやエンターテイメントから、政府プログラムやユーティリティ、金融機関といった重要な社会的・物理的インフラの運営まで、人間の社会においてますます統合され、普及しつつある。 その結果、これらの技術を公平かつ包括的に活用し、健康、水管理、貧困、人権といった世界的な問題に対処する専門職を開発する必要性が高まっている。 この点に関して、多くの研究者がCSの技術スキルの伝統的な教育をコンピュータと情報倫理(社会善のための計算)、コミュニケーションとリーダーシップのスキルと共に補完する必要性を表明している。 本稿では,CS学生が社会改善のためのコンピュータ利用の可能性を理解するために,過去数年間に開発・改良してきた目標といくつかのクラス活動について述べる。 これらの慎重に計画されたプロジェクト課題では、幅広い専門的責任とソフトスキルを持つ技術スキルを開発する伝統的なアプローチをシームレスに統合します。 次に,これらの活動から得られた教訓を議論し,今後の計画を概説する。

Software and information technologies are becoming increasingly integrated and pervasive in human society and range from automated decision making and social media and entertainment, to running critical social and physical infrastructures like government programs, utilities, and financial institutions. As a result, there is a growing awareness of the need to develop professionals who will harness these technologies in fair and inclusive ways and use them to address global issues like health, water management, poverty, and human rights. In this regard, many academic researchers have expressed the need to complement traditional teaching of CS technical skills with computer and information ethics (computing for social good), as well as communication and leadership skills. In this paper, we describe our goals and some possible class activities we have developed and refined over the past few years with encouraging results, to help CS students understand the potential uses of computing for social good. In these carefully planned project assignments, we seamlessly integrate traditional approaches to develop technical skills with broader professional responsibility and soft skills. We then discuss the lessons learned from these activities and briefly outline future plans.
翻訳日:2023-12-08 16:38:23 公開日:2023-12-06
# 全パラメータに近似最適依存性を持つ線形非ユニタリダイナミクスの量子アルゴリズム

Quantum algorithm for linear non-unitary dynamics with near-optimal dependence on all parameters ( http://arxiv.org/abs/2312.03916v1 )

ライセンス: Link先を確認
Dong An, Andrew M. Childs, Lin Lin(参考訳) 本稿では,一般線形非ユニタリ進化作用素をユニタリ進化作用素の線形結合として表現し,それぞれがハミルトニアンシミュレーションの問題を解く単位系を導入する。 この定式化は、最近導入されたハミルトンシミュレーション(LCHS)法(An, Liu, and Lin, Physical Review Letters, 2023]の線形結合の精度を指数関数的に向上させることができる。 このアプローチにより、量子アルゴリズムは、最適状態準備コストと全てのパラメータ上の行列クエリのほぼ最適スケーリングの両方で線形微分方程式を解くことができる。

We introduce a family of identities that express general linear non-unitary evolution operators as a linear combination of unitary evolution operators, each solving a Hamiltonian simulation problem. This formulation can exponentially enhance the accuracy of the recently introduced linear combination of Hamiltonian simulation (LCHS) method [An, Liu, and Lin, Physical Review Letters, 2023]. For the first time, this approach enables quantum algorithms to solve linear differential equations with both optimal state preparation cost and near-optimal scaling in matrix queries on all parameters.
翻訳日:2023-12-08 16:38:03 公開日:2023-12-06
# 制御可能な人間-物体相互作用合成

Controllable Human-Object Interaction Synthesis ( http://arxiv.org/abs/2312.03913v1 )

ライセンス: Link先を確認
Jiaman Li, Alexander Clegg, Roozbeh Mottaghi, Jiajun Wu, Xavier Puig, C. Karen Liu(参考訳) セマンティック・アウェア、ロングホリゾン、ヒューマン・オブジェクトの相互作用の合成は、現実的な人間の行動をシミュレートするために重要である。 本研究では,3次元シーンにおける言語記述に導かれる物体運動と人間の動きの同期化という課題を解決する。 本稿では,言語記述,初期オブジェクトと人間状態の条件付き拡散モデル,スパースオブジェクトのウェイポイントを用いて,物体の動きと人間の動きを同時に生成する制御可能な人間-物体相互作用合成(CHOIS)を提案する。 言語記述がスタイルと意図を知らせる一方で、waypointsはシーンの動作を接地し、ハイレベルな計画手法を使って効果的に抽出することができる。 拡散モデルの適用は、入力されたウェイポイントに沿った物体の動きを予測できず、正確なハンド・オブジェクトの接触と床に接する適切な接触を必要とする相互作用のリアリズムを保証することができない。 これらの問題を克服するために,生成した物体の動きと入力対象のウェイポイントとのマッチングを改善するため,追加の監督としてオブジェクト幾何損失を導入する。 さらに,訓練された拡散モデルのサンプリング過程において,接触制約を強制するためのガイダンス項を設計する。

Synthesizing semantic-aware, long-horizon, human-object interaction is critical to simulate realistic human behaviors. In this work, we address the challenging problem of generating synchronized object motion and human motion guided by language descriptions in 3D scenes. We propose Controllable Human-Object Interaction Synthesis (CHOIS), an approach that generates object motion and human motion simultaneously using a conditional diffusion model given a language description, initial object and human states, and sparse object waypoints. While language descriptions inform style and intent, waypoints ground the motion in the scene and can be effectively extracted using high-level planning methods. Naively applying a diffusion model fails to predict object motion aligned with the input waypoints and cannot ensure the realism of interactions that require precise hand-object contact and appropriate contact grounded by the floor. To overcome these problems, we introduce an object geometry loss as additional supervision to improve the matching between generated object motion and input object waypoints. In addition, we design guidance terms to enforce contact constraints during the sampling process of the trained diffusion model.
翻訳日:2023-12-08 16:37:51 公開日:2023-12-06
# コラボレーションか、企業買収か? NLPの産業人工物の信頼性の定量化と貢献

Collaboration or Corporate Capture? Quantifying NLP's Reliance on Industry Artifacts and Contributions ( http://arxiv.org/abs/2312.03912v1 )

ライセンス: Link先を確認
Will Aitken and Mohamed Abdalla and Karen Rudie and Catherine Stinson(参考訳) トランスフォーマーの出現、高い計算予算、そしてビッグデータは、自然言語処理(NLP)において顕著な進歩をもたらした。 業界で事前訓練されたモデルの印象的なパフォーマンスは近年大衆の注目を集め、ニュースの見出しになった。 業界モデルであることは注目に値する。 ごく稀に、学術機関が新しいNLPモデルを生み出している。 これらのモデルの使用は、NLPベンチマークと競合し、NLP研究に関連性を維持するために重要である。 EMNLP 2022で公表された100の論文を調査し,この現象がNLP出版の産業に依存しているかどうかを調査した。 私たちは確かにかなりの信頼関係があることに気付きました。 業界アーチファクトの引用とカテゴリ間の貢献は、毎年の業界出版率の少なくとも3倍大きい。 この信頼性の定量化は、結果をどう解釈すべきかを決着させるものではない。 議論で考えられる2つの視点について論じる。 1) 業界とのコラボレーションはいまだに代替手段がないか? あるいは 2)nlpの無料調査は、民間企業の動機や研究方針に捉えられているか。

The advent of transformers, higher computational budgets, and big data has engendered remarkable progress in Natural Language Processing (NLP). Impressive performance of industry pre-trained models has garnered public attention in recent years and made news headlines. That these are industry models is noteworthy. Rarely, if ever, are academic institutes producing exciting new NLP models. Using these models is critical for competing on NLP benchmarks and correspondingly to stay relevant in NLP research. We surveyed 100 papers published at EMNLP 2022 to determine whether this phenomenon constitutes a reliance on industry for NLP publications. We find that there is indeed a substantial reliance. Citations of industry artifacts and contributions across categories is at least three times greater than industry publication rates per year. Quantifying this reliance does not settle how we ought to interpret the results. We discuss two possible perspectives in our discussion: 1) Is collaboration with industry still collaboration in the absence of an alternative? Or 2) has free NLP inquiry been captured by the motivations and research direction of private corporations?
翻訳日:2023-12-08 16:37:31 公開日:2023-12-06
# 後方推定のための勾配誘導ネストサンプリングの改善

Improving Gradient-guided Nested Sampling for Posterior Inference ( http://arxiv.org/abs/2312.03911v1 )

ライセンス: Link先を確認
Pablo Lemos, Nikolay Malkin, Will Handley, Yoshua Bengio, Yashar Hezaveh, Laurence Perreault-Levasseur(参考訳) 本稿では, 微分可能プログラミング, ハミルトンスライスサンプリング, クラスタリング, モード分離, 動的ネストサンプリング, 並列化における技術状況を組み合わせた, 高性能で汎用的な勾配誘導型ネストサンプリングアルゴリズム, ${\tt GGNS}$を提案する。 このユニークな組み合わせにより、${\tt GGNS}$は次元でうまくスケールでき、様々な合成および実世界の問題で競争的に機能する。 また, 営巣サンプリングと生成フローネットワークを組み合わせることで, 後方分布から大量の高品質なサンプルを得る可能性を示した。 この組み合わせは、高速なモード発見とパーティション関数のより正確な推定につながる。

We present a performant, general-purpose gradient-guided nested sampling algorithm, ${\tt GGNS}$, combining the state of the art in differentiable programming, Hamiltonian slice sampling, clustering, mode separation, dynamic nested sampling, and parallelization. This unique combination allows ${\tt GGNS}$ to scale well with dimensionality and perform competitively on a variety of synthetic and real-world problems. We also show the potential of combining nested sampling with generative flow networks to obtain large amounts of high-quality samples from the posterior distribution. This combination leads to faster mode discovery and more accurate estimates of the partition function.
翻訳日:2023-12-08 16:37:17 公開日:2023-12-06
# 論理制約付き自己回帰モデルに対する擬意味的損失

A Pseudo-Semantic Loss for Autoregressive Models with Logical Constraints ( http://arxiv.org/abs/2312.03905v1 )

ライセンス: Link先を確認
Kareem Ahmed, Kai-Wei Chang, Guy Van den Broeck(参考訳) ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。 これはしばしば、ニューラルネットワークの出力分布に対する記号的制約の可能性を最大化する必要がある。 このような出力分布は典型的には完全分解であると仮定される。 これにより、神経シンボリック学習のより表現力のある自己回帰分布、例えばトランスフォーマーへの適用性が制限される。 そのような分布の下では、単純な制約でさえも計算できる確率は#Pハードである。 出力分布全体の制約を強制するのではなく、ランダムに局所的に近似する手法を提案する。 より正確には、モデルサンプルを中心とした擬似類似度に基づく近似の下で制約の可能性を最適化する。 我々の近似は分解され、解をサブプロブレムに再利用することは、ニューロシンボリックな損失を効率的に計算する主要な要素である。 さらに、確率の局所的、高忠実な近似であり、モデルサンプルの周囲に低いエントロピーとkl-ダイバージェンスを示す。 我々は,スドクと最短経路予測のアプローチを自己回帰生成として評価し,論理的に一貫性のある出力を予測できる基本モデルの能力を大幅に改善することを確認する。 また,大規模言語モデルをデトックスするタスクについても評価した。 有害な単語のリストを許容する単純な制約を用いることで、有害な世代からモデル出力を分離し、従来のアプローチと比較してSoTAの解毒を達成できる。

Neuro-symbolic AI bridges the gap between purely symbolic and neural approaches to learning. This often requires maximizing the likelihood of a symbolic constraint w.r.t the neural network's output distribution. Such output distributions are typically assumed to be fully-factorized. This limits the applicability of neuro-symbolic learning to the more expressive autoregressive distributions, e.g., transformers. Under such distributions, computing the likelihood of even simple constraints is #P-hard. Instead of attempting to enforce the constraint on the entire output distribution, we propose to do so on a random, local approximation thereof. More precisely, we optimize the likelihood of the constraint under a pseudolikelihood-based approximation centered around a model sample. Our approximation is factorized, allowing the reuse of solutions to sub-problems, a main tenet for efficiently computing neuro-symbolic losses. Moreover, it is a local, high-fidelity approximation of the likelihood, exhibiting low entropy and KL-divergence around the model sample. We evaluate our approach on Sudoku and shortest-path prediction cast as autoregressive generation, and observe that we greatly improve upon the base model's ability to predict logically-consistent outputs. We also evaluate on the task of detoxifying large language models. Using a simple constraint disallowing a list of toxic words, we are able to steer the model's outputs away from toxic generations, achieving SoTA detoxification compared to previous approaches.
翻訳日:2023-12-08 16:37:03 公開日:2023-12-06
# Masked Pre-TrainingとCollaborative Self-Trainingによる教師なしビデオドメイン適応

Unsupervised Video Domain Adaptation with Masked Pre-Training and Collaborative Self-Training ( http://arxiv.org/abs/2312.02914v2 )

ライセンス: Link先を確認
Arun Reddy, William Paul, Corban Rivera, Ketul Shah, Celso M. de Melo, Rama Chellappa(参考訳) 本研究では,ビデオ行動認識における教師なし領域適応(UDA)の問題に取り組む。 我々のアプローチはUNITEと呼ばれ、画像教師モデルを用いてビデオ学生モデルを対象領域に適応させる。 UNITEは、教師が指導するマスク付き蒸留目標を用いて、まず自己指導型事前学習を用いて、ターゲットドメインビデオにおける差別的特徴学習を促進する。 次に,ビデオ学生モデルと画像教師モデルを用いて,マスキング対象データに対して自己学習を行い,ラベル付き対象ビデオに対する疑似ラベル生成を行う。 我々の自己学習プロセスは、ドメイン間の強い転送性能を達成するために、両方のモデルの強みをうまく活用する。 我々は,複数のビデオ領域適応ベンチマークに対するアプローチを評価し,これまでに報告した結果に対して有意な改善を観察する。

In this work, we tackle the problem of unsupervised domain adaptation (UDA) for video action recognition. Our approach, which we call UNITE, uses an image teacher model to adapt a video student model to the target domain. UNITE first employs self-supervised pre-training to promote discriminative feature learning on target domain videos using a teacher-guided masked distillation objective. We then perform self-training on masked target data, using the video student model and image teacher model together to generate improved pseudolabels for unlabeled target videos. Our self-training process successfully leverages the strengths of both models to achieve strong transfer performance across domains. We evaluate our approach on multiple video domain adaptation benchmarks and observe significant improvements upon previously reported results.
翻訳日:2023-12-08 11:34:50 公開日:2023-12-06
# X-Adapter: アップグレード拡散モデルのためのプラグインのユニバーサル互換性の追加

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model ( http://arxiv.org/abs/2312.02238v2 )

ライセンス: Link先を確認
Lingmin Ran, Xiaodong Cun, Jia-Wei Liu, Rui Zhao, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou(参考訳) プリトレーニング済みのプラグイン・アンド・プレイモジュール(ControlNetやLoRAなど)が、拡張されたテキスト・ツー・イメージ拡散モデル(SDXLなど)と直接連携することを可能にするユニバーサル・アップグレード器であるX-Adapterを導入する。 我々は、新しいテキストイメージデータペアで凍結されたアップグレードモデルを制御するために、追加のネットワークをトレーニングすることで、この目標を達成する。 詳細は、X-Adapterが古いモデルの凍結したコピーを保持して、異なるプラグインのコネクタを保存する。 さらに、X-Adapterは、異なるバージョンのモデルからデコーダをブリッジするトレーニング可能なマッピングレイヤを追加し、機能の再マッピングを行う。 再マップされた機能は、アップグレードされたモデルのガイダンスとして使用される。 X-Adapterの誘導能力を高めるために、アップグレードされたモデルに対してnull-textトレーニング戦略を採用する。 トレーニング後,X-Adapterの初期適応とアップグレードモデルを調整するための2段階の認知戦略を導入する。 我々の戦略のおかげで、X-Adapterは様々なプラグインとの普遍的な互換性を示し、異なるバージョンのプラグインを一緒に動作させることで、拡散コミュニティの機能を拡張することができます。 提案手法の有効性を検証するため,広範な実験を行い,基礎拡散モデルにおけるx-adapterの適用性が向上する可能性が示唆された。

We introduce X-Adapter, a universal upgrader to enable the pretrained plug-and-play modules (e.g., ControlNet, LoRA) to work directly with the upgraded text-to-image diffusion model (e.g., SDXL) without further retraining. We achieve this goal by training an additional network to control the frozen upgraded model with the new text-image data pairs. In detail, X-Adapter keeps a frozen copy of the old model to preserve the connectors of different plugins. Additionally, X-Adapter adds trainable mapping layers that bridge the decoders from models of different versions for feature remapping. The remapped features will be used as guidance for the upgraded model. To enhance the guidance ability of X-Adapter, we employ a null-text training strategy for the upgraded model. After training, we also introduce a two-stage denoising strategy to align the initial latents of X-Adapter and the upgraded model. Thanks to our strategies, X-Adapter demonstrates universal compatibility with various plugins and also enables plugins of different versions to work together, thereby expanding the functionalities of diffusion community. To verify the effectiveness of the proposed method, we conduct extensive experiments and the results show that X-Adapter may facilitate wider application in the upgraded foundational diffusion model.
翻訳日:2023-12-08 11:33:36 公開日:2023-12-06
# AttriHuman-3D: 属性分解とインデックス化による編集可能な3次元アバター生成

AttriHuman-3D: Editable 3D Human Avatar Generation with Attribute Decomposition and Indexing ( http://arxiv.org/abs/2312.02209v2 )

ライセンス: Link先を確認
Fan Yang, Tianyi Chen, Xiaosheng He, Zhongang Cai, Lei Yang, Si Wu, Guosheng Lin(参考訳) ユーザインタラクション編集をサポートする編集可能な3D認識生成は、最近、急速な開発を目撃している。 しかし、既存の編集可能な3d ganは高精度なローカル編集を達成できなかったり、膨大な計算コストを被ったりする。 本稿では、上記の属性分解とインデックス化の問題に対処する編集可能な3次元人文生成モデルであるAttriHuman-3Dを提案する。 提案モデルの中核となる考え方は、6つの特徴面を持つ全体属性空間において、すべての属性(人体、髪、衣服など)を生成し、それらを分解し、異なる属性インデックスで操作することである。 生成した特徴平面から異なる属性の特徴を高精度に抽出するために,新しい属性索引法と直交射影正規化法を提案する。 また,超ラテントトレーニング戦略と属性特異的サンプリング戦略を導入し,判別者からのスタイル絡み合いや誤解を招く罰を回避する。 提案手法では, ユーザーが生成した3次元アバターの属性を対話的に編集し, 他者を固定する。 質的かつ定量的な実験により,本モデルが異なる属性間の強い絡み合いを与え,精細な画像編集を可能にし,高品質な3dアバターを生成できることが証明された。

Editable 3D-aware generation, which supports user-interacted editing, has witnessed rapid development recently. However, existing editable 3D GANs either fail to achieve high-accuracy local editing or suffer from huge computational costs. We propose AttriHuman-3D, an editable 3D human generation model, which address the aforementioned problems with attribute decomposition and indexing. The core idea of the proposed model is to generate all attributes (e.g. human body, hair, clothes and so on) in an overall attribute space with six feature planes, which are then decomposed and manipulated with different attribute indexes. To precisely extract features of different attributes from the generated feature planes, we propose a novel attribute indexing method as well as an orthogonal projection regularization to enhance the disentanglement. We also introduce a hyper-latent training strategy and an attribute-specific sampling strategy to avoid style entanglement and misleading punishment from the discriminator. Our method allows users to interactively edit selected attributes in the generated 3D human avatars while keeping others fixed. Both qualitative and quantitative experiments demonstrate that our model provides a strong disentanglement between different attributes, allows fine-grained image editing and generates high-quality 3D human avatars.
翻訳日:2023-12-08 11:33:11 公開日:2023-12-06
# バリデーションラベルはいくつ必要ですか? ラベル効率モデルランキングの設計領域の検討

How Many Validation Labels Do You Need? Exploring the Design Space of Label-Efficient Model Ranking ( http://arxiv.org/abs/2312.01619v2 )

ライセンス: Link先を確認
Zhengyu Hu, Jieyu Zhang, Yue Yu, Yuchen Zhuang, Hui Xiong(参考訳) 本稿では,モデル選択タスクのアノテーションコストを削減するフレームワークであるlemrを紹介する。 本手法は,疑似ラベル生成にアンサンブル手法を活用し,目標獲得に不確実性サンプリングを活用し,反復委員会再選のためのz-score機構を用いてモデルランクを洗練する。 本稿では,LEMRがラベル付け予算のごく一部を持つ完全ラベル付きデータセットに匹敵する結果が得られることを示す。 この結果から,LEMRは,弱監督と半教師付き学習設定においてラベル付けの努力を損なうだけでなく,大規模言語モデルの迅速な選択を効果的に導くことが示唆された。 23のタスクにまたがる広範な実験により,モデル選択の精度を損なうことなく,ラベリングコストを劇的に削減できることを明らかにした。

The paper introduces LEMR, a framework that reduces annotation costs for model selection tasks. Our approach leverages ensemble methods to generate pseudo-labels, employs uncertainty sampling for target acquisition, and utilizes a Z-score mechanism for iterative committee reelection to refine model ranks. We present a systematic study across various selection metrics, demonstrating that LEMR achieves comparable results to fully labeled datasets with a fraction of the labeling budget. Our findings indicate that LEMR not only economizes the labeling effort in weak supervision and semi-supervised learning settings but also effectively guides prompt selection for large language models. With extensive experiments across 23 tasks, we reveal that our framework can dramatically decrease the labeling cost without compromising the accuracy of model selection, thereby offering a cost-effective alternative to traditional practices.
翻訳日:2023-12-08 11:31:49 公開日:2023-12-06
# 医療aiモデルにおけるアルゴリズムバイアスの検出

Detecting algorithmic bias in medical AI-models ( http://arxiv.org/abs/2312.02959v2 )

ライセンス: Link先を確認
Jeffrey Smith, Andre Holder, Rishikesan Kamaleswaran, Yao Xie(参考訳) 機械学習と人工知能に基づく医療意思決定支援システムの普及に伴い、これらのシステムが公平かつ公平な方法で患者結果を提供するようにすることが重要である。 本稿では,医療AI意思決定支援システムにおけるアルゴリズムバイアスの領域を検出するための革新的な枠組みを提案する。 本手法は,医学・AIモデル,特に敗血症予測の文脈における潜在的なバイアスを,分類・回帰木(CART)アルゴリズムを用いて効率的に同定する。 本手法は,一連の合成データ実験を行い,制御された設定におけるバイアス領域を正確に推定する能力を示す。 この概念の有効性は、ジョージア州アトランタにあるグレイディ記念病院の電子医療記録を用いてさらに検証される。 これらのテストは、AIベースの医療決定における公平性と公平性を保証する重要な手段として機能する、臨床環境における我々の戦略の実践的実装を実証する。

With the growing prevalence of machine learning and artificial intelligence-based medical decision support systems, it is equally important to ensure that these systems provide patient outcomes in a fair and equitable fashion. This paper presents an innovative framework for detecting areas of algorithmic bias in medical-AI decision support systems. Our approach efficiently identifies potential biases in medical-AI models, specifically in the context of sepsis prediction, by employing the Classification and Regression Trees (CART) algorithm. We verify our methodology by conducting a series of synthetic data experiments, showcasing its ability to estimate areas of bias in controlled settings precisely. The effectiveness of the concept is further validated by experiments using electronic medical records from Grady Memorial Hospital in Atlanta, Georgia. These tests demonstrate the practical implementation of our strategy in a clinical environment, where it can function as a vital instrument for guaranteeing fairness and equity in AI-based medical decisions.
翻訳日:2023-12-08 11:19:18 公開日:2023-12-06
# Systematic Literature Review: Quantum Machine Learningとその応用

Systematic Literature Review: Quantum Machine Learning and its applications ( http://arxiv.org/abs/2201.04093v2 )

ライセンス: Link先を確認
David Peral Garc\'ia, Juan Cruz-Benito and Francisco Jos\'e Garc\'ia-Pe\~nalvo(参考訳) 量子コンピューティングは、量子力学を用いて計算を行う過程である。 このフィールドは、その後の計算や大規模情報処理に使用するために、特定のサブ原子粒子の量子的挙動を研究する。 これらの能力により、量子コンピュータは従来のコンピュータよりも計算時間とコストの面で有利になる。 今日では、計算の複雑さや計算にかかる時間によって古典的な計算で実行できない科学的課題があり、量子計算は可能な答えの1つである。 しかし、現在の量子デバイスはまだ必要な量子ビットを持っておらず、これらの目標を達成するのに十分なフォールトトレラントではない。 それでも、機械学習や化学など、現在の量子デバイスで量子計算が役立つ分野は他にもある。 この原稿は、2017年から2023年にかけて出版された論文の体系的な文献レビューを行い、量子機械学習で使用される異なるアルゴリズムとその応用を識別、分析、分類することを目的としている。 その結果,量子機械学習技術とアルゴリズムを用いた94の論文を同定した。 発見アルゴリズムの主な種類は、サポートベクターマシンやk-ネアレスト隣モデルのような古典的な機械学習アルゴリズムの量子実装と、量子ニューラルネットワークのような古典的なディープラーニングアルゴリズムである。 古典的機械学習によって現在回答されている問題を、量子デバイスとアルゴリズムを使って解こうとする記事が多い。 結果は有望だが、量子機械学習はその潜在能力を完全に達成するには程遠い。 既存の量子コンピュータには、量子コンピューティングがその潜在能力を達成するのに十分な品質、速度、スケールが欠けているため、量子ハードウェアの改善が必要である。

Quantum computing is the process of performing calculations using quantum mechanics. This field studies the quantum behavior of certain subatomic particles for subsequent use in performing calculations, as well as for large-scale information processing. These capabilities can give quantum computers an advantage in terms of computational time and cost over classical computers. Nowadays, there are scientific challenges that are impossible to perform by classical computation due to computational complexity or the time the calculation would take, and quantum computation is one of the possible answers. However, current quantum devices have not yet the necessary qubits and are not fault-tolerant enough to achieve these goals. Nonetheless, there are other fields like machine learning or chemistry where quantum computation could be useful with current quantum devices. This manuscript aims to present a Systematic Literature Review of the papers published between 2017 and 2023 to identify, analyze and classify the different algorithms used in quantum machine learning and their applications. Consequently, this study identified 94 articles that used quantum machine learning techniques and algorithms. The main types of found algorithms are quantum implementations of classical machine learning algorithms, such as support vector machines or the k-nearest neighbor model, and classical deep learning algorithms, like quantum neural networks. Many articles try to solve problems currently answered by classical machine learning but using quantum devices and algorithms. Even though results are promising, quantum machine learning is far from achieving its full potential. An improvement in the quantum hardware is required since the existing quantum computers lack enough quality, speed, and scale to allow quantum computing to achieve its full potential.
翻訳日:2023-12-07 19:59:27 公開日:2023-12-06
# 高次元行列値データに対する最適可変クラスタリング

Optimal Variable Clustering for High-Dimensional Matrix Valued Data ( http://arxiv.org/abs/2112.12909v3 )

ライセンス: Link先を確認
Inbeom Lee, Siyi Deng, Yang Ning(参考訳) 行列値データは多くのアプリケーションでますます普及している。 このタイプのデータに対する既存のクラスタリング手法のほとんどは、平均モデルに合わせたものであり、特に高次元の設定や平均情報が入手できない場合において非常に有益である特徴の依存構造を考慮していない。 クラスタリングのための依存構造から情報を抽出するために,列と列のクラスタを表す未知のメンバシップ行列を用いて,行列形式で配置された特徴に対する新しい潜在変数モデルを提案する。 このモデルでは、重み付き共分散行列の差分を相似性尺度として用いた階層的クラスタリングアルゴリズムのクラスをさらに提案する。 理論上,温和な条件下では,高次元環境でのクラスタリング一貫性を実現する。 この一貫性の結果は、重み付き共分散行列の幅広いクラスを持つアルゴリズムに対して成立するが、この結果の条件は重みの選択に依存する。 この重みがアルゴリズムの理論的性能にどのように影響するかを調べるため、あるクラスター分離計量の観点から、潜在変数モデルの下でのクラスタリングのミニマックス下限を確立する。 これらの結果から、この重み付けを用いることで、アルゴリズムが最小値の速度-最適であることが保証される。 また,最適重み付きアルゴリズムの実用的実装についても論じる。 シミュレーションにより,本アルゴリズムは既存の手法よりも,調整ランド指数 (ari) の点で優れた性能を示す。 この方法はゲノムデータセットに適用され、意味のある解釈をもたらす。

Matrix valued data has become increasingly prevalent in many applications. Most of the existing clustering methods for this type of data are tailored to the mean model and do not account for the dependence structure of the features, which can be very informative, especially in high-dimensional settings or when mean information is not available. To extract the information from the dependence structure for clustering, we propose a new latent variable model for the features arranged in matrix form, with some unknown membership matrices representing the clusters for the rows and columns. Under this model, we further propose a class of hierarchical clustering algorithms using the difference of a weighted covariance matrix as the dissimilarity measure. Theoretically, we show that under mild conditions, our algorithm attains clustering consistency in the high-dimensional setting. While this consistency result holds for our algorithm with a broad class of weighted covariance matrices, the conditions for this result depend on the choice of the weight. To investigate how the weight affects the theoretical performance of our algorithm, we establish the minimax lower bound for clustering under our latent variable model in terms of some cluster separation metric. Given these results, we identify the optimal weight in the sense that using this weight guarantees our algorithm to be minimax rate-optimal. The practical implementation of our algorithm with the optimal weight is also discussed. Simulation studies show that our algorithm performs better than existing methods in terms of the adjusted Rand index (ARI). The method is applied to a genomic dataset and yields meaningful interpretations.
翻訳日:2023-12-07 19:59:02 公開日:2023-12-06
# CafeOBJにおける証明スコアの進歩

Advances of Proof Scores in CafeOBJ ( http://arxiv.org/abs/2112.10373v3 )

ライセンス: Link先を確認
Kokichi Futatsugi(参考訳) 重要な欠陥は、ドメイン、要件、および/または設計仕様のレベルで存在し続け、仕様の検証(つまり、仕様が望ましい特性を持っているかどうかをチェックする)は、ソフトウェア/システムエンジニアリングにおいて依然として最も重要な課題の1つです。 CafeOBJは実行可能な代数的仕様言語システムであり、ドメイン/要求/設計エンジニアは仕様検証によって仕様の品質を向上させるための証明スコアを書くことができる。 本稿では,CafeOBJの仕様検証における証明の進歩について述べる。

Critical flaws continue to exist at the level of domain, requirement, and/or design specification, and specification verification (i.e., to check whether a specification has desirable properties) is still one of the most important challenges in software/system engineering. CafeOBJ is an executable algebraic specification language system and domain/requirement/design engineers can write proof scores for improving quality of specifications by the specification verification. This paper describes advances of the proof scores for the specification verification in CafeOBJ.
翻訳日:2023-12-07 19:58:35 公開日:2023-12-06
# 安全専門家によるロバストな出力制御障壁関数の学習

Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations ( http://arxiv.org/abs/2111.09971v2 )

ライセンス: Link先を確認
Lars Lindemann, Alexander Robey, Lejun Jiang, Satyajeet Das, Stephen Tu, and Nikolai Matni(参考訳) 本稿では,熟練者による部分的観察から安全な出力フィードバック制御則の学習について述べる。 システムダイナミクスのモデルと状態推定器が,実際のデータから推定されるような,対応するエラー境界と共に利用できると仮定する。 まず,安全な集合の制御前方不変性を通じて定義された安全を保証する手段として,ロバスト出力制御障壁関数(ROCBF)を提案する。 次に、人間のオペレータや専門家のコントローラから収集したデータなど、安全なシステム動作を示す専門家のデモンストレーションからROCBFを学習するための最適化問題を定式化する。 ROCBFのパラメトリゼーションが線形であれば、軽微な仮定では最適化問題は凸であることを示す。 最適化問題に加えて,データの密度,システムモデルと状態推定器の滑らかさ,得られたROCBFの妥当性を保証する誤差境界の大きさなどの観点から検証可能な条件を提供する。 実用的な制御アルゴリズムを得るため,本手法の前提を考慮に入れた理論的枠組みのアルゴリズム実装を提案する。 我々は,自律走行シミュレータCARLAのアルゴリズムを実証的に検証し,RGBカメラ画像から安全な制御法を学習する方法を実証する。

This paper addresses learning safe output feedback control laws from partial observations of expert demonstrations. We assume that a model of the system dynamics and a state estimator are available along with corresponding error bounds, e.g., estimated from data in practice. We first propose robust output control barrier functions (ROCBFs) as a means to guarantee safety, as defined through controlled forward invariance of a safe set. We then formulate an optimization problem to learn ROCBFs from expert demonstrations that exhibit safe system behavior, e.g., data collected from a human operator or an expert controller. When the parametrization of the ROCBF is linear, then we show that, under mild assumptions, the optimization problem is convex. Along with the optimization problem, we provide verifiable conditions in terms of the density of the data, smoothness of the system model and state estimator, and the size of the error bounds that guarantee validity of the obtained ROCBF. Towards obtaining a practical control algorithm, we propose an algorithmic implementation of our theoretical framework that accounts for assumptions made in our framework in practice. We empirically validate our algorithm in the autonomous driving simulator CARLA and demonstrate how to learn safe control laws from RGB camera images.
翻訳日:2023-12-07 19:58:26 公開日:2023-12-06
# 非平衡有向グラフ上での分散勾配法の実現可能性

Provably Accelerated Decentralized Gradient Method Over Unbalanced Directed Graphs ( http://arxiv.org/abs/2107.12065v2 )

ライセンス: Link先を確認
Zhuoqing Song, Lei Shi, Shi Pu, Ming Yan(参考訳) 我々は,n$エージェントのネットワークが,有向グラフにおけるピアツーピア通信を通じて,個々の滑らかかつ凸目的関数の平均を協調的に最小化することを目的とした分散最適化問題を考える。 そこで本研究では,非強凸関数と強凸対象関数に対して,APDとAPD-SCの2つの高速化勾配追跡手法を提案する。 APD と APD-SC はそれぞれ$O\left(\frac{1}{k^2}\right)$ と $O\left(\left(1C\sqrt {\frac{\mu}{L}}\right)^k\right)$ で収束し、混合行列のみに依存する定数因子に収束することを示した。 APDとAPD-SCは、中央集権法と同じ証明可能な加速度を達成する非平衡有向グラフ上の最初の分散手法である。 数値実験は両手法の有効性を実証する。

We consider the decentralized optimization problem, where a network of $n$ agents aims to collaboratively minimize the average of their individual smooth and convex objective functions through peer-to-peer communication in a directed graph. To tackle this problem, we propose two accelerated gradient tracking methods, namely APD and APD-SC, for non-strongly convex and strongly convex objective functions, respectively. We show that APD and APD-SC converge at the rates $O\left(\frac{1}{k^2}\right)$ and $O\left(\left(1 - C\sqrt{\frac{\mu}{L}}\right)^k\right)$, respectively, up to constant factors depending only on the mixing matrix. APD and APD-SC are the first decentralized methods over unbalanced directed graphs that achieve the same provable acceleration as centralized methods. Numerical experiments demonstrate the effectiveness of both methods.
翻訳日:2023-12-07 19:58:05 公開日:2023-12-06
# 実験としてのアルゴリズム:機械学習、市場設計、政策適性ルール

Algorithm as Experiment: Machine Learning, Market Design, and Policy Eligibility Rules ( http://arxiv.org/abs/2104.12909v6 )

ライセンス: Link先を確認
Yusuke Narita and Kohei Yata(参考訳) アルゴリズムは、ポリシーやビジネス上の決定を増大させます。 アルゴリズム決定を確率的・決定論的アルゴリズムのクラスに応用した治療効果推定器を開発した。 我々の推定値は、よく定義された因果効果に対して一貫性があり漸近的に正常である。 セットアップの特別な例は、複雑な境界を持つ多次元回帰不連続性設計である。 我々は、新型コロナウイルスの援助・救済・経済保障法(covid-19 aid, relief, and economic security act)の評価に、当社の見積りを応用し、アルゴリズム的なルールで病院に数十億ドル相当の救済資金を割り当てた。 資金は新型コロナウイルス関連の病院活動にはほとんど影響がない。 ナイーブ推定は選択バイアスを示す。

Algorithms make a growing portion of policy and business decisions. We develop a treatment-effect estimator using algorithmic decisions as instruments for a class of stochastic and deterministic algorithms. Our estimator is consistent and asymptotically normal for well-defined causal effects. A special case of our setup is multidimensional regression discontinuity designs with complex boundaries. We apply our estimator to evaluate the Coronavirus Aid, Relief, and Economic Security Act, which allocated many billions of dollars worth of relief funding to hospitals via an algorithmic rule. The funding is shown to have little effect on COVID-19-related hospital activities. Naive estimates exhibit selection bias.
翻訳日:2023-12-07 19:57:45 公開日:2023-12-06
# 放射移動シミュレーションのための物理情報ニューラルネットワーク

Physics Informed Neural Networks for Simulating Radiative Transfer ( http://arxiv.org/abs/2009.13291v3 )

ライセンス: Link先を確認
Siddhartha Mishra and Roberto Molinaro(参考訳) 放射能伝達をシミュレーションする新しい機械学習アルゴリズムを提案する。 提案アルゴリズムは物理情報ニューラルネットワーク(PINN)に基づいて,基礎となる放射性トランスファー方程式の残差を最小化して学習する。 我々は、ピンが非常に容易に実装でき、高速で、ロバストで、正確な放射移動をシミュレートできることを示すために、広範な実験と理論誤差推定を提案する。 また, 放射伝達の逆問題を効率的にシミュレートするpinnアルゴリズムを提案する。

We propose a novel machine learning algorithm for simulating radiative transfer. Our algorithm is based on physics informed neural networks (PINNs), which are trained by minimizing the residual of the underlying radiative tranfer equations. We present extensive experiments and theoretical error estimates to demonstrate that PINNs provide a very easy to implement, fast, robust and accurate method for simulating radiative transfer. We also present a PINN based algorithm for simulating inverse problems for radiative transfer efficiently.
翻訳日:2023-12-07 19:57:35 公開日:2023-12-06
# PDEの逆問題クラス近似のための物理情報ニューラルネットワーク(PINN)の一般化誤差の推定

Estimates on the generalization error of Physics Informed Neural Networks (PINNs) for approximating a class of inverse problems for PDEs ( http://arxiv.org/abs/2007.01138v3 )

ライセンス: Link先を確認
Siddhartha Mishra and Roberto Molinaro(参考訳) 物理情報ニューラルネットワーク(PINN)は、最近、PDEの逆問題を効率的に近似するために非常に成功した。 我々は,特定の逆問題,いわゆるデータ同化あるいは一意継続問題に焦点を当て,ピンの一般化誤差に対する厳密な推定を証明した。 抽象的枠組みを提示し, 基礎となる逆問題に対する条件付き安定性推定を行い, ピン一般化誤差の推定を導出し, この文脈におけるピンの使用の厳密な正当化を提供する。 抽象的なフレームワークは、4つの原型線形PDEの例で説明される。 また,提案理論を検証した数値実験を行った。

Physics informed neural networks (PINNs) have recently been very successfully applied for efficiently approximating inverse problems for PDEs. We focus on a particular class of inverse problems, the so-called data assimilation or unique continuation problems, and prove rigorous estimates on the generalization error of PINNs approximating them. An abstract framework is presented and conditional stability estimates for the underlying inverse problem are employed to derive the estimate on the PINN generalization error, providing rigorous justification for the use of PINNs in this context. The abstract framework is illustrated with examples of four prototypical linear PDEs. Numerical experiments, validating the proposed theory, are also presented.
翻訳日:2023-12-07 19:57:26 公開日:2023-12-06
# PDE近似のための物理情報ニューラルネットワーク(PINN)の一般化誤差の推定

Estimates on the generalization error of Physics Informed Neural Networks (PINNs) for approximating PDEs ( http://arxiv.org/abs/2006.16144v3 )

ライセンス: Link先を確認
Siddhartha Mishra and Roberto Molinaro(参考訳) 物理情報ニューラルネットワーク(PINN)は近年,PDEの堅牢かつ正確な近似に広く利用されている。 PDEの前方問題の解を近似するPINNの一般化誤差に関する厳密な上限を提供する。 抽象形式論を導入し、基礎となるPDEの安定性特性を利用して、トレーニング誤差とトレーニングサンプル数の観点から一般化誤差の推定を導出する。 この抽象フレームワークは、非線形pdesのいくつかの例で示される。 また,提案理論を検証した数値実験を行った。

Physics informed neural networks (PINNs) have recently been widely used for robust and accurate approximation of PDEs. We provide rigorous upper bounds on the generalization error of PINNs approximating solutions of the forward problem for PDEs. An abstract formalism is introduced and stability properties of the underlying PDE are leveraged to derive an estimate for the generalization error in terms of the training error and number of training samples. This abstract framework is illustrated with several examples of nonlinear PDEs. Numerical experiments, validating the proposed theory, are also presented.
翻訳日:2023-12-07 19:57:13 公開日:2023-12-06
# 分散ノルムとパスシグネチャを用いた多変量ストリームの無次元異常検出

Dimensionless Anomaly Detection on Multivariate Streams with Variance Norm and Path Signature ( http://arxiv.org/abs/2006.03487v2 )

ライセンス: Link先を確認
Zhen Shao and Ryan Sze-Yin Chan and Thomas Cochrane and Peter Foster and Terry Lyons(参考訳) 本稿では,多変量ストリームに対する無次元異常検出法を提案する。 本手法は,異なる流路の測定単位とは独立であり,従って無次元である。 まず,無限次元特徴空間と特異経験共分散行列を厳密に扱うために,マハラノビス距離の一般化である分散ノルムを提案する。 次に,ストリームの全体的特徴を提供する無限個の反復積分の集合であるパスシグネチャと分散ノルムを結合し,(多変量)ストリーム上の異常検出法であるsigmahaknnを提案する。 我々はSigMahaKNNがストリーム再パラメータ化やストリーム結合に不変であることを示し、経路シグネチャの切り離しレベルに応じてグレードされた識別能力を有することを示す。 sigmahaknn をオープンソースソフトウェアとして実装し,ストリームの異常検出性能を,言語解析,手書き解析,船舶移動経路解析,不定時系列解析などのアプリケーションにおいて,孤立林や局所的異常要因と比較して有意に改善した数値実験を行った。

In this paper, we propose a dimensionless anomaly detection method for multivariate streams. Our method is independent of the unit of measurement for the different stream channels, therefore dimensionless. We first propose the variance norm, a generalisation of Mahalanobis distance to handle infinite-dimensional feature space and singular empirical covariance matrix rigorously. We then combine the variance norm with the path signature, an infinite collection of iterated integrals that provide global features of streams, to propose SigMahaKNN, a method for anomaly detection on (multivariate) streams. We show that SigMahaKNN is invariant to stream reparametrisation, stream concatenation and has a graded discrimination power depending on the truncation level of the path signature. We implement SigMahaKNN as an open-source software, and perform extensive numerical experiments, showing significantly improved anomaly detection on streams compared to isolation forest and local outlier factors in applications ranging from language analysis, hand-writing analysis, ship movement paths analysis and univariate time-series analysis.
翻訳日:2023-12-07 19:57:06 公開日:2023-12-06
# dadao: 分散分散非同期最適化を分離する

DADAO: Decoupled Accelerated Decentralized Asynchronous Optimization ( http://arxiv.org/abs/2208.00779v3 )

ライセンス: Link先を確認
Adel Nabli (MLIA, ISIR, MILA), Edouard Oyallon (MLIA, ISIR)(参考訳) この研究はdadaoを紹介している: 与えられたサイズのネットワーク上に分散された$l$-smoothと$\mu$-strongly convex関数の和を最小化する最初の分散化、高速化、非同期、プリミティブ、一階アルゴリズム。 我々の重要な洞察は、独立したポアソンポイントプロセスで局所的な勾配更新とゴシップ通信手順をモデル化することに基づいている。 これにより、並列で実行できる計算と通信のステップを分離し、アプローチ全体を完全に非同期にすることが可能になる。 これにより、同期アプローチと比較して通信の加速につながる。 提案手法は一次勾配を用いており,マルチコンセンサス内ループや,エラーフィードバック,勾配追従,プロキシ演算子などのアドホック機構は使用していない。 By relating the inverse of the smallest positive eigenvalue of the Laplacian matrix $\chi_1$ and the maximal resistance $\chi_2\leq \chi_1$ of the graph to a sufficient minimal communication rate between the nodes of the network, we show that our algorithm requires $\mathcal{O}(n\sqrt{\frac{L}{\mu}}\log(\frac{1}{\epsilon}))$ local gradients and only $\mathcal{O}(n\sqrt{\chi_1\chi_2}\sqrt{\frac{L}{\mu}}\log(\frac{1}{\epsilon}))$ communications to reach a precision $\epsilon$, up to logarithmic terms. そこで我々は,計算と通信の双方の高速化率を同時に獲得し,最先端の作業よりも向上し,比較的制約のない手法の強度を更に検証する。

This work introduces DADAO: the first decentralized, accelerated, asynchronous, primal, first-order algorithm to minimize a sum of $L$-smooth and $\mu$-strongly convex functions distributed over a given network of size $n$. Our key insight is based on modeling the local gradient updates and gossip communication procedures with separate independent Poisson Point Processes. This allows us to decouple the computation and communication steps, which can be run in parallel, while making the whole approach completely asynchronous. This leads to communication acceleration compared to synchronous approaches. Our new method employs primal gradients and does not use a multi-consensus inner loop nor other ad-hoc mechanisms such as Error Feedback, Gradient Tracking, or a Proximal operator. By relating the inverse of the smallest positive eigenvalue of the Laplacian matrix $\chi_1$ and the maximal resistance $\chi_2\leq \chi_1$ of the graph to a sufficient minimal communication rate between the nodes of the network, we show that our algorithm requires $\mathcal{O}(n\sqrt{\frac{L}{\mu}}\log(\frac{1}{\epsilon}))$ local gradients and only $\mathcal{O}(n\sqrt{\chi_1\chi_2}\sqrt{\frac{L}{\mu}}\log(\frac{1}{\epsilon}))$ communications to reach a precision $\epsilon$, up to logarithmic terms. Thus, we simultaneously obtain an accelerated rate for both computations and communications, leading to an improvement over state-of-the-art works, our simulations further validating the strength of our relatively unconstrained method.
翻訳日:2023-12-07 19:51:31 公開日:2023-12-06
# フォン・ノイマンエントロピーとその他の準古典的応用に対する Alicki-Fannes-Winter 法による近接-最適連続性

Close-to-optimal continuity bound for the von Neumann entropy and other quasi-classical applications of the Alicki-Fannes-Winter technique ( http://arxiv.org/abs/2207.08791v4 )

ライセンス: Link先を確認
M.E.Shirokov(参考訳) Alicki-Fannes-Winter 法の準古典版を量子系とチャネルの特性の定量的連続性解析に広く用いている。 このバージョンでは、"quasi-classical"と呼ばれる特殊形式の部分集合に属する量子状態の異なるタイプの制約の下で連続性境界を得ることができる。 提案手法のいくつかの応用について述べる。 その中でも、一モード量子振動子がベッカー、ダッタ、ジャブルによって最近提示された特別な最適連続性に近いエネルギー型制約の下で、フォン・ノイマンエントロピーの普遍連続性を得る。 量子古典状態の量子条件エントロピーに対する半連続性境界と、ランク/エネルギー制約が1つの状態にのみ課される二部量子系における形成の絡み合いを求める。 古典確率変数のエントロピー特性とマルチモード量子振動子の古典状態に対する半連続性境界も得られる。

We consider a quasi-classical version of the Alicki-Fannes-Winter technique widely used for quantitative continuity analysis of characteristics of quantum systems and channels. This version allows us to obtain continuity bounds under constraints of different types for quantum states belonging to subsets of a special form that can be called "quasi-classical". Several applications of the proposed method are described. Among others, we obtain the universal continuity bound for the von Neumann entropy under the energy-type constraint which in the case of one-mode quantum oscillator is close to the specialized optimal continuity bound presented recently by Becker, Datta and Jabbour. We obtain semi-continuity bounds for the quantum conditional entropy of quantum-classical states and for the entanglement of formation in bipartite quantum systems with the rank/energy constraint imposed only on one state. Semi-continuity bounds for entropic characteristics of classical random variables and classical states of a multi-mode quantum oscillator are also obtained.
翻訳日:2023-12-07 19:50:58 公開日:2023-12-06
# メモリフリーオンライン変更点検出:新しいニューラルネットワークアプローチ

Memory-free Online Change-point Detection: A Novel Neural Network Approach ( http://arxiv.org/abs/2207.03932v2 )

ライセンス: Link先を確認
Zahra Atashgahi, Decebal Constantin Mocanu, Raymond Veldhuis, Mykola Pechenizkiy(参考訳) データ分布の急激な変化を検出する変化点検出(CPD)は、時系列解析において最も重要なタスクの1つとして認識される。 オフラインPDに関する広範な文献にもかかわらず、教師なしオンラインPDは、スケーラビリティ、ハイパーパラメータチューニング、学習制約など、大きな課題に悩まされている。 本稿では,これらの課題を緩和するために,適応型LSTM-Autoencoder Change-Point Detection (ALACPD) と呼ばれる多次元時系列からの教師なしオンラインCDDのための新しいディープラーニング手法を提案する。 ALACPDはLSTMオートエンコーダベースのニューラルネットワークを利用して、教師なしオンラインCDDを実行する。 事前に受信した入力を保持することなく、入ってくるサンプルに継続的に適応するので、メモリフリーである。 我々は,実世界の時系列CPDベンチマークを広範囲に評価する。 ALACPDは,平均して,時系列セグメンテーションの品質の観点からは最先端のCPDアルゴリズムの中で第1位であり,推定した変化点の精度において,最高のパフォーマーと同等であることを示す。 ALACPDの実装はGithub\footnote{\url{https://github.com/zahraatashgahi/ALACPD}}でオンラインで公開されている。

Change-point detection (CPD), which detects abrupt changes in the data distribution, is recognized as one of the most significant tasks in time series analysis. Despite the extensive literature on offline CPD, unsupervised online CPD still suffers from major challenges, including scalability, hyperparameter tuning, and learning constraints. To mitigate some of these challenges, in this paper, we propose a novel deep learning approach for unsupervised online CPD from multi-dimensional time series, named Adaptive LSTM-Autoencoder Change-Point Detection (ALACPD). ALACPD exploits an LSTM-autoencoder-based neural network to perform unsupervised online CPD. It continuously adapts to the incoming samples without keeping the previously received input, thus being memory-free. We perform an extensive evaluation on several real-world time series CPD benchmarks. We show that ALACPD, on average, ranks first among state-of-the-art CPD algorithms in terms of quality of the time series segmentation, and it is on par with the best performer in terms of the accuracy of the estimated change-points. The implementation of ALACPD is available online on Github\footnote{\url{https://github.com/zahraatashgahi/ALACPD}}.
翻訳日:2023-12-07 19:50:42 公開日:2023-12-06
# ソーシャル・メディア・ネットワークによる視覚・テキスト知覚分析の概観

A Comprehensive Review of Visual-Textual Sentiment Analysis from Social Media Networks ( http://arxiv.org/abs/2207.02160v2 )

ライセンス: Link先を確認
Israa Khalaf Salman Al-Tameemi, Mohammad-Reza Feizi-Derakhshi, Saeed Pashazadeh, Mohammad Asadpour(参考訳) ソーシャルメディアネットワークは人々の生活の重要な側面となり、彼らの考え、意見、感情のプラットフォームとなっている。 その結果、自動感情分析(SA)は、他の情報ソースができない方法で人々の感情を認識するために重要である。 これらの感情の分析により、ブランド評価、youtubeの映画レビュー、ヘルスケアアプリケーションなど様々な応用が明らかになった。 ソーシャルメディアが発展していくにつれ、人々はテキスト、写真、オーディオ、ビデオなど、さまざまな形で大量の情報を投稿する。 したがって、従来のSAアルゴリズムは、他のモダリティの表現性を考慮しないため、制限されている。 様々な資料からこのような特徴を取り入れることで、これらのマルチモーダルデータストリームは、テキストベースSAを超える期待結果を最適化する新たな機会を提供する。 本研究は,ソーシャルメディア上に投稿された視覚およびテキストデータを調べるマルチモーダルsaの最前線に焦点をあてた。 多くの人は、これらのプラットフォーム上で自身を表現するために、この情報を利用する可能性が高い。 この急速に成長している分野における学者のリソースとして、データ前処理、特徴抽出技術、感情ベンチマークデータセット、各分野に適した複数の分類手法の有効性を含む、テキストとビジュアルsaの包括的な概要を紹介する。 また、最も頻繁に利用されるデータ融合戦略の概要と、既存のビジュアルテキストsaに関する研究の概要を提供する。 最後に、最も重要な課題を強調し、いくつかの重要な感情アプリケーションを調査します。

Social media networks have become a significant aspect of people's lives, serving as a platform for their ideas, opinions and emotions. Consequently, automated sentiment analysis (SA) is critical for recognising people's feelings in ways that other information sources cannot. The analysis of these feelings revealed various applications, including brand evaluations, YouTube film reviews and healthcare applications. As social media continues to develop, people post a massive amount of information in different forms, including text, photos, audio and video. Thus, traditional SA algorithms have become limited, as they do not consider the expressiveness of other modalities. By including such characteristics from various material sources, these multimodal data streams provide new opportunities for optimising the expected results beyond text-based SA. Our study focuses on the forefront field of multimodal SA, which examines visual and textual data posted on social media networks. Many people are more likely to utilise this information to express themselves on these platforms. To serve as a resource for academics in this rapidly growing field, we introduce a comprehensive overview of textual and visual SA, including data pre-processing, feature extraction techniques, sentiment benchmark datasets, and the efficacy of multiple classification methodologies suited to each field. We also provide a brief introduction of the most frequently utilised data fusion strategies and a summary of existing research on visual-textual SA. Finally, we highlight the most significant challenges and investigate several important sentiment applications.
翻訳日:2023-12-07 19:49:53 公開日:2023-12-06
# TraSE:認知科学の観点からの権威的スタイルへの取り組み

TraSE: Towards Tackling Authorial Style from a Cognitive Science Perspective ( http://arxiv.org/abs/2206.10706v2 )

ライセンス: Link先を確認
Ronald Wilson, Avanti Bhandarkar and Damon Woodard(参考訳) テキストのスティリスティック分析は、著者の属性から法医学的分析、パーソナリティ・プロファイリングまで、研究領域における重要な課題である。 既存のスタイル分析のアプローチは、トピックの影響、多数の著者の識別可能性の欠如、多種多様なデータに対する要求といった問題に苦しめられている。 本稿では,これらの課題の源泉を,著者のスタイルに対する認知的視点の必要性とともに同定する。 Trajectory-based Style Estimation (TraSE)と呼ばれる新しい特徴表現が、この目的をサポートするために導入された。 クロスドメインシナリオにおける27,000人以上の著者と1.4万のサンプルによる著者帰属実験の結果、90%の属性精度が、その特徴表現がそのようなネガティブな影響に免疫的であり、スタイリスティックな分析の優れた候補であることを示唆した。 最後に、年齢などの身体的特徴を用いてトラス上で定性解析を行い、認知的特徴の獲得に関する主張を検証する。

Stylistic analysis of text is a key task in research areas ranging from authorship attribution to forensic analysis and personality profiling. The existing approaches for stylistic analysis are plagued by issues like topic influence, lack of discriminability for large number of authors and the requirement for large amounts of diverse data. In this paper, the source of these issues are identified along with the necessity for a cognitive perspective on authorial style in addressing them. A novel feature representation, called Trajectory-based Style Estimation (TraSE), is introduced to support this purpose. Authorship attribution experiments with over 27,000 authors and 1.4 million samples in a cross-domain scenario resulted in 90% attribution accuracy suggesting that the feature representation is immune to such negative influences and an excellent candidate for stylistic analysis. Finally, a qualitative analysis is performed on TraSE using physical human characteristics, like age, to validate its claim on capturing cognitive traits.
翻訳日:2023-12-07 19:48:55 公開日:2023-12-06
# 世界中の(ハイパー)グラフ:データドラマ

All the World's a (Hyper)Graph: A Data Drama ( http://arxiv.org/abs/2206.08225v3 )

ライセンス: Link先を確認
Corinna Coupette, Jilles Vreeken, Bastian Rieck(参考訳) シェークスピアの戯曲から派生した多種多様な関係データ表現のデータセットであるhyperbardを紹介する。 私たちの表現は、単一シーンにおける文字共起をキャプチャする単純なグラフから、複雑な通信設定を符号化したハイパーグラフ、エッジ固有のノード重み付きハイパーエッジとしての文字コントリビューションまでさまざまです。 複数の直感的な表現を実験で容易に利用できるようにすることで、グラフ学習、グラフマイニング、ネットワーク分析における厳密な表現堅牢性チェックを容易にし、特定の表現の利点と欠点を強調する。 Hyperbardでリリースされたデータを利用して、人気のあるグラフマイニング問題に対する多くのソリューションが表現の選択に大きく依存していることを示し、現在のグラフキュレーションの実践を疑問視する。 データソースへのオマージュとして、科学もまた芸術であると主張するため、私たちはすべてのポイントを遊びの形で提示します。

We introduce Hyperbard, a dataset of diverse relational data representations derived from Shakespeare's plays. Our representations range from simple graphs capturing character co-occurrence in single scenes to hypergraphs encoding complex communication settings and character contributions as hyperedges with edge-specific node weights. By making multiple intuitive representations readily available for experimentation, we facilitate rigorous representation robustness checks in graph learning, graph mining, and network analysis, highlighting the advantages and drawbacks of specific representations. Leveraging the data released in Hyperbard, we demonstrate that many solutions to popular graph mining problems are highly dependent on the representation choice, thus calling current graph curation practices into question. As an homage to our data source, and asserting that science can also be art, we present all our points in the form of a play.
翻訳日:2023-12-07 19:48:04 公開日:2023-12-06
# デジタル病理学のためのマルチインスタンスラーニング:現状,限界,将来の可能性について

Multiple Instance Learning for Digital Pathology: A Review on the State-of-the-Art, Limitations & Future Potential ( http://arxiv.org/abs/2206.04425v2 )

ライセンス: Link先を確認
Michael Gadermayr, Maximilian Tschuchnig(参考訳) デジタルスライド画像には膨大な情報が含まれており、自動画像分析ツールの開発に強い動機を与えている。 特に深層ニューラルネットワークは、デジタル病理学の分野における様々なタスクに対して高いポテンシャルを示す。 しかし、この制限は、一般的なディープラーニングアルゴリズムが効果的なトレーニングを可能にするために、大量の画像データに加えて、(手動)アノテーションを必要とするという事実によって与えられる。 複数のインスタンス学習は、完全な注釈付きデータなしでシナリオでディープニューラルネットワークを学習するための強力なツールである。 これらの手法はこの領域において特に効果的であり、完全なスライド画像のラベルはしばしば日常的にキャプチャされるが、パッチ、領域、ピクセルのラベルはそうではないためである。 この可能性は既にかなりの数の出版物をもたらし、その大多数は過去3年間に出版された。 データの可用性と医学的な視点による高いモチベーションに加えて、強力なグラフィック処理ユニットの可用性はこの分野においてアクセラレーターを示している。 本稿では,多種多種多様なインスタンス学習手法の広範かつ効果的に活用されている概念の概要,最近の進歩,残る課題と今後の可能性について批判的に論じる。

Digital whole slides images contain an enormous amount of information providing a strong motivation for the development of automated image analysis tools. Particularly deep neural networks show high potential with respect to various tasks in the field of digital pathology. However, a limitation is given by the fact that typical deep learning algorithms require (manual) annotations in addition to the large amounts of image data, to enable effective training. Multiple instance learning exhibits a powerful tool for learning deep neural networks in a scenario without fully annotated data. These methods are particularly effective in this domain, due to the fact that labels for a complete whole slide image are often captured routinely, whereas labels for patches, regions or pixels are not. This potential already resulted in a considerable number of publications, with the majority published in the last three years. Besides the availability of data and a high motivation from the medical perspective, the availability of powerful graphics processing units exhibits an accelerator in this field. In this paper, we provide an overview of widely and effectively used concepts of used deep multiple instance learning approaches, recent advances and also critically discuss remaining challenges and future potential.
翻訳日:2023-12-07 19:47:15 公開日:2023-12-06
# クラウドソーシングにおける空間的未報告格差の定量化

Quantifying Spatial Under-reporting Disparities in Resident Crowdsourcing ( http://arxiv.org/abs/2204.08620v4 )

ライセンス: Link先を確認
Zhi Liu, Uma Bhandaram, Nikhil Garg(参考訳) 現代の都市統治は、倒木や電力線などの問題を特定するためにクラウドソーシングに大きく依存している。 主な懸念は、住民が同じレートで問題を報告しないことである。不均質な報告遅延は、インシデントがいかに迅速に対処できるかで下流の格差に直接翻訳される。 本稿では,外部の接地データを用いずに報告遅延を識別する手法を開発した。 我々の洞察では、同一の事故に関する重複報告の率を利用して、発生した報告率を調査して事故が発生したかどうかを曖昧にすることができる。 我々はこの手法をニューヨーク市の10万人以上の住民レポートとシカゴの90万人以上のレポートに適用し,事件発生の速さに空間的・社会経済的格差があることを見出した。 さらに,提案手法を外部データを用いて検証し,報告遅延の推定が,より公平で効率的な政府サービスに対する実用的な洞察と介入にどのようにつながるかを実証する。

Modern city governance relies heavily on crowdsourcing to identify problems such as downed trees and power lines. A major concern is that residents do not report problems at the same rates, with heterogeneous reporting delays directly translating to downstream disparities in how quickly incidents can be addressed. Here we develop a method to identify reporting delays without using external ground-truth data. Our insight is that the rates at which duplicate reports are made about the same incident can be leveraged to disambiguate whether an incident has occurred by investigating its reporting rate once it has occurred. We apply our method to over 100,000 resident reports made in New York City and to over 900,000 reports made in Chicago, finding that there are substantial spatial and socioeconomic disparities in how quickly incidents are reported. We further validate our methods using external data and demonstrate how estimating reporting delays leads to practical insights and interventions for a more equitable, efficient government service.
翻訳日:2023-12-07 19:46:57 公開日:2023-12-06
# セマンティクスセグメンテーションのためのサブスペースピラミッド融合ネットワークの技術報告

Technical Report on Subspace Pyramid Fusion Network for Semantic Segmentation ( http://arxiv.org/abs/2204.01278v2 )

ライセンス: Link先を確認
Mohammed A. M. Elhassan, Chenhui Yang, Chenxi Huang and Tewodros Legesse Munea(参考訳) 以下は,提案するサブスペースピラミッド融合モジュール(spfm)の有効性を検証し,マルチスケール特徴表現をキャプチャする技術報告である。 本研究では,マルチレベルグローバルなコンテキスト特徴を融合させてスキップ接続経路を再構築する効率的なシャッフル注意モジュール(ESAM)を提案する。 camvidとcityscapesを含む2つのよく知られたセマンティクスセグメンテーションデータセットの実験結果は,提案手法の有効性を示している。

The following is a technical report to test the validity of the proposed Subspace Pyramid Fusion Module (SPFM) to capture multi-scale feature representations, which is more useful for semantic segmentation. In this investigation, we have proposed the Efficient Shuffle Attention Module(ESAM) to reconstruct the skip-connections paths by fusing multi-level global context features. Experimental results on two well-known semantic segmentation datasets, including Camvid and Cityscapes, show the effectiveness of our proposed method.
翻訳日:2023-12-07 19:46:38 公開日:2023-12-06
# KappaFace: ディープラーニングのための適応的な付加的なAngular Margin損失

KappaFace: Adaptive Additive Angular Margin Loss for Deep Face Recognition ( http://arxiv.org/abs/2201.07394v2 )

ライセンス: Link先を確認
Chingis Oinar, Binh M. Le, Simon S. Woo(参考訳) 機能学習は大規模顔認識に広く用いられている手法である。 近年,大きなマージンソフトマックス損失法が深部顔認識において大幅に改善されている。 これらの手法はクラス内コンパクト性とクラス間多様性を強制するために固定正のマージンを提案する。 しかし,提案手法の大部分は,深層顔認識モデルを開発する上で大きな課題であるクラス不均衡問題を考慮していない。 深層面モデルの一般化能力に大きな影響を与えると仮定する。 この観察に触発されて,クラス難しさと不均衡に基づく相対的重要性を変調するkappafaceと呼ばれる新しい適応戦略を導入した。 von mises-fisher分布のサポートにより,提案するkappaface損失は,ハードラーニングクラスや低濃度クラスではマージンの大きさを増大させ,カウンタークラスでは緩和する。 一般的な顔のベンチマーク実験により,提案手法は最先端技術よりも優れた性能を示すことが示された。

Feature learning is a widely used method employed for large-scale face recognition. Recently, large-margin softmax loss methods have demonstrated significant enhancements on deep face recognition. These methods propose fixed positive margins in order to enforce intra-class compactness and inter-class diversity. However, the majority of the proposed methods do not consider the class imbalance issue, which is a major challenge in practice for developing deep face recognition models. We hypothesize that it significantly affects the generalization ability of the deep face models. Inspired by this observation, we introduce a novel adaptive strategy, called KappaFace, to modulate the relative importance based on class difficultness and imbalance. With the support of the von Mises-Fisher distribution, our proposed KappaFace loss can intensify the margin's magnitude for hard learning or low concentration classes while relaxing it for counter classes. Experiments conducted on popular facial benchmarks demonstrate that our proposed method achieves superior performance to the state-of-the-art.
翻訳日:2023-12-07 19:45:37 公開日:2023-12-06
# 教師なし3Dポイントクラウドコンプリートのためのシングルビュー画像の活用

Leveraging Single-View Images for Unsupervised 3D Point Cloud Completion ( http://arxiv.org/abs/2212.00564v3 )

ライセンス: Link先を確認
Lintai Wu, Qijian Zhang, Junhui Hou, and Yong Xu(参考訳) 走査デバイスによって捕獲される点雲はしばしば閉塞のため不完全である。 この制限を克服するために、その部分的な入力に基づいて物体の完全な形状を予測するために点雲補完法が開発された。 これらの手法は、教師なしまたは教師なしと広く分類できる。 しかし、どちらのカテゴリも大量の3d完全点雲を必要とするため、キャプチャは困難である。 本稿では,3次元完全点雲を必要としない非教師付き点雲補完手法であるCross-PCCを提案する。 3d completeやclean point cloudよりもキャプチャが容易な完全オブジェクトの2dイメージのみを利用する。 具体的には,2d画像からの補足情報を活用するために,単視点rgb画像を用いて2d特徴を抽出し,部分点クラウドから抽出した2d特徴と3d特徴を融合する融合モジュールを設計する。 予測された点雲の形状を導くために、予測された物体の点を2次元平面に投影し、シルエットマップの前景画素を用いて投影された点の位置を制約する。 予測された点雲の外れ値を減らすために,背景に投影された点を単一視点シルエット画像によりフォアグラウンドで移動させるビューキャリブレータを提案する。 私たちの知る限りでは、私たちのアプローチは3Dの監督を必要としない最初のポイントクラウド補完手法です。 本手法の実験結果は,最先端の非教師なし手法よりも大きなマージンで優れている。 さらに,本手法は教師付き手法と同等の性能を実現する。 ソースコードはhttps://github.com/ltwu6/cross-pcc.comで公開します。

Point clouds captured by scanning devices are often incomplete due to occlusion. To overcome this limitation, point cloud completion methods have been developed to predict the complete shape of an object based on its partial input. These methods can be broadly classified as supervised or unsupervised. However, both categories require a large number of 3D complete point clouds, which may be difficult to capture. In this paper, we propose Cross-PCC, an unsupervised point cloud completion method without requiring any 3D complete point clouds. We only utilize 2D images of the complete objects, which are easier to capture than 3D complete and clean point clouds. Specifically, to take advantage of the complementary information from 2D images, we use a single-view RGB image to extract 2D features and design a fusion module to fuse the 2D and 3D features extracted from the partial point cloud. To guide the shape of predicted point clouds, we project the predicted points of the object to the 2D plane and use the foreground pixels of its silhouette maps to constrain the position of the projected points. To reduce the outliers of the predicted point clouds, we propose a view calibrator to move the points projected to the background into the foreground by the single-view silhouette image. To the best of our knowledge, our approach is the first point cloud completion method that does not require any 3D supervision. The experimental results of our method are superior to those of the state-of-the-art unsupervised methods by a large margin. Moreover, our method even achieves comparable performance to some supervised methods. We will make the source code publicly available at https://github.com/ltwu6/cross-pcc.
翻訳日:2023-12-07 19:39:43 公開日:2023-12-06
# 古典量子コムのミンエントロピー測定への応用

The Min-Entropy of Classical-Quantum Combs for Measurement-Based Applications ( http://arxiv.org/abs/2212.00553v3 )

ライセンス: Link先を確認
Isaac D. Smith, Marius Krumm, Lukas J. Fiderer, Hendrik Poulsen Nautrup and Hans J. Briegel(参考訳) 量子システムの隠れた性質を学ぶには、通常一連の相互作用が必要である。 本研究では,古典量子コムと呼ばれる古典量子状態の一般化を用いて,このような多ラウンド学習プロセスを定式化する。 ここでは、「古典」とは学習すべき隠れた性質を符号化するランダム変数を指し、「量子」はシステムの振る舞いを記述する量子コムを指す。 隠れた性質を学習するための最適戦略は、コームミンエントロピー(chiribella and ebler, njp, 2016)を古典量子コムに適用することで定量化することができる。 このアプローチのパワーを実証するために,測定ベース量子計算(MBQC)と関連する応用から導かれる一連の問題に着目した。 具体的には、コーム形式を用いた既知のブラインド量子計算(bqc)プロトコルを記述し、ミンエントロピーを利用してプロトコルの複数ラウンドに対するシングルショットセキュリティの証明を提供し、既存の結果を文献に拡張する。 さらに,一部未知のmbqc装置の検証に関する運用上の動機づけのある事例について考察する。 これらの例では、測定キャリブレーションのための内部参照フレームの学習を含む、正しい使用に必要なデバイスの特徴を学習する。 また、この文脈で発生するMBQCと量子因果モデルとの新たな接続も導入する。

Learning a hidden property of a quantum system typically requires a series of interactions. In this work, we formalise such multi-round learning processes using a generalisation of classical-quantum states, called classical-quantum combs. Here, "classical" refers to a random variable encoding the hidden property to be learnt, and "quantum" refers to the quantum comb describing the behaviour of the system. The optimal strategy for learning the hidden property can be quantified by applying the comb min-entropy (Chiribella and Ebler, NJP, 2016) to classical-quantum combs. To demonstrate the power of this approach, we focus attention on an array of problems derived from measurement-based quantum computation (MBQC) and related applications. Specifically, we describe a known blind quantum computation (BQC) protocol using the combs formalism and thereby leverage the min-entropy to provide a proof of single-shot security for multiple rounds of the protocol, extending the existing result in the literature. Furthermore, we consider a range of operationally motivated examples related to the verification of a partially unknown MBQC device. These examples involve learning the features of the device necessary for its correct use, including learning its internal reference frame for measurement calibration. We also introduce a novel connection between MBQC and quantum causal models that arises in this context.
翻訳日:2023-12-07 19:39:18 公開日:2023-12-06
# PaintNet: ロボット溶射のための3次元点雲からの非構造化マルチパス学習

PaintNet: Unstructured Multi-Path Learning from 3D Point Clouds for Robotic Spray Painting ( http://arxiv.org/abs/2211.06930v3 )

ライセンス: Link先を確認
Gabriele Tiboni, Raffaello Camoriano, Tatiana Tommasi(参考訳) スプレー塗装や溶接などの一般的な産業用ロボット問題 (i)自由形3dオブジェクトのコンディショニング及び (ii)課題を解決するために複数の軌道を計画すること。 しかし、既存のソリューションは入力面の形式と出力パスの性質を強く仮定しており、実際のデータ変動に対処できないアプローチは限られている。 近年の3d深層学習の進歩を活かし、任意の3d表面に対応し、様々な非順序出力パス(すなわち、非構造化)を処理することのできる新しいフレームワークを提案する。 提案手法は,長い水平経路を再構築するために,後述する局所経路セグメントを推定する。 本研究は,実産業シナリオで収集した自由形3d物体に対する実演データであるpaintnetをリリースし,ロボットスプレー塗装の文脈で提案手法を広範囲に検証した。 徹底的な実験分析により, 塗料被覆を明示的に最適化することなく, 被写体表面の95%までの滑らかな出力経路を迅速に予測できることが実証された。

Popular industrial robotic problems such as spray painting and welding require (i) conditioning on free-shape 3D objects and (ii) planning of multiple trajectories to solve the task. Yet, existing solutions make strong assumptions on the form of input surfaces and the nature of output paths, resulting in limited approaches unable to cope with real-data variability. By leveraging on recent advances in 3D deep learning, we introduce a novel framework capable of dealing with arbitrary 3D surfaces, and handling a variable number of unordered output paths (i.e. unstructured). Our approach predicts local path segments, which can be later concatenated to reconstruct long-horizon paths. We extensively validate the proposed method in the context of robotic spray painting by releasing PaintNet, the first public dataset of expert demonstrations on free-shape 3D objects collected in a real industrial scenario. A thorough experimental analysis demonstrates the capabilities of our model to promptly predict smooth output paths that cover up to 95% of previously unseen object surfaces, even without explicitly optimizing for paint coverage.
翻訳日:2023-12-07 19:38:55 公開日:2023-12-06
# 古代ギリシアパピルの分類信頼性向上のためのアンサンブルモデリングへのクラウドソーシングアノテータ分布の導入

Incorporating Crowdsourced Annotator Distributions into Ensemble Modeling to Improve Classification Trustworthiness for Ancient Greek Papyri ( http://arxiv.org/abs/2210.16380v3 )

ライセンス: Link先を確認
Graham West, Matthew I. Swindall, Ben Keener, Timothy Player, Alex C. Williams, James H. Brusuelas, John F. Wallin(参考訳) ノイズの多いクラウドソースのイメージデータセットで分類を行うことは、最高のニューラルネットワークでも困難である。 このようなデータセットの問題を複雑にする2つの問題は、クラス不均衡とラベル付けの不確実性である。 AL-ALLとAL-PUBのデータセットは、古代ギリシアのパピルス像から密に収穫された個々の文字で構成されている。 このようなデータセットへのアンサンブルモデリングの適用は、接地が疑わしい画像を特定し、それらのサンプルの信頼性を定量化するのに役立ちます。 そこで,sparse cross-entropy (cxe) と kullback-liebler divergence (kld) を用いて,損失関数の異なるほぼ同一のresnet からなるスタック一般化を適用した。 どちらのネットワークも、クラウドソースによるコンセンサスからのラベルを使用している。 このコンセンサスは、データセット内のある文字に対するすべてのアノテーションに基づくアノテーションの正規化分布(nda)に由来する。 第2のネットワークでは、KLDはNDAに対して計算される。 我々のアンサンブルモデルでは、cxe と kld ネットワークの出力に k-nearest neighbors モデルを適用する。 個々のResNetモデルはおよそ93%の精度で、アンサンブルモデルは95%の精度で分類信頼性を高めている。 また,様々なモデルの出力分布のシャノンエントロピーの解析を行い,分類の不確かさを測定した。 その結果,エントロピーはモデル誤分類の予測に有用であることが示唆された。

Performing classification on noisy, crowdsourced image datasets can prove challenging even for the best neural networks. Two issues which complicate the problem on such datasets are class imbalance and ground-truth uncertainty in labeling. The AL-ALL and AL-PUB datasets - consisting of tightly cropped, individual characters from images of ancient Greek papyri - are strongly affected by both issues. The application of ensemble modeling to such datasets can help identify images where the ground-truth is questionable and quantify the trustworthiness of those samples. As such, we apply stacked generalization consisting of nearly identical ResNets with different loss functions: one utilizing sparse cross-entropy (CXE) and the other Kullback-Liebler Divergence (KLD). Both networks use labels drawn from a crowd-sourced consensus. This consensus is derived from a Normalized Distribution of Annotations (NDA) based on all annotations for a given character in the dataset. For the second network, the KLD is calculated with respect to the NDA. For our ensemble model, we apply a k-nearest neighbors model to the outputs of the CXE and KLD networks. Individually, the ResNet models have approximately 93% accuracy, while the ensemble model achieves an accuracy of > 95%, increasing the classification trustworthiness. We also perform an analysis of the Shannon entropy of the various models' output distributions to measure classification uncertainty. Our results suggest that entropy is useful for predicting model misclassifications.
翻訳日:2023-12-07 19:38:36 公開日:2023-12-06
# 機械理解のための単純な確率的ニューラルネットワーク

A simple probabilistic neural network for machine understanding ( http://arxiv.org/abs/2210.13179v5 )

ライセンス: Link先を確認
Rongrong Xie and Matteo Marsili(参考訳) 機械理解のためのモデルとして,確率的ニューラルネットワークと固定内部表現を議論する。 ここでの理解は、特徴空間の組織をエンコードする既存の表現にデータをマッピングすることを目的としています。 最大限の関連性の原則を満たし、どのように異なる特徴が組み合わされるかに関する最大限の無知を満たすことで、内部表現を導出する。 隠れた単位がバイナリ変数である場合、これら2つの原則は、完全可解であり、特徴の観点で自然な解釈を提供する階層的特徴モデル(hfm)というユニークなモデルを特定する。 このアーキテクチャを持つ学習機械は、パラメータやデータの変化に対する表現の連続性、圧縮レベルを制御する可能性、一般化を超えて機能をサポートする能力など、多くの興味深い特性を享受していると我々は主張する。 本研究では, 内部表現が固定されたモデルが, 制限ボルツマンマシンのような従来のモデルと定性的に異なる学習モダリティを再現することを議論する。

We discuss probabilistic neural networks with a fixed internal representation as models for machine understanding. Here understanding is intended as mapping data to an already existing representation which encodes an {\em a priori} organisation of the feature space. We derive the internal representation by requiring that it satisfies the principles of maximal relevance and of maximal ignorance about how different features are combined. We show that, when hidden units are binary variables, these two principles identify a unique model -- the Hierarchical Feature Model (HFM) -- which is fully solvable and provides a natural interpretation in terms of features. We argue that learning machines with this architecture enjoy a number of interesting properties, like the continuity of the representation with respect to changes in parameters and data, the possibility to control the level of compression and the ability to support functions that go beyond generalisation. We explore the behaviour of the model with extensive numerical experiments and argue that models where the internal representation is fixed reproduce a learning modality which is qualitatively different from that of traditional models such as Restricted Boltzmann Machines.
翻訳日:2023-12-07 19:38:13 公開日:2023-12-06
# 量子イベント学習とゆるやかなランダム測定

Quantum Event Learning and Gentle Random Measurements ( http://arxiv.org/abs/2210.09155v3 )

ライセンス: Link先を確認
Adam Bene Watts and John Bostanci(参考訳) ランダムに順序づけられた二元射影計測の列によって量子系が引き起こされる期待外乱を、少なくとも1つの観測が受け入れる確率の平方根によって上界に証明する。 我々はこれをGentle Random Measurement Lemmaと呼んでいる。 次に、未知の状態である$\rho$ へのサンプルアクセスを与えられた問題を検討し、一連の測定値 $\{m_1, m_2, \ldots , m_m\}$ の受理確率 $\text{tr}[m_i \rho]$ の特性を推定するように要求する。 このような問題を量子イベント学習問題と呼ぶ。 ランダムなランダムな計測補題を用いて、ランダムに順序付けされた射影測定が量子OR問題を解くことを示す。 また、非射影的測定では動作するが、より複雑な種類の測定が必要となる量子あるいはプロトコルを与え、これを混合計測と呼ぶ。 M_1, \ldots, M_m\}$ の集合にさらなる保証が与えられると、本論文で開発されたQuantum OR プロトコルは、$\text{Tr}[M_i \rho]$ が大きければ$M_i$ の測度を求めることもできる。 また、未知の状態における測定セットの平均受入確率を推定するための混合測定ベースのプロトコルも提供する。 最後に, o'donnell と b\u{a}descu によって記述されたしきい値探索問題を考える。 量子事象発見の結果に基づいて、ランダムに順序づけられた(あるいはブレンドされた)測定結果を使って、$o(\log^2(m) / \epsilon^2)$の$rho$を使ってこの問題を解くことができることを示した。 その結果、現在知られている最もよく知られたサンプル複雑性に合致して、$\tilde{o}(\log^2(m)\log(d)/\epsilon^4)$のサンプルを必要とするシャドウトモグラフィのアルゴリズムが得られる。 このアルゴリズムは量子測定において注入ノイズを必要としないが、ランダムな順序で測定する必要があるため、もはやオンラインではない。

We prove the expected disturbance caused to a quantum system by a sequence of randomly ordered two-outcome projective measurements is upper bounded by the square root of the probability that at least one measurement in the sequence accepts. We call this bound the Gentle Random Measurement Lemma. We then consider problems in which we are given sample access to an unknown state $\rho$ and asked to estimate properties of the accepting probabilities $\text{Tr}[M_i \rho]$ of a set of measurements $\{M_1, M_2, \ldots , M_m\}$. We call these types of problems Quantum Event Learning Problems. Using the gentle random measurement lemma, we show randomly ordering projective measurements solves the Quantum OR problem, answering an open question of Aaronson. We also give a Quantum OR protocol which works on non-projective measurements but which requires a more complicated type of measurement, which we call a Blended Measurement. Given additional guarantees on the set of measurements $\{M_1, \ldots, M_m\}$, we show the Quantum OR protocols developed in this paper can also be used to find a measurement $M_i$ such that $\text{Tr}[M_i \rho]$ is large. We also give a blended measurement based protocol for estimating the average accepting probability of a set of measurements on an unknown state. Finally we consider the Threshold Search Problem described by O'Donnell and B\u{a}descu. By building on our Quantum Event Finding result we show that randomly ordered (or blended) measurements can be used to solve this problem using $O(\log^2(m) / \epsilon^2)$ copies of $\rho$. Consequently, we obtain an algorithm for Shadow Tomography which requires $\tilde{O}(\log^2(m)\log(d)/\epsilon^4)$ samples, matching the current best known sample complexity. This algorithm does not require injected noise in the quantum measurements, but does require measurements to be made in a random order and so is no longer online.
翻訳日:2023-12-07 19:37:54 公開日:2023-12-06
# 3次元脳と心臓容積生成モデル:調査

3D Brain and Heart Volume Generative Models: A Survey ( http://arxiv.org/abs/2210.05952v2 )

ライセンス: Link先を確認
Yanbin Liu, Girish Dwivedi, Farid Boussaid and Mohammed Bennamoun(参考訳) 生成型adversarial networkやオートエンコーダといった生成モデルは、その優れたデータ生成能力のために医療分野で大きな注目を集めている。 本稿では,脳と心臓に焦点を当てた3次元(3次元)ボリューム生成モデルの包括的調査を行う。 非条件・条件生成モデルの新しい精巧な分類法が提案され、無条件合成、分類、条件合成、セグメンテーション、妄想、発見、登録など、脳と心臓の様々な医療タスクをカバーする。 関連するバックグラウンドを提供し、各タスクを調べ、将来的な方向性を提案する。 最新出版物の一覧はGithubで更新され、https://github.com/csyanbin/3D-Medical-Generative-Survey.comの論文の急速な流入に対応する。

Generative models such as generative adversarial networks and autoencoders have gained a great deal of attention in the medical field due to their excellent data generation capability. This paper provides a comprehensive survey of generative models for three-dimensional (3D) volumes, focusing on the brain and heart. A new and elaborate taxonomy of unconditional and conditional generative models is proposed to cover diverse medical tasks for the brain and heart: unconditional synthesis, classification, conditional synthesis, segmentation, denoising, detection, and registration. We provide relevant background, examine each task and also suggest potential future directions. A list of the latest publications will be updated on Github to keep up with the rapid influx of papers at https://github.com/csyanbin/3D-Medical-Generative-Survey.
翻訳日:2023-12-07 19:37:15 公開日:2023-12-06
# カーネルの相違によるターゲット分離と収束

Targeted Separation and Convergence with Kernel Discrepancies ( http://arxiv.org/abs/2209.12835v3 )

ライセンス: Link先を確認
Alessandro Barp, Carl-Johann Simon-Gabriel, Mark Girolami, Lester Mackey(参考訳) kernel stein discrepancy (ksd) のような最大平均偏差 (mmd) は、仮説検定、標本選択、分布近似、変分推論など、幅広い応用の中心に成長してきた。 各設定では、これらのカーネルベースの不一致対策が必要である。 (i)目標pを他の確率測度や偶数と分離する 第二に、Pに対する弱収束を制御し、本項では、確実な新しい十分かつ必要な条件を導出する。 (i)および (ii) 分離可能な距離空間上のMDDに対して、ボヒナー埋め込み可能な測度を分離するカーネルを特徴づけ、すべての測度を非有界カーネルと分離し、有界カーネルとの収束を制御するための単純な条件を導入する。 我々はこれらの結果を$\mathbb{r}^d$ を用いて, ksd分離および収束制御の既知の条件を大幅に拡大し, p への弱収束を正確に評価できる最初の ksd を開発する。

Maximum mean discrepancies (MMDs) like the kernel Stein discrepancy (KSD) have grown central to a wide range of applications, including hypothesis testing, sampler selection, distribution approximation, and variational inference. In each setting, these kernel-based discrepancy measures are required to (i) separate a target P from other probability measures or even (ii) control weak convergence to P. In this article we derive new sufficient and necessary conditions to ensure (i) and (ii). For MMDs on separable metric spaces, we characterize those kernels that separate Bochner embeddable measures and introduce simple conditions for separating all measures with unbounded kernels and for controlling convergence with bounded kernels. We use these results on $\mathbb{R}^d$ to substantially broaden the known conditions for KSD separation and convergence control and to develop the first KSDs known to exactly metrize weak convergence to P. Along the way, we highlight the implications of our results for hypothesis testing, measuring and improving sample quality, and sampling with Stein variational gradient descent.
翻訳日:2023-12-07 19:36:25 公開日:2023-12-06
# 記述意味論は理想的な言語モデルから抽出できる

Entailment Semantics Can Be Extracted from an Ideal Language Model ( http://arxiv.org/abs/2209.12407v2 )

ライセンス: Link先を確認
William Merrill and Alex Warstadt and Tal Linzen(参考訳) 言語モデルは、追加の根拠なしにテキストだけで訓練されることが多い。 このような手続きから自然言語の意味論がどの程度推測できるかについては議論がある。 我々は,言語学の言語理論からコミュニケーションの基本原理に従うエージェントであるGriceanエージェントが,訓練文を生成すると仮定して,目標分布を完全に学習した理想的な言語モデルから文間の係り受け判断を抽出できることを証明した。 また,これらのデータに基づいて学習した言語モデルの予測から,包含判断を復号化できることを示す。 その結果,未ラベルの言語データに符号化された意味情報を理解するための経路と,言語モデルから意味情報を抽出する潜在的枠組みが明らかになった。

Language models are often trained on text alone, without additional grounding. There is debate as to how much of natural language semantics can be inferred from such a procedure. We prove that entailment judgments between sentences can be extracted from an ideal language model that has perfectly learned its target distribution, assuming the training sentences are generated by Gricean agents, i.e., agents who follow fundamental principles of communication from the linguistic theory of pragmatics. We also show entailment judgments can be decoded from the predictions of a language model trained on such Gricean data. Our results reveal a pathway for understanding the semantic information encoded in unlabeled linguistic data and a potential framework for extracting semantics from language models.
翻訳日:2023-12-07 19:36:05 公開日:2023-12-06
# 可換代数を用いた量子多体スカーの排他的キャラクタリゼーション

Exhaustive Characterization of Quantum Many-Body Scars using Commutant Algebras ( http://arxiv.org/abs/2209.03377v2 )

ライセンス: Link先を確認
Sanjay Moudgalya, Olexei I. Motrunich(参考訳) 局所ハミルトニアンの族の対称性代数として定義される可換代数の言語において量子多体傷(qmbs)を研究する。 このフレームワークは、正確なQMBSを持つモデルで見られる動的に非連結な部分空間、すなわち大きな「熱的」部分空間と小さな「非熱的」部分空間の起源を説明する。 さらに、この言語はフォン・ノイマン二重可換定理(英語版)(DCT)を用いて、希望するQMBSの集合ですべてのハミルトニアンの排他的代数を形式的に書き下すことができ、これは局所摂動の大きなクラスでQMBSが生き残ることを示す。 スピン-1/2強磁性、AKLT、スピン-1 XY$\pi$-bimagnon、電子的$\eta$-pairing Towers of stateなど、いくつかの標準的なQMBSの例を用いてこれを説明し、これらのQMBSでハミルトン多様体の全代数に対する生成器の集合を明示的に記述する。 さらに、この言語は、文献で提案されたQMBSの統一的な定式化の同値性をはっきりと示しており、また、いわゆる白石堀建設によって捉えられた2つの明らかに異なるQMBSハミルトン人の類と、その向こうにあるものとの間の関係も示している。 最後に,本フレームワークが従来の固有状態熱化仮説(ETH)に違反していることを自動的に示唆するQMBSの正確な定義を動機付けていることを示す。

We study Quantum Many-Body Scars (QMBS) in the language of commutant algebras, which are defined as symmetry algebras of families of local Hamiltonians. This framework explains the origin of dynamically disconnected subspaces seen in models with exact QMBS, i.e., the large "thermal" subspace and the small "non-thermal" subspace, which are attributed to the existence of unconventional non-local conserved quantities in the commutant; hence this unifies the study of conventional symmetries and weak ergodicity breaking phenomena into a single framework. Furthermore, this language enables us to use the von Neumann Double Commutant Theorem (DCT) to formally write down the exhaustive algebra of all Hamiltonians with a desired set of QMBS, which demonstrates that QMBS survive under large classes of local perturbations. We illustrate this using several standard examples of QMBS, including the spin-1/2 ferromagnetic, AKLT, spin-1 XY $\pi$-bimagnon, and the electronic $\eta$-pairing towers of states; and in each of these cases we explicitly write down a set of generators for the full algebra of Hamiltonians with these QMBS.Understanding this hidden structure in QMBS Hamiltonians also allows us to recover results of previous "brute-force" numerical searches for such Hamiltonians. In addition, this language clearly demonstrates the equivalence of several unified formalisms for QMBS proposed in the literature, and also illustrates the connection between two apparently distinct classes of QMBS Hamiltonians -- those that are captured by the so-called Shiraishi-Mori construction, and those that lie beyond. Finally, we show that this framework motivates a precise definition for QMBS that automatically implies that they violate the conventional Eigenstate Thermalization Hypothesis (ETH), and we discuss its implications to dynamics.
翻訳日:2023-12-07 19:35:53 公開日:2023-12-06
# 移動中のカメラビデオからポイントクラウドを評価する - 非参照メトリック

Evaluating Point Cloud from Moving Camera Videos: A No-Reference Metric ( http://arxiv.org/abs/2208.14085v3 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Sun, Yucheng Zhu, Xiongkuo Min, Wei Wu, Ying Chen, and Guangtao Zhai(参考訳) ポイントクラウドは3次元(3D)コンテンツのための最も広く使われているデジタル表現フォーマットの1つであり、その視覚的品質は、製造工程中にノイズや幾何変化の歪みに悩まされ、伝送過程中に圧縮やダウンサンプリングの歪みに悩まされる。 点雲品質評価(PCQA)の課題に対処するために、点雲の視覚的品質レベルを静的な2次元投影により評価する多くのPCQA手法が提案されている。 このようなプロジェクションベースのPCQA手法は、成熟画像品質評価(IQA)手法の助けを借りて競争性能を達成するが、3Dモデルもダイナミックな視点で認識され、レンダリング装置のフィードバックに応じて視点が継続的に変化することを無視する。 そこで本稿では,動画品質評価(VQA)手法を用いて移動カメラ映像から点雲を評価するとともに,PCQAタスクの処理方法について検討する。 まず、カメラを点雲のまわりに回転させて撮影した映像を複数の円形経路で生成する。 次に,訓練可能な2D-CNNモデルと事前学習された3D-CNNモデルを用いて,選択したキーフレームとビデオクリップから空間的品質認識特徴を抽出する。 最後に、ポイントクラウドの視覚的品質は、ビデオの品質値で表される。 実験の結果,提案手法は点雲の視覚的品質レベルを予測するのに有効であり,全参照PCQA法と競合することがわかった。 アブレーション研究は,提案フレームワークの合理性をさらに検証し,ダイナミックな視聴方法で抽出した品質認識特徴による貢献を確認する。 コードはhttps://github.com/zzc-1998/vqa_pcで入手できる。

Point cloud is one of the most widely used digital representation formats for three-dimensional (3D) contents, the visual quality of which may suffer from noise and geometric shift distortions during the production procedure as well as compression and downsampling distortions during the transmission process. To tackle the challenge of point cloud quality assessment (PCQA), many PCQA methods have been proposed to evaluate the visual quality levels of point clouds by assessing the rendered static 2D projections. Although such projection-based PCQA methods achieve competitive performance with the assistance of mature image quality assessment (IQA) methods, they neglect that the 3D model is also perceived in a dynamic viewing manner, where the viewpoint is continually changed according to the feedback of the rendering device. Therefore, in this paper, we evaluate the point clouds from moving camera videos and explore the way of dealing with PCQA tasks via using video quality assessment (VQA) methods. First, we generate the captured videos by rotating the camera around the point clouds through several circular pathways. Then we extract both spatial and temporal quality-aware features from the selected key frames and the video clips through using trainable 2D-CNN and pre-trained 3D-CNN models respectively. Finally, the visual quality of point clouds is represented by the video quality values. The experimental results reveal that the proposed method is effective for predicting the visual quality levels of the point clouds and even competitive with full-reference (FR) PCQA methods. The ablation studies further verify the rationality of the proposed framework and confirm the contributions made by the quality-aware features extracted via the dynamic viewing manner. The code is available at https://github.com/zzc-1998/VQA_PC.
翻訳日:2023-12-07 19:34:46 公開日:2023-12-06
# 非対称粒子-反粒子ディラック方程式:第二量子化

Asymmetric particle-antiparticle Dirac equation: second quantization ( http://arxiv.org/abs/2208.12239v2 )

ライセンス: Link先を確認
Gustavo Rigolin(参考訳) 非対称ディラック場に関連する完全相対論的場の量子論を構築する。 これらの場は非対称ディラック方程式の解であり、正および"負"の周波数平面波解の分散関係が縮退しないローレンツ共変ディラック様方程式である。 第2の量子化レベルでは、これは同じ波数を共有する粒子と反粒子が異なるエネルギーとモータを持つことを意味する。 それにもかかわらず、非対称ディラック自由場ラグランジアン密度を定義する相対論的不変量の値を適切に固定することで、標準のqedと経験的に等価な一貫性、完全相対論的、再帰可能な量子電磁力学(qed)を構築することができる。 この非自明な同値性の原因と含意について論じ、非対称ディラック場が標準モデル予測を超えうる定性的な他のシナリオを探求する。 粒子と反粒子のエネルギーの非退化は、現在の宇宙における物質と反物質の間の非対称性を完全に相対論的に理解し、粒子と反粒子の間の重力相互作用をモデル化する別の方法につながると推測する。 我々は、不適切なローレンツ変換(パリティと時間反転演算)および電荷共役演算の下で、非対称ディラック場と対応する消滅および生成作用素がどのように変換されるかの完全な説明を与える。 また、現在の理論は CPT の定理を尊重する。

We build the fully relativistic quantum field theory related to the asymmetric Dirac fields. These fields are solutions of the asymmetric Dirac equation, a Lorentz covariant Dirac-like equation whose positive and "negative" frequency plane wave solutions' dispersion relations are no longer degenerate. At the second quantization level, we show that this implies that particles and antiparticles sharing the same wave number have different energies and momenta. In spite of that, we prove that by properly fixing the values of the relativistic invariants that define the asymmetric Dirac free field Lagrangian density, we can build a consistent, fully relativistic, and renormalizable quantum electrodynamics (QED) that is empirically equivalent to the standard QED. We discuss the reasons and implications of this non-trivial equivalence, exploring qualitatively other scenarios in which the asymmetric Dirac fields may lead to beyond the standard model predictions. We conjecture that this non-degeneracy in the energies for particles and antiparticles may lead to a fully relativistic understanding of the asymmetry between matter and antimatter in the present day universe as well as to an alternative way of modeling the gravitational interaction between a particle and an antiparticle. We give a complete account of how the asymmetric Dirac fields and the corresponding annihilation and creation operators transform under improper Lorentz transformations (parity and time reversal operations) and under the charge conjugation operation. We also prove that the present theory respects the CPT theorem.
翻訳日:2023-12-07 19:34:14 公開日:2023-12-06
# 原子運動を伴う局所回転のプログラミングによるマルチセンスメトロロジー

Multi-ensemble metrology by programming local rotations with atom movements ( http://arxiv.org/abs/2303.16885v2 )

ライセンス: Link先を確認
Adam L. Shaw, Ran Finkelstein, Richard Bing-Shiun Tsai, Pascal Scholl, Tai Hyun Yoon, Joonhee Choi, Manuel Endres(参考訳) 現在の光学原子時計はその資源を最適に利用していない。 特に、複数のアトミックアンサンブルを個々に制御したり、絡み合わずに読み出したりすると、感度の指数関数的な向上が得られる。 しかし、光遷移を局所的に制御することは、中性原子ベースの時計と量子コンピューティングプラットフォームにとって大きな課題である。 ここでは、ツイーザートリップされた原子のサブ波長制御による光転移に対する任意の単一サイトアドレスを示し、99.84(5)\%$忠実度と0.1(2)\%$非吸着原子とのクロストークで実行する。 このスキームはtweezersの相対的な位置変更のみに依存しており、追加のアドレスビームを必要としないため、非常に堅牢である。 この手法を用いて,2つのアトミックアンサンブルを用いたラムゼイ干渉計の単発・双曲読み出しを行い,与えられた位相スリップ誤差確率における使用間問合せ時間の向上を示す。 最後に,ramsey進化中に局所的な動的デカップリングを行うシーケンスをプログラムし,最適なクロック問合せの重要な要素である可変位相感度を持つ3つのアンサンブルを進化させる。 以上の結果は、絡み合いがなくても完全にプログラム可能な量子光時計の可能性を示し、将来、メトロロジー的に有用な絡み合い状態と組み合わせることができることを示した。

Current optical atomic clocks do not utilize their resources optimally. In particular, an exponential gain in sensitivity could be achieved if multiple atomic ensembles were to be controlled or read-out individually, even without entanglement. However, controlling optical transitions locally remains an outstanding challenge for neutral atom based clocks and quantum computing platforms. Here we show arbitrary, single-site addressing for an optical transition via sub-wavelength controlled moves of tweezer-trapped atoms, which we perform with $99.84(5)\%$ fidelity and with $0.1(2)\%$ crosstalk to non-addressed atoms. The scheme is highly robust as it relies only on relative position changes of tweezers and requires no additional addressing beams. Using this technique, we implement single-shot, dual-quadrature readout of Ramsey interferometry using two atomic ensembles simultaneously, and show an enhancement of the usable interrogation time at a given phase-slip error probability. Finally, we program a sequence which performs local dynamical decoupling during Ramsey evolution to evolve three ensembles with variable phase sensitivities, a key ingredient of optimal clock interrogation. Our results demonstrate the potential of fully programmable quantum optical clocks even without entanglement and could be combined with metrologically useful entangled states in the future.
翻訳日:2023-12-07 19:27:40 公開日:2023-12-06
# パリティアーキテクチャにおけるコード変形の一定深さ

Constant Depth Code Deformations in the Parity Architecture ( http://arxiv.org/abs/2303.08602v2 )

ライセンス: Link先を確認
Anette Messinger, Michael Fellner, Wolfgang Lechner(参考訳) 本稿では,任意の量子状態を一定回路深さで符号化・復号するプロトコルを,測定値,局所的近距離演算,単一量子ビット演算のみを用いて提案する。 この手順は通常、同時キュービット測定の2次オーバーヘッドを必要とするが、コード変形によるパリティ符号化における論理的マルチキュービットゲートの単純かつ低深さの実装を可能にする。 量子ゲートやアルゴリズムのより効率的な実装を実現するために、このような符号化と復号方式を用いて、基礎となるコードのサイズと形状を柔軟に変化させる方法について論じる。 提案手法をQAOAに適用し, 局所ゲートを用いたパリティ符号化を使わずに, 標準の非局所的なQAOAアプローチと同じ最適化性能で, 一定の深度実装を実現する。 さらに,本手法は,測定を行う際に,量子フーリエ変換の実装の深さを2倍に低減できることを示す。

We present a protocol to encode and decode arbitrary quantum states in the parity architecture with constant circuit depth using measurements, local nearest-neighbor and single-qubit operations only. While this procedure typically requires a quadratic overhead of simultaneous qubit measurements, it allows for a simple and low-depth implementation of logical multi-qubit gates in the parity encoding via code deformation. We discuss how such encoding and decoding schemes can be used to flexibly change the size and shape of the underlying code to enable a more efficient implementation of quantum gates or algorithms. We apply the new findings to the QAOA which leads to a constant depth implementation using local gates at the same optimization performance as the standard, potentially non-local, QAOA approach without the parity encoding. Furthermore, we show that our method can reduce the depth of implementing the quantum Fourier transform by a factor of two when allowing measurements.
翻訳日:2023-12-07 19:26:58 公開日:2023-12-06
# NLPモデルを逆向きにロバストにするモデルチューニングVia Prompts

Model-tuning Via Prompts Makes NLP Models Adversarially Robust ( http://arxiv.org/abs/2303.07320v2 )

ライセンス: Link先を確認
Mrigank Raman, Pratyush Maini, J. Zico Kolter, Zachary C. Lipton, Danish Pruthi(参考訳) 近年、NLP実践者は以下の実践に集約されている。 (i)既成品(マスク)言語モデルを輸入すること。 (ii) CLSトークンの隠された表現(ランダム初期化重み付き)の上に多層パーセプトロンを付加し、 (iii)下流タスク(MLP-FT)でモデル全体を微調整する。 この手順は標準のNLPベンチマークで大幅に向上したが、これらのモデルは弱い逆方向の摂動に対してさえも不安定なままである。 本研究は,下流タスクに適応する代替手法である Model-tuning Via Prompts (MVP) によって実現された,対向的堅牢性の驚くべき向上を示す。 MLPヘッドを出力予測に付加するのではなく、MVPは入力にプロンプトテンプレートを付加し、テキストの入力/補完によって予測を行う。 5つのnlpデータセット、4つの敵の攻撃、3つの異なるモデルで、mvpは敵の代替に対するパフォーマンスを平均で8%改善し、敵のトレーニングベースの最先端防御を3.5%上回っている。 MVPと対人訓練を組み合わせることで,非摂動例の性能を維持しつつ,対人堅牢性をさらに向上する。 最後に,これらのゲインのメカニズムを検討するため,アブレーションを行う。 特に,MLP-FTの脆弱性の主な原因は,事前学習タスクと微調整タスクと,ランダムに初期化されたMLPパラメータのミスアライメントによるものと考えられる。

In recent years, NLP practitioners have converged on the following practice: (i) import an off-the-shelf pretrained (masked) language model; (ii) append a multilayer perceptron atop the CLS token's hidden representation (with randomly initialized weights); and (iii) fine-tune the entire model on a downstream task (MLP-FT). This procedure has produced massive gains on standard NLP benchmarks, but these models remain brittle, even to mild adversarial perturbations. In this work, we demonstrate surprising gains in adversarial robustness enjoyed by Model-tuning Via Prompts (MVP), an alternative method of adapting to downstream tasks. Rather than appending an MLP head to make output prediction, MVP appends a prompt template to the input, and makes prediction via text infilling/completion. Across 5 NLP datasets, 4 adversarial attacks, and 3 different models, MVP improves performance against adversarial substitutions by an average of 8% over standard methods and even outperforms adversarial training-based state-of-art defenses by 3.5%. By combining MVP with adversarial training, we achieve further improvements in adversarial robustness while maintaining performance on unperturbed examples. Finally, we conduct ablations to investigate the mechanism underlying these gains. Notably, we find that the main causes of vulnerability of MLP-FT can be attributed to the misalignment between pre-training and fine-tuning tasks, and the randomly initialized MLP parameters.
翻訳日:2023-12-07 19:26:42 公開日:2023-12-06
# 量子ドットの感度反射率測定のための極低温超急速チタン酸ストロンチウムバラクター

Cryogenic hyperabrupt strontium titanate varactors for sensitive reflectometry of quantum dots ( http://arxiv.org/abs/2303.02933v2 )

ライセンス: Link先を確認
Rafael S. Eggli, Simon Svab, Taras Patlatiuk, Dominique A. Tr\"ussel, Miguel J. Carballido, Pierre Chevalier Kwon, Simon Geyer, Ang Li, Erik P. A. M. Bakkers, Andreas V. Kuhlmann, and Dominik M. Zumb\"uhl(参考訳) 高周波反射率測定技術は半導体量子ドットの高帯域読み出しを可能にする。 共鳴回路の注意深いインピーダンスマッチングは高い感度を達成するために必要であるが、低温では困難である。 ガリウムヒ素をベースとした電圧可変キャパシタ、いわゆるヴァラクターダイオードは、回路インピーダンスのその場チューニングに使用することができるが、10K以下の温度で劣化して故障する。 本稿では, チタン酸ストロンチウムを主成分とする超急速キャパシタンス-電圧特性, すなわち, 最高のガリウム系デバイスに類似したキャパシタンス調整性を有するバラクターについて検討する。 ここで導入されたvaractorの設計はコンパクトでスケーラブルで、45 pfから3.2 pfまでアクセス可能な容量範囲でワイヤボンドが容易である。 共振インダクタ・キャパシタ回路を完全インピーダンス整合に調整し,11mK,最大2Tの面内磁場下でのロバスト,温度,フィールド独立整合を観測する。 最後に、ゲルマニウム/シリコンコア/シェルナノワイヤホールダブル量子ドット上でゲート分散電荷センシングを行い、ゲートベースの単発スピン読み出しへの道を開く。 この結果, 小型で磁気抵抗性が高く, 調整可能な可変体がmK温度に到達し, 低温ラジオ周波数応用のツールボックスが拡張された。

Radio frequency reflectometry techniques enable high bandwidth readout of semiconductor quantum dots. Careful impedance matching of the resonant circuit is required to achieve high sensitivity, which however proves challenging at cryogenic temperatures. Gallium arsenide-based voltage-tunable capacitors, so-called varactor diodes, can be used for in-situ tuning of the circuit impedance but deteriorate and fail at temperatures below 10 K and in magnetic fields. Here, we investigate a varactor based on strontium titanate with hyperabrupt capacitance-voltage characteristic, that is, a capacitance tunability similar to the best gallium arsenide-based devices. The varactor design introduced here is compact, scalable and easy to wirebond with an accessible capacitance range from 45 pF to 3.2 pF. We tune a resonant inductor-capacitor circuit to perfect impedance matching and observe robust, temperature and field independent matching down to 11 mK and up to 2 T in-plane field. Finally, we perform gate-dispersive charge sensing on a germanium/silicon core/shell nanowire hole double quantum dot, paving the way towards gate-based single-shot spin readout. Our results bring small, magnetic field-resilient, highly tunable varactors to mK temperatures, expanding the toolbox of cryo-radio frequency applications.
翻訳日:2023-12-07 19:26:17 公開日:2023-12-06
# 非オーナメンテッドディープニューラルネットワークを用いた地中および低地中励起状態の多体波動関数

Multi-body wave function of ground and low-lying excited states using unornamented deep neural networks ( http://arxiv.org/abs/2302.08965v3 )

ライセンス: Link先を確認
Tomoya Naito, Hisashi Naito, and Koji Hashimoto(参考訳) 本研究では,深層ニューラルネットワークと教師なし機械学習手法を用いて,基底状態だけでなく低次励起状態の波動関数やエネルギーを計算する手法を提案する。 また, 同一粒子からなる系に対しては, ボソニック系のシンメトリゼーションとフェルミオン系のアンチシンメトリゼーションを簡易に行う方法も提案した。

We propose a method to calculate wave functions and energies not only of the ground state but also of low-lying excited states using a deep neural network and the unsupervised machine learning technique. For systems composed of identical particles, a simple method to perform symmetrization for bosonic systems and antisymmetrization for fermionic systems is also proposed.
翻訳日:2023-12-07 19:25:50 公開日:2023-12-06
# BiasTestGPT: 言語モデルのソーシャルバイアステストにChatGPTを使用する

BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models ( http://arxiv.org/abs/2302.07371v3 )

ライセンス: Link先を確認
Rafal Kocielnik, Shrimai Prabhumoye, Vivian Zhang, Roy Jiang, R. Michael Alvarez, Anima Anandkumar(参考訳) 事前訓練された言語モデル(plm)は、実世界の有害な影響をもたらす社会的バイアスを包含している。 このような社会的バイアスは、plmが異なる社会グループと一連のテスト文に現れる属性に対して出力する確率値によって測定される。 しかし、テスト文は限られた手動テンプレートから生成するか、高価なクラウドソーシングを必要とするため、現在バイアステストは面倒である。 テスト文に現れる社会的グループと属性の任意のユーザ指定の組み合わせが与えられた場合,テスト文の制御可能な生成にchatgptを使用することを提案する。 テンプレートベースの手法と比較して,テスト文生成にChatGPTを用いるアプローチは,特に交叉バイアスなどの困難な状況において,社会的バイアスの検出に優れている。 本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。 さまざまな分野の専門家によるユーザテストは、現代的なAIを社会的バイアスとしてテストできることに関心を示している。 このツールはplmにおけるこのようなバイアスに対する認識を大幅に向上させ、学習可能でユーザフレンドリーであることを証明した。 これにより,ソーシャルカテゴリと属性の組み合わせに対して,多種多様なテスト文の自動生成により,ドメインエキスパートによるplmのシームレスなオープンエンドなソーシャルバイアステストを可能にする。

Pretrained Language Models (PLMs) harbor inherent social biases that can result in harmful real-world implications. Such social biases are measured through the probability values that PLMs output for different social groups and attributes appearing in a set of test sentences. However, bias testing is currently cumbersome since the test sentences are generated either from a limited set of manual templates or need expensive crowd-sourcing. We instead propose using ChatGPT for the controllable generation of test sentences, given any arbitrary user-specified combination of social groups and attributes appearing in the test sentences. When compared to template-based methods, our approach using ChatGPT for test sentence generation is superior in detecting social bias, especially in challenging settings such as intersectional biases. We present an open-source comprehensive bias testing framework (BiasTestGPT), hosted on HuggingFace, that can be plugged into any open-source PLM for bias testing. User testing with domain experts from various fields has shown their interest in being able to test modern AI for social biases. Our tool has significantly improved their awareness of such biases in PLMs, proving to be learnable and user-friendly. We thus enable seamless open-ended social bias testing of PLMs by domain experts through an automatic large-scale generation of diverse test sentences for any combination of social categories and attributes.
翻訳日:2023-12-07 19:25:17 公開日:2023-12-06
# ニューラルネットワークによる露光シフトの因果推定:米国における大気基準の健康効果の評価

Causal Estimation of Exposure Shifts with Neural Networks: Evaluating the Health Benefits of Stricter Air Quality Standards in the US ( http://arxiv.org/abs/2302.02560v3 )

ライセンス: Link先を確認
Mauricio Tec, Oladimeji Mudele, Kevin Josey, Francesca Dominici(参考訳) 政策研究において、最も重要な分析課題の1つは、政策関連シフトの利害結果に対する継続的な暴露/治療の分布への因果効果を推定することである。 我々はこの問題をシフト応答関数(SRF)推定と呼ぶ。 頑健な因果効果推定器を含む既存のニューラルネットワーク手法は、理論的な保証とSRF推定のための実践的な実装を欠いている。 公共衛生における重要な政策関連問題に動機づけられ,ロバスト性と効率保証を備えたsrfを推定するためのニューラルネットワーク法とその理論的基盤を開発した。 次に、米国全体で6800万人、死者2700万人からなるデータに適用し、米国国家大気基準(NAAQS)を12ドル\mu g/m^3$から9ドル\mu g/m^3$に改定することで因果効果を推定する。 この変更は米国環境保護庁(EPA)によって最近提案されている。 我々のゴールは、SRFの因果的方法を用いて、この予想された改正による死亡率の低下を初めて見積もることである。 Our proposed method, called {T}argeted {R}egularization for {E}xposure {S}hifts with Neural {Net}works (TRESNET), contributes to the neural network literature for causal inference in two ways: first, it proposes a targeted regularization loss with theoretical properties that ensure double robustness and achieves asymptotic efficiency specific for SRF estimation; second, it enables loss functions from the exponential family of distributions to accommodate non-continuous outcome distributions (such as hospitalization or mortality counts). 我々は、TRESNETの幅広い適用性と競争力を示すベンチマーク実験でアプリケーションを補完する。

In policy research, one of the most critical analytic tasks is to estimate the causal effect of a policy-relevant shift to the distribution of a continuous exposure/treatment on an outcome of interest. We call this problem shift-response function (SRF) estimation. Existing neural network methods involving robust causal-effect estimators lack theoretical guarantees and practical implementations for SRF estimation. Motivated by a key policy-relevant question in public health, we develop a neural network method and its theoretical underpinnings to estimate SRFs with robustness and efficiency guarantees. We then apply our method to data consisting of 68 million individuals and 27 million deaths across the U.S. to estimate the causal effect from revising the US National Ambient Air Quality Standards (NAAQS) for PM 2.5 from 12 $\mu g/m^3$ to 9 $\mu g/m^3$. This change has been recently proposed by the US Environmental Protection Agency (EPA). Our goal is to estimate, for the first time, the reduction in deaths that would result from this anticipated revision using causal methods for SRFs. Our proposed method, called {T}argeted {R}egularization for {E}xposure {S}hifts with Neural {Net}works (TRESNET), contributes to the neural network literature for causal inference in two ways: first, it proposes a targeted regularization loss with theoretical properties that ensure double robustness and achieves asymptotic efficiency specific for SRF estimation; second, it enables loss functions from the exponential family of distributions to accommodate non-continuous outcome distributions (such as hospitalization or mortality counts). We complement our application with benchmark experiments that demonstrate TRESNET's broad applicability and competitiveness.
翻訳日:2023-12-07 19:24:21 公開日:2023-12-06
# CD-GraB: 加速トレーニングのための分散サンプルオーダーの調整

CD-GraB: Coordinating Distributed Example Orders for Provably Accelerated Training ( http://arxiv.org/abs/2302.00845v4 )

ライセンス: Link先を確認
A. Feder Cooper, Wentao Guo, Khiem Pham, Tiancheng Yuan, Charlie F. Ruan, Yucheng Lu, Christopher De Sa(参考訳) オンライングラディエント・バランシング(GraB)に関する最近の研究は、ランダム・リシャッフル(RR)より優れていることが保証されるSGDの置換に基づく例順が存在することを明らかにした。 RRはトレーニングの例を任意に置換するが、GraBは以前のエポックから古い勾配を利用してサンプルを順序付けする。 しかし、GraBは設計によって制限されている。集中型データでトレーニングをスケールアップする素晴らしい能力を示しているが、現代の分散MLワークロードに自然に拡張するわけではない。 そこで本研究では,カーネルの薄型化に関する先行研究から得られた知見をもとに,分散設定への変換を高速化するCoordinated Distributed GraB(CD-GraB)を提案する。 無視可能なオーバーヘッドでは、CD-GraBは集中型GraBよりも収束速度が線形に向上し、様々なベンチマークタスクにおいて分散RRより優れる。

Recent research on online Gradient Balancing (GraB) has revealed that there exist permutation-based example orderings for SGD that are guaranteed to outperform random reshuffling (RR). Whereas RR arbitrarily permutes training examples, GraB leverages stale gradients from prior epochs to order examples -- achieving a provably faster convergence rate than RR. However, GraB is limited by design: while it demonstrates an impressive ability to scale-up training on centralized data, it does not naturally extend to modern distributed ML workloads. We therefore propose Coordinated Distributed GraB (CD-GraB), which uses insights from prior work on kernel thinning to translate the benefits of provably faster permutation-based example ordering to distributed settings. With negligible overhead, CD-GraB exhibits a linear speedup in convergence rate over centralized GraB and outperforms distributed RR on a variety of benchmark tasks.
翻訳日:2023-12-07 19:23:40 公開日:2023-12-06
# 頑健な最適輸送による推論:理論と方法

Inference via robust optimal transportation: theory and methods ( http://arxiv.org/abs/2301.06297v3 )

ライセンス: Link先を確認
Yiming Ma, Hang Liu, Davide La Vecchia, Metthieu Lerasle(参考訳) 最適輸送(OT)理論と関連する$p$-ワッサーシュタイン距離(W_p$, $p\geq 1$)は統計学や機械学習に広く応用されている。 その人気にもかかわらず、これらのツールに基づく推論は、外れ値に敏感か、または基礎となるモデルに重みがある場合、パフォーマンスが悪くなる。 これらの問題に対処するため,我々は新しい手順を導入する。 (i)初期ot問題(robot)の頑健なバージョンを検討し、チューニングパラメータ $\lambda > 0$ に依存する {robust wasserstein distance}, $w^{(\lambda)}$ を定義することを示す。 (ii)$W_1$と$W^{(\lambda)}$の関連を説明し、その重要な測度論的な側面を研究する。 (iii)$W^{(\lambda)}$に対して濃度不等式を導出する。 (iii)最小距離推定器を定義するために$W^{(\lambda)}$を使用し、統計的保証を提供し、$\lambda$の選択に濃度不等式を適用する方法を説明する。 (v)ROBOTのdual形式を導出し,その機械学習問題(生成的対向ネットワークとドメイン適応)への適用性を示す。 数値的なエクササイズは、我々の方法がもたらす利点の証拠となる。

Optimal transport (OT) theory and the related $p$-Wasserstein distance ($W_p$, $p\geq 1$) are widely-applied in statistics and machine learning. In spite of their popularity, inference based on these tools is sensitive to outliers or it can perform poorly when the underlying model has heavy-tails. To cope with these issues, we introduce a new class of procedures. (i) We consider a robust version of the primal OT problem (ROBOT) and show that it defines the {robust Wasserstein distance}, $W^{(\lambda)}$, which depends on a tuning parameter $\lambda > 0$. (ii) We illustrate the link between $W_1$ and $W^{(\lambda)}$ and study its key measure theoretic aspects. (iii) We derive some concentration inequalities for $W^{(\lambda)}$. (iii) We use $W^{(\lambda)}$ to define minimum distance estimators, we provide their statistical guarantees and we illustrate how to apply concentration inequalities for the selection of $\lambda$. (v) We derive the {dual} form of the ROBOT and illustrate its applicability to machine learning problems (generative adversarial networks and domain adaptation). Numerical exercises provide evidence of the benefits yielded by our methods.
翻訳日:2023-12-07 19:23:20 公開日:2023-12-06
# 光円錐弦の平滑化について

The Rough with the Smooth of the Light Cone String ( http://arxiv.org/abs/2212.14822v3 )

ライセンス: Link先を確認
Norbert Dragon and Florian Oppermann(参考訳) ポアンカルイ群のユニタリ表現の生成元における多項式は、滑らかで急速に減少する波動函数の密度部分空間 S を自身に写像する代数を構成する。 この数学的結果は、以前は非有界作用素の代数的処理が正当化されると仮定した物理学者にとって非常に歓迎されている。 しかし、滑らかさは、S の密度部分空間を自身に写像しない荒作用素 R が、R とすべての生成元の両方によって自身に写像される別の濃密な領域を許すように示さなければならないという副作用を持つ。 さもないと、それらの代数積、それらの連結は定義されない。 光円錐弦の正準量子化は作用素 -i x^1 と p^- = (p^0 - p^z)/2 を仮定し、それらの可換作用素 r = p^1/(p^0 + p^z) を乗算する。 これは滑らかではないが、質量のない運動量の負のz軸では粗い。 P^m と P^i-P^z-平面の回転の可換関係のみを用いて、作用素 R が SO(D-1) のユニタリ表現と矛盾していることを示す。 このことは、ボゾン弦の臨界次元 D=26 の代数的決定を無意味にする: 光円錐弦の質量のない状態が R を許すならば、それらはポアンカルイ群の部分群 SO(D-1) のユニタリ表現を認めない。 類似の議論により、質量を持たない多重集合は、自己随伴空間位置作用素 x によって生成される空間運動量の変換群と矛盾する。

The polynomials in the generators of a unitary representation of the Poincar\'e group constitute an algebra which maps the dense subspace S of smooth, rapidly decreasing wavefunctions to itself. This mathematical result is highly welcome to physicists, who previously just assumed their algebraic treatment of unbounded operators be justified. The smoothness, however, has the side effect that a rough operator R, which does not map a dense subspace of S to itself, has to be shown to allow for some other dense domain which is mapped to itself both by R and all generators. Otherwise their algebraic product, their concatenation, is not defined. Canonical quantization of the light cone string postulates operators -i X^1 and P^- = (P^0 - P^z)/2 and as their commutator the multiplicative operator R = P^1/(P^0 + P^z). This is not smooth but rough on the negative z-axis of massless momentum. Using only the commutation relations of P^m with the generators -i M_iz of rotations in the P^i-P^z-plane we show that on massless states the operator R is inconsistent with a unitary representation of SO(D-1). This makes the algebraic determination of the critical dimension, D=26, of the bosonic string meaningless: if the massless states of the light cone string admit R then they do not admit a unitary representation of the subgroup SO(D-1) of the Poincar\'e group. With analogous arguments we show: Massless multiplets are inconsistent with a translation group of the spatial momentum which is generated by a self-adjoint spatial position operator X.
翻訳日:2023-12-07 19:22:57 公開日:2023-12-06
# グループ独身車としてのマヨアナ・スカーズ

Majorana Scars as Group Singlets ( http://arxiv.org/abs/2212.11914v3 )

ライセンス: Link先を確認
Z. Sun, F.K. Popov, I.R. Klebanov, K. Pakrouski(参考訳) いくつかの量子多体系では、ヒルベルト空間は大きなエルゴードセクタとより小さいスカー部分空間に分解される。 arxiv:2007.00845] 二つのセクタは、系の大きさで階数が大きくなる大きな群の下での変換特性によって区別される可能性がある(ハミルトニアンの対称性ではない)。 量子多体傷はこの群の下で不変であるが、他の全ての状態は不変である。 ここでは、このアイデアをサイトごとに$M$Majorana fermionsを含む格子系に適用する。 N$ サイトに対するヒルベルト空間は O$(N)\times$O$(M)$ の作用の下で分解され、傷跡は SO$(N)$ 単数である。 たとえ100万ドルでも、傷跡の家族は2つある。 その中の1つは$\eta$状態と呼ばれ、群 O$(N)$ の下で対称である。 もう1つは$\zeta$状態であり、SO$(N)$不変である。 我々の構成が局所相互作用を持つ格子上のスピン-1/2$フェルミオンに還元されるような$M=4$の場合、前者は$N+1$$\eta$-ペアリング状態であり、後者は最大スピンの$N+1$状態である。 我々はこの構成を$M>4$に一般化する。 M=6$の場合、スカー状態の明示的な公式を示し、二部分エンタングルメントエントロピーを解析的に計算する。 大きな$N$の場合、サブシステムサイズと対数的に増加する。 一般論として、任意の群不変なスカーは典型的状態よりもパラメトリックに小さい絡み合いエントロピーを持つべきであるとする。 私たちが発見する傷跡のエネルギーは一般に等しくはないが、ハミルトンパラメータを選ばなければならない。 m>6$で、地元のハミルトニアンでは通常、傷痕は特定の異質性を持っていることが分かる。 散乱スペクトルは非局所相互作用項を加えることでエルゴード化することができる。 それぞれの傷痕の次元を導出し、その傷痕が小さな$N$の状態の密度に大きく寄与することを示した。

In some quantum many-body systems, the Hilbert space breaks up into a large ergodic sector and a much smaller scar subspace. It has been suggested [arXiv:2007.00845] that the two sectors may be distinguished by their transformation properties under a large group whose rank grows with the system size (it is not a symmetry of the Hamiltonian). The quantum many-body scars are invariant under this group, while all other states are not. Here we apply this idea to lattice systems containing $M$ Majorana fermions per site. The Hilbert space for $N$ sites may be decomposed under the action of the O$(N)\times$O$(M)$ group, and the scars are the SO$(N)$ singlets. For any even $M$ there are two families of scars. One of them, which we call the $\eta$ states, is symmetric under the group O$(N)$. The other, the $\zeta$ states, has the SO$(N)$ invariance. For $M=4$, where our construction reduces to spin-$1/2$ fermions on a lattice with local interactions, the former family are the $N+1$ $\eta$-pairing states, while the latter are the $N+1$ states of maximum spin. We generalize this construction to $M>4$. For $M=6$ we exhibit explicit formulae for the scar states and use them to calculate the bipartite entanglement entropy analytically. For large $N$, it grows logarithmically with the sub-system size. We present a general argument that any group-invariant scars should have the entanglement entropy that is parametrically smaller than that of typical states. The energies of the scars we find are not equidistant in general but can be made so by choosing Hamiltonian parameters. For $M>6$ we find that with local Hamiltonians the scars typically have certain degeneracies. The scar spectrum can be made ergodic by adding a non-local interaction term. We derive the dimension of each scar family and show the scars could have a large contribution to the density of states for small $N$.
翻訳日:2023-12-07 19:22:27 公開日:2023-12-06
# 物理形ニューラルネットの神経進化:ベンチマーク問題と比較結果

Neuroevolution of Physics-Informed Neural Nets: Benchmark Problems and Comparative Results ( http://arxiv.org/abs/2212.07624v3 )

ライセンス: Link先を確認
Nicholas Sung Wei Yong, Jian Cheng Wong, Pao-Hsiung Chiu, Abhishek Gupta, Chinchun Ooi, Yew-Soon Ong(参考訳) 基礎科学研究と発見のための学習モデルの可能性は、世界中の注目を集めている。 損失関数が科学現象の方程式を直接埋め込む物理情報ニューラルネットワーク(PINN)は、最近の進歩の最前線にある重要な技術の一つである。 PINNは通常、その深層学習と同様、確率勾配降下法を用いて訓練される。 しかし,本論文の分析により,ピンのユニークな損失定式化は,勾配降下に寄与しない高い複雑さと頑丈さをもたらすことが示された。 標準的なディープラーニングとは異なり、PINNトレーニングは、可能な限り物理法則を忠実に満たす、グローバルに最適なパラメータ値を必要とする。 スプリアス局所最適、誤った物理学の指標は避けなければならない。 したがって、大域的探索能力に優れたニューロ進化アルゴリズムは、勾配降下法と比較してピンのよい選択であるかもしれない。 本稿では,新しい神経進化アルゴリズム開発のための様々な物理現象にまたがる,オープンソースコードによる5つのベンチマーク問題を提案する。 これを用いることで,2つの神経進化アルゴリズムを確率的勾配降下と比較し,神経進化が勾配降下を超越し,予測結果の物理適合性が向上することを示す。 さらに、JAXによる神経進化の実装は、標準実装と比較して、桁違いのスピードアップにつながります。

The potential of learned models for fundamental scientific research and discovery is drawing increasing attention worldwide. Physics-informed neural networks (PINNs), where the loss function directly embeds governing equations of scientific phenomena, is one of the key techniques at the forefront of recent advances. PINNs are typically trained using stochastic gradient descent methods, akin to their deep learning counterparts. However, analysis in this paper shows that PINNs' unique loss formulations lead to a high degree of complexity and ruggedness that may not be conducive for gradient descent. Unlike in standard deep learning, PINN training requires globally optimum parameter values that satisfy physical laws as closely as possible. Spurious local optimum, indicative of erroneous physics, must be avoided. Hence, neuroevolution algorithms, with their superior global search capacity, may be a better choice for PINNs relative to gradient descent methods. Here, we propose a set of five benchmark problems, with open-source codes, spanning diverse physical phenomena for novel neuroevolution algorithm development. Using this, we compare two neuroevolution algorithms against the commonly used stochastic gradient descent, and our baseline results support the claim that neuroevolution can surpass gradient descent, ensuring better physics compliance in the predicted outputs. %Furthermore, implementing neuroevolution with JAX leads to orders of magnitude speedup relative to standard implementations.
翻訳日:2023-12-07 19:21:39 公開日:2023-12-06
# SAIF: Sparse Adversarial and Imperceptible Attack Framework

SAIF: Sparse Adversarial and Imperceptible Attack Framework ( http://arxiv.org/abs/2212.07495v2 )

ライセンス: Link先を確認
Tooba Imtiaz, Morgan Kohler, Jared Miller, Zifeng Wang, Mario Sznaier, Octavia Camps, Jennifer Dy(参考訳) 敵攻撃は入力信号の摂動によってニューラルネットワークの決定能力を妨げる。 例えば、画像に計算された小さな歪みを加えることは、よく訓練された画像分類ネットワークを欺くことができる。 本研究では,Sparse Adversarial and Interpretable Attack Framework (SAIF) と呼ばれる新たな攻撃手法を提案する。 具体的には、少数の画素で低マグニチュードの摂動を含む不可避な攻撃をデザインし、これらのスパース攻撃を利用して分類器の脆弱性を明らかにする。 我々はFrank-Wolfe(条件勾配)アルゴリズムを用いて、O(1/\sqrt{T})$収束で境界等級と空間の攻撃摂動を同時に最適化する。 実験の結果,SAIFは高い認識不能かつ解釈不能な逆数例を計算し,ImageNetデータセット上で最先端のスパース攻撃手法より優れていた。

Adversarial attacks hamper the decision-making ability of neural networks by perturbing the input signal. The addition of calculated small distortion to images, for instance, can deceive a well-trained image classification network. In this work, we propose a novel attack technique called Sparse Adversarial and Interpretable Attack Framework (SAIF). Specifically, we design imperceptible attacks that contain low-magnitude perturbations at a small number of pixels and leverage these sparse attacks to reveal the vulnerability of classifiers. We use the Frank-Wolfe (conditional gradient) algorithm to simultaneously optimize the attack perturbations for bounded magnitude and sparsity with $O(1/\sqrt{T})$ convergence. Empirical results show that SAIF computes highly imperceptible and interpretable adversarial examples, and outperforms state-of-the-art sparse attack methods on the ImageNet dataset.
翻訳日:2023-12-07 19:21:18 公開日:2023-12-06
# テキストからSQLへの意味解析における誤り検出

Error Detection for Text-to-SQL Semantic Parsing ( http://arxiv.org/abs/2305.13683v2 )

ライセンス: Link先を確認
Shijie Chen, Ziru Chen, Huan Sun, Yu Su(参考訳) 近年、テキストからsqlへのセマンティクスが著しく進歩しているが、既存のパーサーのパフォーマンスは完璧にはほど遠い。 特に、ディープラーニングに基づく最新のテキストからsqlへのパーサーは、しばしば信頼度が高すぎるため、実際の使用のためにデプロイする場合の信頼性に疑問を投げかける。 本稿では,テキストからsqlへの意味解析のためのパーサー非依存の誤り検出モデルを提案する。 言語モデルのコードを基盤として,自然言語質問とsqlクエリの両方の構造的特徴を学習するグラフニューラルネットワークによるエラー検出モデルを強化する。 我々は、クロスドメイン設定から収集した現実的な解析誤差に基づいてモデルをトレーニングし、より強力な一般化能力をもたらす。 異なる復号機構を備えた3つの強力なテキスト-SQLパーサによる実験により、我々のアプローチはパーサに依存した不確実性指標よりも優れていた。 私たちのモデルは、アーキテクチャに関わらず、text-to-sqlセマンティクスパーサのパフォーマンスとユーザビリティを効果的に改善するでしょう。 (我々の実装はhttps://github.com/OSU-NLP-Group/Text2SQL-Error-detection)。

Despite remarkable progress in text-to-SQL semantic parsing in recent years, the performance of existing parsers is still far from perfect. Specifically, modern text-to-SQL parsers based on deep learning are often over-confident, thus casting doubt on their trustworthiness when deployed for real use. In this paper, we propose a parser-independent error detection model for text-to-SQL semantic parsing. Using a language model of code as its bedrock, we enhance our error detection model with graph neural networks that learn structural features of both natural language questions and SQL queries. We train our model on realistic parsing errors collected from a cross-domain setting, which leads to stronger generalization ability. Experiments with three strong text-to-SQL parsers featuring different decoding mechanisms show that our approach outperforms parser-dependent uncertainty metrics. Our model could also effectively improve the performance and usability of text-to-SQL semantic parsers regardless of their architectures. (Our implementation is available at https://github.com/OSU-NLP-Group/Text2SQL-Error-Detection)
翻訳日:2023-12-07 19:14:11 公開日:2023-12-06
# ポリグロットかノーか? 基礎モデルにおける多言語百科事典知識の測定

Polyglot or Not? Measuring Multilingual Encyclopedic Knowledge in Foundation Models ( http://arxiv.org/abs/2305.13675v2 )

ライセンス: Link先を確認
Tim Schott, Daniel Furman, and Shreshta Bhat(参考訳) 本研究では,多岐にわたる言語文脈における百科事典的知識を想起する基礎モデルの能力を評価する。 これをサポートするために、私たちは: 1) 反事実と組み合わせた303万の事実関連を含む20言語データセットを作成する。 2)多言語テストで5つのモデルを評価し、 3) 英語のみのテストで24モデルの多様なセットをベンチマークする。 メタのLLaMAは多言語と英語のみの評価で最高点を達成している。 しかし、ラマの誤りの分析は、英語以外の言語で事実を思い出す能力に重大な制限があることを示し、事実対象の場所や性別に関する困難も示している。 全体として、今日の基礎モデルは多言語とは程遠いことを示唆している。

In this work, we assess the ability of foundation models to recall encyclopedic knowledge across a wide range of linguistic contexts. To support this, we: 1) produce a 20-language dataset that contains 303k factual associations paired with counterfactuals, 2) evaluate 5 models in a multilingual test, and 3) benchmark a diverse set of 24 models in an English-only test. Meta's LLaMA achieves the highest scores in both multilingual and English-only evaluations. Yet, an analysis of LLaMA's errors reveals significant limitations in its ability to recall facts in languages other than English, plus difficulties related to the location and gender of fact subjects. Overall, our findings suggest that today's foundation models are far from polyglots.
翻訳日:2023-12-07 19:13:55 公開日:2023-12-06
# DADA:言語規則の動的集約による辞書適応

DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules ( http://arxiv.org/abs/2305.13406v3 )

ライセンス: Link先を確認
Yanchen Liu, William Held, Diyi Yang(参考訳) 主に標準アメリカ英語(SAE)に焦点を当てた既存の大きな言語モデル(LLM)は、他の英語方言に適用された場合、かなりパフォーマンスが悪化する。 既存の緩和策は個々のターゲット方言の相違に対処しているが、それらは高精度な方言識別システムへのアクセスを想定している。 方言間の境界は本質的に柔軟であり、言語を個別に定義したカテゴリに分類することは困難である。 本稿では,特定の言語的特徴を扱うアダプタを構成することによって,マルチダイアレクティブロバスト性を持つ imbue sae 学習モデルに対するモジュラーアプローチである dada (dialect adaptation via dynamic aggregation) を提案する。 DADAのコンポジションアーキテクチャは、特定の方言の変種へのターゲット適応と、様々な方言への同時適応の両方を可能にする。 DADAは単一タスクと命令微調整言語モデルの両方に有効であることを示し、既存のLLMを異なる英語方言に適応するための拡張可能かつ解釈可能なフレームワークを提供する。

Existing large language models (LLMs) that mainly focus on Standard American English (SAE) often lead to significantly worse performance when being applied to other English dialects. While existing mitigations tackle discrepancies for individual target dialects, they assume access to high-accuracy dialect identification systems. The boundaries between dialects are inherently flexible, making it difficult to categorize language into discrete predefined categories. In this paper, we propose DADA (Dialect Adaptation via Dynamic Aggregation), a modular approach to imbue SAE-trained models with multi-dialectal robustness by composing adapters which handle specific linguistic features. The compositional architecture of DADA allows for both targeted adaptation to specific dialect variants and simultaneous adaptation to various dialects. We show that DADA is effective for both single task and instruction finetuned language models, offering an extensible and interpretable framework for adapting existing LLMs to different English dialects.
翻訳日:2023-12-07 19:13:44 公開日:2023-12-06
# TheoremQA: Theorem-driven Question Answering データセット

TheoremQA: A Theorem-driven Question Answering dataset ( http://arxiv.org/abs/2305.12524v3 )

ライセンス: Link先を確認
Wenhu Chen, Ming Yin, Max Ku, Pan Lu, Yixin Wan, Xueguang Ma, Jianyu Xu, Xinyi Wang, Tony Xia(参考訳) GPT-4 や PaLM-2 のような最近の LLM は GSM8K のような基本的な数学の問題を90%以上の精度で解くことで大きな進歩を遂げた。 しかし、ドメイン固有の知識(すなわち定理)を必要とするより困難な数学問題を解く能力はまだ調査されていない。 本稿では,AIモデルの能力を評価するために設計された,最初の定理駆動型質問応答データセットであるTheoremQAを紹介する。 TheoremQAは、数学、物理学、EE&CS、ファイナンスから350の定理(テイラーの定理、ラグランジュの定理、ハフマンの符号化、量子定理、弾性定理など)を含む800の高品質の質問を含む領域の専門家によって計算される。 我々は、Chain-of-ThoughtsやProgram-of-Thoughtsなど、さまざまなプロンプト戦略を持つ16の大規模言語とコードモデルの範囲を評価した。 GPT-4では,これらの問題を解決する能力は非並列であり,Program-of-Thoughts Promptingでは51%の精度を実現している。 既存のオープンソースモデルはすべて15%以下で、ランダムゲーミングベースラインをわずかに上回っている。 TheoremQAの多様性と広範な範囲を考えると、科学上の課題を解決するためのLSMの能力を評価するためのより良いベンチマークとして使用できると信じている。 データとコードはhttps://github.com/wenhuchen/theoremqaでリリースされる。

The recent LLMs like GPT-4 and PaLM-2 have made tremendous progress in solving fundamental math problems like GSM8K by achieving over 90% accuracy. However, their capabilities to solve more challenging math problems which require domain-specific knowledge (i.e. theorem) have yet to be investigated. In this paper, we introduce TheoremQA, the first theorem-driven question-answering dataset designed to evaluate AI models' capabilities to apply theorems to solve challenging science problems. TheoremQA is curated by domain experts containing 800 high-quality questions covering 350 theorems (e.g. Taylor's theorem, Lagrange's theorem, Huffman coding, Quantum Theorem, Elasticity Theorem, etc) from Math, Physics, EE&CS, and Finance. We evaluate a wide spectrum of 16 large language and code models with different prompting strategies like Chain-of-Thoughts and Program-of-Thoughts. We found that GPT-4's capabilities to solve these problems are unparalleled, achieving an accuracy of 51% with Program-of-Thoughts Prompting. All the existing open-sourced models are below 15%, barely surpassing the random-guess baseline. Given the diversity and broad coverage of TheoremQA, we believe it can be used as a better benchmark to evaluate LLMs' capabilities to solve challenging science problems. The data and code are released in https://github.com/wenhuchen/TheoremQA.
翻訳日:2023-12-07 19:13:08 公開日:2023-12-06
# HalOmi: 機械翻訳における多言語幻覚と排便検出のためのマニュアル注釈ベンチマーク

HalOmi: A Manually Annotated Benchmark for Multilingual Hallucination and Omission Detection in Machine Translation ( http://arxiv.org/abs/2305.11746v2 )

ライセンス: Link先を確認
David Dale, Elena Voita, Janice Lam, Prangthip Hansanti, Christophe Ropers, Elahe Kalbassi, Cynthia Gao, Lo\"ic Barrault, Marta R. Costa-juss\`a(参考訳) 機械翻訳における幻覚は、入力とは無関係な情報を含む翻訳である。 省略は、入力情報の一部を含まない翻訳である。 どちらのケースも、ユーザの信頼を損なう破滅的なエラーの傾向があるが、こうしたタイプの病理に関する注釈付きデータは極めて少なく、いくつかの高リソース言語に限定されている。 本研究では,リソースレベルやスクリプトの異なる18の翻訳方向をカバーする幻覚現象と脱落現象の注釈付きデータセットをリリースする。 注記は,部分的および完全な幻覚のレベルと,文と単語レベルでの省略レベルの両方をカバーしている。 さらに,幻覚と排便検出の従来の手法を再検討し,単一言語対に基づく結論が大規模評価に大きく寄与しないことを示すとともに,新たなソリッドベースラインを確立する。

Hallucinations in machine translation are translations that contain information completely unrelated to the input. Omissions are translations that do not include some of the input information. While both cases tend to be catastrophic errors undermining user trust, annotated data with these types of pathologies is extremely scarce and is limited to a few high-resource languages. In this work, we release an annotated dataset for the hallucination and omission phenomena covering 18 translation directions with varying resource levels and scripts. Our annotation covers different levels of partial and full hallucinations as well as omissions both at the sentence and at the word level. Additionally, we revisit previous methods for hallucination and omission detection, show that conclusions made based on a single language pair largely do not hold for a large-scale evaluation, and establish new solid baselines.
翻訳日:2023-12-07 19:12:43 公開日:2023-12-06
# 情報理論一般化境界の統一的枠組み

A unified framework for information-theoretic generalization bounds ( http://arxiv.org/abs/2305.11042v2 )

ライセンス: Link先を確認
Yifeng Chu and Maxim Raginsky(参考訳) 本稿では,学習アルゴリズムにおける情報理論の一般化境界の導出手法を提案する。 主な技術的ツールは、測度の変化と、$L_{\psi_p}$ Orlicz空間におけるヤングの不等式の緩和に基づく確率的デコリレーション補題である。 確率測度の空間における対称性、カップリング、連鎖といった他の手法と組み合わせてデコリレーション補題を用いて、期待と高い確率の両方において一般化誤差の新たな上限を求め、相互情報、条件付き相互情報、確率連鎖、PAC-ベイズ不等式に基づく既存の一般化境界の多くを特殊ケースとして回復する。 さらに、亜ガウス過程の期待上限上のフェルニケ・タラグランド上界は特別な場合として現れる。

This paper presents a general methodology for deriving information-theoretic generalization bounds for learning algorithms. The main technical tool is a probabilistic decorrelation lemma based on a change of measure and a relaxation of Young's inequality in $L_{\psi_p}$ Orlicz spaces. Using the decorrelation lemma in combination with other techniques, such as symmetrization, couplings, and chaining in the space of probability measures, we obtain new upper bounds on the generalization error, both in expectation and in high probability, and recover as special cases many of the existing generalization bounds, including the ones based on mutual information, conditional mutual information, stochastic chaining, and PAC-Bayes inequalities. In addition, the Fernique-Talagrand upper bound on the expected supremum of a subgaussian process emerges as a special case.
翻訳日:2023-12-07 19:12:30 公開日:2023-12-06
# オープンワールドの知識基盤における完全性、リコール、否定:調査

Completeness, Recall, and Negation in Open-World Knowledge Bases: A Survey ( http://arxiv.org/abs/2305.05403v2 )

ライセンス: Link先を確認
Simon Razniewski, Hiba Arnaout, Shrestha Ghosh, Fabian Suchanek(参考訳) 汎用知識ベース(KB)は知識中心のAIの基礎である。 それらの多くはWebソースから実用的に構築されており、完成には程遠い。 これは、消費だけでなく、コンテンツのキュレーションにも問題をもたらします。 いくつかの調査では不完全KBを完遂する問題をターゲットにしているが、最初の問題はそもそもKBが不完全であるかどうか、どの程度かを知ることである。 本調査では,KBの完全性,リコール,否定に関する知識をどのように表現し,抽出し,推測するかについて議論する。 カバーする 一 部分的閉世界意味論における知識表現及び問合せの論理的基礎 (ii)統計パターンによる情報の推定 (iii)kbs及びテキストからのリコールに関する情報の抽出 (四)興味深い否定的陳述の特定及び (v)相対リコールの概念を緩和した。 本調査は,(1)kb品質の追跡,抽出作業の集中,品質を意識した下流アプリケーションの構築に関心のある実践者,(2)オープンワールドの仮定を超えて知識ベースの現状を理解したいと願うデータ管理,知識ベース,セマンティックウェブ研究者の2つのタイプを対象としている。 そこで本研究では,基本的な方法論と作業方法の両方を提示し,問題に対して異なるアプローチを選択する方法に関する実践指向の推奨を行う。

General-purpose knowledge bases (KBs) are a cornerstone of knowledge-centric AI. Many of them are constructed pragmatically from Web sources, and are thus far from complete. This poses challenges for the consumption as well as the curation of their content. While several surveys target the problem of completing incomplete KBs, the first problem is arguably to know whether and where the KB is incomplete in the first place, and to which degree. In this survey we discuss how knowledge about completeness, recall, and negation in KBs can be expressed, extracted, and inferred. We cover (i) the logical foundations of knowledge representation and querying under partial closed-world semantics; (ii) the estimation of this information via statistical patterns; (iii) the extraction of information about recall from KBs and text; (iv) the identification of interesting negative statements; and (v) relaxed notions of relative recall. This survey is targeted at two types of audiences: (1) practitioners who are interested in tracking KB quality, focusing extraction efforts, and building quality-aware downstream applications; and (2) data management, knowledge base and semantic web researchers who wish to understand the state of the art of knowledge bases beyond the open-world assumption. Consequently, our survey presents both fundamental methodologies and their working, and gives practice-oriented recommendations on how to choose between different approaches for a problem at hand.
翻訳日:2023-12-07 19:12:15 公開日:2023-12-06
# 島相における無人島と部分絡み合いエントロピー

Ownerless island and partial entanglement entropy in island phases ( http://arxiv.org/abs/2305.04259v3 )

ライセンス: Link先を確認
Debarshi Basu, Jiong Lin, Yizhou Lu and Qiang Wen(参考訳) 部分エンタングルメントエントロピー (PEE) の文脈において, 複数の2次元ホログラフィック・セットアップで実現された島相のエンタングルメント構造について検討した。 島相の自己エンコーディング特性はPEEの評価方法を変える。 本研究は, 島々からの貢献を考慮し, PEEの構築とバランスの取れた部分エンタングルメント・エントロピー (BPE) の一般処方を与える。 ここで、オーナーレスの島域は、島内にある$\text{Is}(AB)$ of $A\cup B$ だが、外部にある$\text{Is}(A)\cup \text{Is}(B)$は重要な役割を果たす。 注目すべきは、オーナーレス島の異なる割り当ての下では、異なるBPEが得られ、これは、$A\cup B$の絡み合いのくさび(EWCS)の異なるサドルに対応する。 割り当ては BPE を最小化するものを選択することで解決できる。 さらに,この課題の下では,オシッコを観察し,ホログラフィにおいてオシッコの幾何学的図面を与え,島外相の幾何学的図面と一致させる。

In the context of partial entanglement entropy (PEE), we study the entanglement structure of the island phases realized in several 2-dimensional holographic set-ups. The self-encoding property of the island phase changes the way we evaluate the PEE. With the contributions from islands taken into account, we give a generalized prescription to construct PEE and balanced partial entanglement entropy (BPE). Here the ownerless island region, which lies inside the island $\text{Is}(AB)$ of $A\cup B$ but outside $\text{Is}(A)\cup \text{Is}(B)$, plays a crucial role. Remarkably, we find that under different assignments for the ownerless island, we get different BPEs, which exactly correspond to different saddles of the entanglement wedge cross-section (EWCS) in the entanglement wedge of $A\cup B$. The assignments can be settled by choosing the one that minimizes the BPE. Furthermore, under this assignment we study the PEE and give a geometric picture for the PEE in holography, which is consistent with the geometric picture in the no-island phases.
翻訳日:2023-12-07 19:11:53 公開日:2023-12-06
# 対称性破壊の交叉における量子蝶効果

Quantum butterfly effect at the crossroads of symmetry breaking ( http://arxiv.org/abs/2304.14272v4 )

ライセンス: Link先を確認
Pranaya Pratik Das, Biplab Ganguli(参考訳) 数値カオス診断ツール Out-of-Time-Order Correlator (OTOC) を用いた1次元量子力学モデルのカオスに対する対称性の破れの影響を検討した。 従来の研究は、OTOCが局所的な最大値の近傍で指数関数的な成長を示すことを主に示していた。 これが真実であれば、局所的な最大値がシステムから取り除かれると指数的な成長は消える。 しかし、ハミルトニアンへの小さな対称性破れ(摂動)項による局所的な最大値の除去は、OTOCの挙動に大きな影響を与えない。 代わりに、摂動強度の増大により、壊れた対称領域は拡大し、OTOCの指数的な成長は幅広い固有状態にわたって広がる。 我々は様々な可能性を採用し、この行動は普遍的である。 loschmidt echo(le)やspectrum form factor(sff)といった他のカオス診断ツールも使用して確認しています。 本研究は、破壊された対称領域が局所的な最大値ではなく、ミクロカノニカルおよび熱OTOCの指数的な成長に寄与していることを確認する。 言い換えれば、OTOCはハミルトニアンにおける対称性の破れに敏感であり、バタフライ効果と同義であることが多い。

We investigate the effect of symmetry breaking on chaos in one-dimensional quantum mechanical models using the numerical chaos diagnostic tool, Out-of-Time-Order Correlator(OTOC). Previous research has primarily shown that OTOC shows exponential growth in the neighbourhood of a local maximum. If this is true, the exponential growth should disappear once the local maximum is removed from the system. However, we find that removing the local maximum by a small symmetry-breaking(perturbation) term to the Hamiltonian does not drastically affect the behaviour of OTOC. Instead, with the increase of perturbation strength, the broken symmetric region expands, causing the exponential growth of OTOC to spread over a broader range of eigenstates. We adopt various potentials and find this behaviour universal. We also use other chaos diagnostic tools, such as Loschmidt Echo(LE) and spectral form factor(SFF), to confirm this. This study confirms that a broken symmetric region is responsible for the exponential growth of the microcanonical and thermal OTOC rather than the local maximum. In other words, OTOC is sensitive to symmetry breaking in the Hamiltonian, which is often synonymous with the butterfly effect.
翻訳日:2023-12-07 19:11:30 公開日:2023-12-06
# 強化学習によるクォークとレプトンの風味構造探索

Exploring the flavor structure of quarks and leptons with reinforcement learning ( http://arxiv.org/abs/2304.14176v2 )

ライセンス: Link先を確認
Satsuki Nishimura, Coh Miyao, Hajime Otsuka(参考訳) クォークとレプトンの風味構造を強化学習を用いて探索する手法を提案する。 具体的なモデルとして、$U(1)$フレーバー対称性を持つモデルに基本値に基づくアルゴリズムを用いる。 クォークとレプトンの$u(1)$電荷でニューラルネットワークを訓練することで、エージェントは21のモデルが実験的に測定された質量とクォークとレプトンの混合角と一致することを発見した。 特に、正規順序の固有値は、逆順序よりも大きくなりがちであり、正規順序は、逆順序とは対照的に、現在の実験データによく適合する。 フラボンフィールドの角成分によって誘導されるニュートリノレス二重ベータ崩壊に対する有効質量の特定の値と大きなレプトニックCP違反は、エージェントの自律的挙動によって予測される。 以上の結果から,強化学習はフレーバー構造を理解する新しい方法である可能性が示唆された。

We propose a method to explore the flavor structure of quarks and leptons with reinforcement learning. As a concrete model, we utilize a basic value-based algorithm for models with $U(1)$ flavor symmetry. By training neural networks on the $U(1)$ charges of quarks and leptons, the agent finds 21 models to be consistent with experimentally measured masses and mixing angles of quarks and leptons. In particular, an intrinsic value of normal ordering tends to be larger than that of inverted ordering, and the normal ordering is well fitted with the current experimental data in contrast to the inverted ordering. A specific value of effective mass for the neutrinoless double beta decay and a sizable leptonic CP violation induced by an angular component of flavon field are predicted by autonomous behavior of the agent. Our finding results indicate that the reinforcement learning can be a new method for understanding the flavor structure.
翻訳日:2023-12-07 19:11:08 公開日:2023-12-06
# 加速度MRIのためのタスク特化戦略の学習

Learning Task-Specific Strategies for Accelerated MRI ( http://arxiv.org/abs/2304.12507v2 )

ライセンス: Link先を確認
Zihui Wu, Tianwei Yin, Yu Sun, Robert Frost, Andre van der Kouwe, Adrian V. Dalca, Katherine L. Bouman(参考訳) 圧縮型磁気共鳴イメージング(CS-MRI)は、診断タスクのためのサブサンプル計測から視覚情報を回復しようとする。 従来のCS-MRI法は、計測サブサンプリング、画像再構成、タスク予測を別々に扱うことが多く、結果として準最適エンドツーエンドのパフォーマンスが得られる。 本研究では,下流タスクにおけるパフォーマンスのサブサンプリング,再構築,予測戦略を共同で最適化するための統合協調設計フレームワークとして,TACKLEを提案する。 タスク予測モジュールを単に追加し、タスク固有の損失をトレーニングするというna\"iveなアプローチは、サブオプティカルなダウンストリームパフォーマンスをもたらす。 代わりに、バックボーンアーキテクチャは、まず一般的な事前訓練タスク(画像再構成)のために訓練され、次に予測ヘッドで下流タスクのために微調整される訓練手順を開発する。 複数の公開MRIデータセットに対する実験結果から,TACKLEは従来のCS-MRI法よりも様々なタスクにおいて性能が向上していることが示された。 また、TACKLEは、トレーニングデータから異なる取得設定を用いて実験的に収集した新しいデータセットに一般化することを示し、分散シフトに対して堅牢であることを示す。 さらなる微調整がなければ、TACKLEは既存のベースラインに比べて数値と視覚の両方の改善につながる。 さらに,Siemens 3T MRI Skyraスキャナ上で学習した4$\times$-accelerated sequenceを実装した。 335秒を要する全サンプリングスキャンと比較して、最適化されたシーケンスは84秒しかかからず、高い性能を維持しつつ、4倍の時間短縮を実現しています。

Compressed sensing magnetic resonance imaging (CS-MRI) seeks to recover visual information from subsampled measurements for diagnostic tasks. Traditional CS-MRI methods often separately address measurement subsampling, image reconstruction, and task prediction, resulting in a suboptimal end-to-end performance. In this work, we propose TACKLE as a unified co-design framework for jointly optimizing subsampling, reconstruction, and prediction strategies for the performance on downstream tasks. The na\"ive approach of simply appending a task prediction module and training with a task-specific loss leads to suboptimal downstream performance. Instead, we develop a training procedure where a backbone architecture is first trained for a generic pre-training task (image reconstruction in our case), and then fine-tuned for different downstream tasks with a prediction head. Experimental results on multiple public MRI datasets show that TACKLE achieves an improved performance on various tasks over traditional CS-MRI methods. We also demonstrate that TACKLE is robust to distribution shifts by showing that it generalizes to a new dataset we experimentally collected using different acquisition setups from the training data. Without additional fine-tuning, TACKLE leads to both numerical and visual improvements compared to existing baselines. We have further implemented a learned 4$\times$-accelerated sequence on a Siemens 3T MRI Skyra scanner. Compared to the fully-sampling scan that takes 335 seconds, our optimized sequence only takes 84 seconds, achieving a four-fold time reduction as desired, while maintaining high performance.
翻訳日:2023-12-07 19:10:51 公開日:2023-12-06
# ホログラフィック時空における物理コンピュータの制約

Constraints on physical computers in holographic spacetimes ( http://arxiv.org/abs/2304.09900v2 )

ライセンス: Link先を確認
Aleksander M. Kubicki, Alex May and David P\'erez-Garcia(参考訳) AdS/CFT対応の設定の中で、重力の存在下でのコンピュータのパワーについて尋ねる。 エントロピーが$O(2^n)$未満のブラックホール内部では実装できない$n$量子ビット上の計算が存在することを示す。 我々の主張を確立するためには、実行すべきユニタリの入力と記述が大きすぎる限り、ブラックホール内部で発生する計算をプログラマブル量子プロセッサで実装する必要がある、と我々は主張する。 次に、ブラックホール内部で多くのユニタリを実装できないことを示す量子プロセッサのバウンダリを証明し、これらのいくつかは短い記述を持ち、小さなシステムに作用することを示す。 これらの短い記述を持つユニタリは、ブラックホールの内部で計算的に起こることを禁じられなければならない。

Within the setting of the AdS/CFT correspondence, we ask about the power of computers in the presence of gravity. We show that there are computations on $n$ qubits which cannot be implemented inside of black holes with entropy less than $O(2^n)$. To establish our claim, we argue computations happening inside the black hole must be implementable in a programmable quantum processor, so long as the inputs and description of the unitary to be run are not too large. We then prove a bound on quantum processors which shows many unitaries cannot be implemented inside the black hole, and further show some of these have short descriptions and act on small systems. These unitaries with short descriptions must be computationally forbidden from happening inside the black hole.
翻訳日:2023-12-07 19:10:24 公開日:2023-12-06
# カモフラージュの芸術:動物検出とセグメンテーションのための小ショット学習

The Art of Camouflage: Few-shot Learning for Animal Detection and Segmentation ( http://arxiv.org/abs/2304.07444v2 )

ライセンス: Link先を確認
Thanh-Danh Nguyen, Anh-Khoa Nguyen Vu, Nhat-Duy Nguyen, Vinh-Tiep Nguyen, Thanh Duc Ngo, Thanh-Toan Do, Minh-Triet Tran, and Tam V. Nguyen(参考訳) camouflaged object detection and segmentationはコンピュータビジョンにおける新しい挑戦的な研究テーマである。 自然の場面では迷彩動物などの迷彩物のデータが欠落しているという深刻な問題がある。 本稿では,カモフラージュ物体検出とセグメンテーションのためのマイズショット学習の課題について述べる。 この目的のために、ベンチマークのためにまず新しいデータセットであるCAMO-FSを収集します。 次に,画像中の擬似物体を効率的に検出し,分割する手法を提案する。 特に、インスタンス三重項損失とインスタンスメモリストレージを導入します。 提案手法は,新たに収集したデータセットの最先端性能を実現することを実証した。

Camouflaged object detection and segmentation is a new and challenging research topic in computer vision. There is a serious issue of lacking data of camouflaged objects such as camouflaged animals in natural scenes. In this paper, we address the problem of few-shot learning for camouflaged object detection and segmentation. To this end, we first collect a new dataset, CAMO-FS, for the benchmark. We then propose a novel method to efficiently detect and segment the camouflaged objects in the images. In particular, we introduce the instance triplet loss and the instance memory storage. The extensive experiments demonstrated that our proposed method achieves state-of-the-art performance on the newly collected dataset.
翻訳日:2023-12-07 19:10:11 公開日:2023-12-06
# 散逸のないゆらぎ:マイクロカノニカルランジュバンモンテカルロ

Fluctuation without dissipation: Microcanonical Langevin Monte Carlo ( http://arxiv.org/abs/2303.18221v2 )

ライセンス: Link先を確認
Jakob Robnik and Uro\v{s} Seljak(参考訳) ランジュバンモンテカルロのような確率的サンプリングアルゴリズムは、熱浴中の物理系に触発されている。 その平衡分布は、所定の目標分布によって与えられる正準アンサンブルであり、ゆらぎと散逸の定理によって引き起こされるようにバランスをとる必要がある。 一般的な信念とは対照的に、構成空間分布だけでなく、全位相空間分布も正準的である必要があるため、揺らぎ散逸定理は不要であることを示す。 確率微分方程式 (sde) の散逸のない系として, 連続時間マイクロカノニカルランジュバンモンテカルロ (mclmc) を提案する。 対応するフォッカー・プランク方程式を導出し、定常分布が構成空間上の所望の標準分布を持つマイクロカノニカルアンサンブルであることを示す。 MCLMCが非ゼロの確率性に対してエルゴードであることが証明され、滑らかな凸ポテンシャルに対しては、期待値は指数関数的に速く収束する。 さらに、決定論的ドリフトと確率拡散は定常分布を別々に保存する。 この非特異な性質は、ドリフト拡散離散化スキームがバイアスフリーであることを意味するため、実際的な実装では魅力的であり、唯一のバイアスの源は決定論的ダイナミクスの離散化である。 mclmc をラッチ $\phi^4$ モデルに適用し,hamiltonian monte carlo (hmc) は現在,最先端の積分器である。 同じ精度で、MCLMCは8\times8$格子上でHMCの12倍の速度で収束する。 64\times64$の格子では、すでに32倍高速である。 この傾向は、例えば格子量子色力学において特に興味深い大きな格子に持続することが期待されている。

Stochastic sampling algorithms such as Langevin Monte Carlo are inspired by physical systems in a heat bath. Their equilibrium distribution is the canonical ensemble given by a prescribed target distribution, so they must balance fluctuation and dissipation as dictated by the fluctuation-dissipation theorem. In contrast to the common belief, we show that the fluctuation-dissipation theorem is not required because only the configuration space distribution, and not the full phase space distribution, needs to be canonical. We propose a continuous-time Microcanonical Langevin Monte Carlo (MCLMC) as a dissipation-free system of stochastic differential equations (SDE). We derive the corresponding Fokker-Planck equation and show that the stationary distribution is the microcanonical ensemble with the desired canonical distribution on configuration space. We prove that MCLMC is ergodic for any nonzero amount of stochasticity, and for smooth, convex potentials, the expectation values converge exponentially fast. Furthermore, the deterministic drift and the stochastic diffusion separately preserve the stationary distribution. This uncommon property is attractive for practical implementations as it implies that the drift-diffusion discretization schemes are bias-free, so the only source of bias is the discretization of the deterministic dynamics. We applied MCLMC on a lattice $\phi^4$ model, where Hamiltonian Monte Carlo (HMC) is currently the state-of-the-art integrator. For the same accuracy, MCLMC converges 12 times faster than HMC on an $8\times8$ lattice. On a $64\times64$ lattice, it is already 32 times faster. The trend is expected to persist to larger lattices, which are of particular interest, for example, in lattice quantum chromodynamics.
翻訳日:2023-12-07 19:09:58 公開日:2023-12-06
# 人工知能を用いた言語障害の評価 : パラダイムシフト

Assessing Language Disorders using Artificial Intelligence: a Paradigm Shift ( http://arxiv.org/abs/2305.20046v2 )

ライセンス: Link先を確認
Charalambos Themistocleous and Kyrana Tsapkini and Dimitrios Kokkinakis(参考訳) 言語、言語、コミュニケーションの欠陥は、ほとんどの神経変性症候群に存在している。 従来の神経学的評価の一部として、神経認知疾患の早期発見、診断、治療計画、およびモニタリングを可能にする。 それでも、標準的な言語と言語の評価は、臨床医にとって時間とリソースを消費する。 我々は,機械学習手法,自然言語処理,現代人工知能(AI)を言語評価に活用することは,従来の手作業による評価よりも優れていると論じている。 これらの手法を用いて、CLA(Computational Language Assessment)は3つの目標を達成する。 (i)認知症高齢者及び高リスク者における音声・言語・コミュニケーションの神経認知的評価 (ii) リスク・言語障害集団における診断・予後・治療効果の促進及び (iii)幅広い言語から患者を評価することが容易である。 AIモデルを利用することで、CLAは言語症状と神経基盤との関係に関する神経認知理論を通知することができる。 最後に、コミュニケーション障害のある高齢者の予防と治療を最適化する能力を大幅に向上させ、社会的関与によって優雅に老化できるというパラダイムシフトを示唆する。

Speech, language, and communication deficits are present in most neurodegenerative syndromes. They enable the early detection, diagnosis, treatment planning, and monitoring of neurocognitive disease progression as part of traditional neurological assessment. Nevertheless, standard speech and language evaluation is time-consuming and resource-intensive for clinicians. We argue that using machine learning methodologies, natural language processing, and modern artificial intelligence (AI) for Language Assessment is an improvement over conventional manual assessment. Using these methodologies, Computational Language Assessment (CLA) accomplishes three goals: (i) provides a neuro-cognitive evaluation of speech, language, and communication in elderly and high-risk individuals for dementia; (ii) facilitates the diagnosis, prognosis, and therapy efficacy in at-risk and language-impaired populations; and (iii) allows easier extensibility to assess patients from a wide range of languages. By employing AI models, CLA may inform neurocognitive theory on the relationship between language symptoms and their neural bases. Finally, it signals a paradigm shift by significantly advancing our ability to optimize the prevention and treatment of elderly individuals with communication disorders, allowing them to age gracefully with social engagement.
翻訳日:2023-12-07 19:04:12 公開日:2023-12-06
# epistemic graph:ハイブリッド表現学習のためのプラグアンドプレイモジュール

Epistemic Graph: A Plug-And-Play Module For Hybrid Representation Learning ( http://arxiv.org/abs/2305.18731v3 )

ライセンス: Link先を確認
Jin Yuan, Yang Zhang, Yangzhou Du, Zhongchao Shi, Xin Geng, Jianping Fan, Yong Rui(参考訳) 近年、深層モデルは様々な視覚課題で顕著な成功を収めている。 しかし、そのパフォーマンスは大規模なトレーニングデータセットに大きく依存している。 対照的に、人間はハイブリッド学習を示し、クロスドメイン認識のために構造化された知識をシームレスに統合するか、少数の学習のために少量のデータサンプルに依存する。 本研究の目的は,より効果的な表現学習のために,構造化知識とデータサンプルを統合することで,ハイブリッド学習をコンピュータビジョンタスクに拡張することである。 それでもこの拡張は、構造化された知識とデータサンプルから学んだ深い特徴の間に、次元と知識の粒度の両方を包含する大きなギャップがあるため、重大な課題に直面している。 本稿では,新しい認識グラフ層(eglayer)を導入し,深層特徴と構造化ナレッジグラフ間の情報交換を強化し,ハイブリッド学習を可能にした。 EGLayerは局所グラフモジュール,クエリアグリゲーションモデル,およびヒトのてんかん能力をエミュレートする新しい相関アライメント・アライメント・ロス関数を含む3つの主要部分から構成される。 標準的な線形分類器を置き換えるプラグイン・アンド・プレイモジュールとして機能するEGLayerは、ディープモデルの性能を大幅に改善する。 広範囲な実験により、EGLayerはクロスドメイン認識や少数ショット学習のタスクに対する表現学習を大幅に強化でき、知識グラフの可視化はモデルの解釈に役立つことが示されている。

In recent years, deep models have achieved remarkable success in various vision tasks. However, their performance heavily relies on large training datasets. In contrast, humans exhibit hybrid learning, seamlessly integrating structured knowledge for cross-domain recognition or relying on a smaller amount of data samples for few-shot learning. Motivated by this human-like epistemic process, we aim to extend hybrid learning to computer vision tasks by integrating structured knowledge with data samples for more effective representation learning. Nevertheless, this extension faces significant challenges due to the substantial gap between structured knowledge and deep features learned from data samples, encompassing both dimensions and knowledge granularity. In this paper, a novel Epistemic Graph Layer (EGLayer) is introduced to enable hybrid learning, enhancing the exchange of information between deep features and a structured knowledge graph. Our EGLayer is composed of three major parts, including a local graph module, a query aggregation model, and a novel correlation alignment loss function to emulate human epistemic ability. Serving as a plug-and-play module that can replace the standard linear classifier, EGLayer significantly improves the performance of deep models. Extensive experiments demonstrates that EGLayer can greatly enhance representation learning for the tasks of cross-domain recognition and few-shot learning, and the visualization of knowledge graphs can aid in model interpretation.
翻訳日:2023-12-07 19:03:57 公開日:2023-12-06
# 機能学習ネットワークは、現実的なスケールで幅に一貫性がある

Feature-Learning Networks Are Consistent Across Widths At Realistic Scales ( http://arxiv.org/abs/2305.18411v2 )

ライセンス: Link先を確認
Nikhil Vyas, Alexander Atanasov, Blake Bordelon, Depen Morwani, Sabarish Sainathan, Cengiz Pehlevan(参考訳) 様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。 トレーニングの初期段階では、オンラインデータでトレーニングされた広いニューラルネットワークは、同じ損失曲線を持つだけでなく、トレーニングを通じてポイントワイズテスト予測にも同意している。 CIFAR-5mのような単純なタスクでは、これは現実的な幅のネットワークのトレーニングを通して行われる。 また,内部表現,前活性化分布,安定性現象のエッジ,大きな学習速度効果などモデルの構造的性質が広い幅にわたって一致していることが示されている。 これは、現実のモデルに見られる現象が無限幅、特徴学習の限界によって捉えられるという仮説を動機付ける。 難しいタスク(イメージネットや言語モデリングなど)や後のトレーニング時間では、有限幅偏差は体系的に増加する。 2つの異なる効果は、これらの幅の偏差を引き起こす。 まず、ネットワーク出力は、幅に逆らって初期化依存分散スケーリングを持ち、ネットワークをセンシングすることで除去できる。 しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。 これを幅の狭いバイアスと呼ぶ。 この有限幅バイアスの起源に関するスペクトル的な視点で結論付ける。

We study the effect of width on the dynamics of feature-learning neural networks across a variety of architectures and datasets. Early in training, wide neural networks trained on online data have not only identical loss curves but also agree in their point-wise test predictions throughout training. For simple tasks such as CIFAR-5m this holds throughout training for networks of realistic widths. We also show that structural properties of the models, including internal representations, preactivation distributions, edge of stability phenomena, and large learning rate effects are consistent across large widths. This motivates the hypothesis that phenomena seen in realistic models can be captured by infinite-width, feature-learning limits. For harder tasks (such as ImageNet and language modeling), and later training times, finite-width deviations grow systematically. Two distinct effects cause these deviations across widths. First, the network output has initialization-dependent variance scaling inversely with width, which can be removed by ensembling networks. We observe, however, that ensembles of narrower networks perform worse than a single wide network. We call this the bias of narrower width. We conclude with a spectral perspective on the origin of this finite-width bias.
翻訳日:2023-12-07 19:03:33 公開日:2023-12-06
# 密結合型クロスモーダル・プロンプト学習

Deeply Coupled Cross-Modal Prompt Learning ( http://arxiv.org/abs/2305.17903v3 )

ライセンス: Link先を確認
Xuejing Liu, Wei Tang, Jinghui Lu, Rui Zhao, Zhaojun Guo and Fei Tan(参考訳) マルチモーダル基礎モデル(例えばCLIP)の最近の進歩はゼロショットの一般化に優れている。 近年,基礎モデルから下流タスクへの知識伝達に関わるプロンプトチューニングが注目されている。 しかし、モーダル間学習における既存のプロンプトチューニング手法は、言語分岐のみに焦点を当てるか、浅いメカニズムで視覚-言語相互作用を学ぶ。 この文脈では、CLIPに基づくDeeply coupled Cross-modal Prompt Learning (DCP)法を提案する。 DCPは、視覚と言語間の相互作用をCMPA(Cross-Modal Prompt Attention)機構で柔軟に調整し、適切に接続されたマルチヘッドアテンションモジュールを通じて各表現の相互交換を可能にする。 そして、11の画像分類データセットの総合的な数ショット学習実験を行い、ドメインシフトに対する堅牢性も分析する。 徹底した実験的分析は、非常に数ショットの一般化と、十分に実行されたDCPの説得力のあるドメイン適応能力を示す。 コードはhttps://github.com/GingL/CMPAで見ることができる。

Recent advancements in multimodal foundation models (e.g., CLIP) have excelled in zero-shot generalization. Prompt tuning involved in the knowledge transfer from foundation models to downstream tasks has gained significant attention recently. Existing prompt-tuning methods in cross-modal learning, however, either solely focus on language branch, or learn vision-language interaction in a shallow mechanism. In this context, we propose a Deeply coupled Cross-modal Prompt learning (DCP) method based on CLIP. DCP flexibly accommodates the interplay between vision and language with a Cross-Modal Prompt Attention (CMPA) mechanism, which enables the mutual exchange of respective representation through a well-connected multi-head attention module progressively and strongly. We then conduct comprehensive few-shot learning experiments on 11 image classification datasets and analyze the robustness to domain shift as well. Thorough experimental analysis evidently demonstrates the superb few-shot generalization and compelling domain adaption capacity of a well-executed DCP. The code can be found at https://github.com/GingL/CMPA.
翻訳日:2023-12-07 19:03:10 公開日:2023-12-06
# SwiftSage: 複雑なインタラクティブタスクのための高速かつスロー思考を備えた生成エージェント

SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks ( http://arxiv.org/abs/2305.17390v2 )

ライセンス: Link先を確認
Bill Yuchen Lin, Yicheng Fu, Karina Yang, Faeze Brahman, Shiyu Huang, Chandra Bhagavatula, Prithviraj Ammanabrolu, Yejin Choi, Xiang Ren(参考訳) 複雑な対話的推論タスクの行動計画において優れた能力を持つように設計された,人間認知のデュアルプロセス理論に触発された新しいエージェントフレームワークであるswiftsageを紹介する。 SwiftSageは、振る舞いのクローン化と大きな言語モデル(LLM)の長所を統合して、タスク完了のパフォーマンスを向上する。 フレームワークは、高速で直感的な思考を表すSwiftモジュールと、意図的な思考プロセスをエミュレートするSageモジュールの2つの主要なモジュールで構成されている。 Swiftモジュールは、オラクルエージェントのアクショントラジェクトリを微調整した小さなエンコーダ-デコーダ LM であり、Sageモジュールはサブゴール計画とグラウンドニングに GPT-4 などの LLM を使用している。 2つのモジュールを調和的に統合するヒューリスティックな手法を開発し,より効率的でロバストな問題解決プロセスを実現する。 ScienceWorldベンチマークの30のタスクにおいて、SwiftSageはSayCan、ReAct、Reflexionといった他のメソッドよりも大幅に優れており、複雑なインタラクティブタスクの解決におけるその効果を示している。

We introduce SwiftSage, a novel agent framework inspired by the dual-process theory of human cognition, designed to excel in action planning for complex interactive reasoning tasks. SwiftSage integrates the strengths of behavior cloning and prompting large language models (LLMs) to enhance task completion performance. The framework comprises two primary modules: the Swift module, representing fast and intuitive thinking, and the Sage module, emulating deliberate thought processes. The Swift module is a small encoder-decoder LM fine-tuned on the oracle agent's action trajectories, while the Sage module employs LLMs such as GPT-4 for subgoal planning and grounding. We develop a heuristic method to harmoniously integrate the two modules, resulting in a more efficient and robust problem-solving process. In 30 tasks from the ScienceWorld benchmark, SwiftSage significantly outperforms other methods such as SayCan, ReAct, and Reflexion, demonstrating its effectiveness in solving complex interactive tasks.
翻訳日:2023-12-07 19:02:52 公開日:2023-12-06
# コヒーレントなソフト模倣学習

Coherent Soft Imitation Learning ( http://arxiv.org/abs/2305.16498v3 )

ライセンス: Link先を確認
Joe Watson, Sandy H. Huang, Nicolas Heess(参考訳) 模倣学習法は、政策の行動クローニング(bc)または報酬の逆強化学習(irl)を通して専門家から学ぶことを求める。 このような方法でエージェントは、手作りの報酬機能でキャプチャが難しい人間から複雑なタスクを学習することができる。 BC または IRL の模倣の選択は、デモの質と状態対応のカバレッジと、マルコフの決定プロセスへの追加アクセスに依存する。 bcとirlを組み合わせたハイブリッド戦略は一般的ではなく、不正確な報酬に対する初期政策最適化は、bcによる政策の事前訓練の利点を減少させる。 この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。 エントロピー正規化(ソフト)強化学習設定では、正規化ポリシー更新を反転させることで、行動制限されたポリシーを形見賞と批判的仮説空間の両方として使用できることを示す。 このコヒーレンシーは、報酬推定と環境とのさらなる相互作用を用いて、微調整されたクローンポリシーを促進する。 このアプローチは、初期動作のクローン化を通じて模倣学習を便利に達成し、続いてオンラインまたはオフラインのデータソースによるRLによる改善を行う。 このアプローチの単純さは、敵対的なアプローチとは対照的に、安定した学習と最小限のハイパーパラメータチューニングによって、高次元および視覚ベースのタスクへの優雅なスケーリングを可能にする。 オープンソース実装とシミュレーションの結果については、https://joemwatson.github.io/csil/を参照。

Imitation learning methods seek to learn from an expert either through behavioral cloning (BC) of the policy or inverse reinforcement learning (IRL) of the reward. Such methods enable agents to learn complex tasks from humans that are difficult to capture with hand-designed reward functions. Choosing BC or IRL for imitation depends on the quality and state-action coverage of the demonstrations, as well as additional access to the Markov decision process. Hybrid strategies that combine BC and IRL are not common, as initial policy optimization against inaccurate rewards diminishes the benefit of pretraining the policy with BC. This work derives an imitation method that captures the strengths of both BC and IRL. In the entropy-regularized ('soft') reinforcement learning setting, we show that the behaviour-cloned policy can be used as both a shaped reward and a critic hypothesis space by inverting the regularized policy update. This coherency facilitates fine-tuning cloned policies using the reward estimate and additional interactions with the environment. This approach conveniently achieves imitation learning through initial behaviour cloning, followed by refinement via RL with online or offline data sources. The simplicity of the approach enables graceful scaling to high-dimensional and vision-based tasks, with stable learning and minimal hyperparameter tuning, in contrast to adversarial approaches. For the open-source implementation and simulation results, see https://joemwatson.github.io/csil/.
翻訳日:2023-12-07 19:02:17 公開日:2023-12-06
# resync:リーマン部分次数に基づくロバスト回転同期

ReSync: Riemannian Subgradient-based Robust Rotation Synchronization ( http://arxiv.org/abs/2305.15136v2 )

ライセンス: Link先を確認
Huikang Liu, Xiao Li, Anthony Man-Cho So(参考訳) この研究は、様々な工学的応用で生じるロバストな回転同期問題を解くためのリーマン次数に基づくアルゴリズムであるReSyncを提示する。 resyncは、非滑らかかつ非凸な回転群上の最小二乗最小化公式を解き、基礎となる回転を直接回復することを目指している。 ランダムな汚職条件下では、ReSyncの強力な理論的保証を提供する。 具体的には、まず、ReSyncの初期化手順が、地軸回転の周囲の局所領域に存在する適切な初期点をもたらすことを示す。 次に、上記の定式化の弱いシャープネス特性を確立し、この特性を利用して、接地対地回転に対する再同期の局所線形収束を導出する。 これらの保証を組み合わせることで、ReSyncは適切な条件下での地絡回転に線形に収束する。 実験結果は再同期の有効性を示す。

This work presents ReSync, a Riemannian subgradient-based algorithm for solving the robust rotation synchronization problem, which arises in various engineering applications. ReSync solves a least-unsquared minimization formulation over the rotation group, which is nonsmooth and nonconvex, and aims at recovering the underlying rotations directly. We provide strong theoretical guarantees for ReSync under the random corruption setting. Specifically, we first show that the initialization procedure of ReSync yields a proper initial point that lies in a local region around the ground-truth rotations. We next establish the weak sharpness property of the aforementioned formulation and then utilize this property to derive the local linear convergence of ReSync to the ground-truth rotations. By combining these guarantees, we conclude that ReSync converges linearly to the ground-truth rotations under appropriate conditions. Experiment results demonstrate the effectiveness of ReSync.
翻訳日:2023-12-07 19:01:37 公開日:2023-12-06
# 推論時間ポリシーアダプタ(ipa) : 微調整なしで超大規模lmsを調整

Inference-Time Policy Adapters (IPA): Tailoring Extreme-Scale LMs without Fine-tuning ( http://arxiv.org/abs/2305.15065v2 )

ライセンス: Link先を確認
Ximing Lu, Faeze Brahman, Peter West, Jaehun Jang, Khyathi Chandu, Abhilasha Ravichander, Lianhui Qin, Prithviraj Ammanabrolu, Liwei Jiang, Sahana Ramnath, Nouha Dziri, Jillian Fisher, Bill Yuchen Lin, Skyler Hallinan, Xiang Ren, Sean Welleck, Yejin Choi(参考訳) 極端な言語モデルは様々な言語タスクにおいて例外的な性能を示したが、純粋なプロンプトによるこれらの言語モデルの制御の程度は制限されることが多い。 このような言語モデルを直接微調整することは、それらを調整するのに効果的であるが、非常にコストがかかる(gpt-3など)か、より広いコミュニティ(gpt-4など)で実現できない。 本稿では、gpt-3などの言語モデルを微調整することなく効率的に調整する推論時間ポリシーアダプタ(ipa)を提案する。 IPAは、拡張学習で任意のユーザ目標を最適化するために訓練された軽量ポリシーアダプタを通じて、デコーディング時間中に大きなベースモデルをガイドする。 毒性の低減や語彙的に制約された生成といった5つの困難なテキスト生成タスクにおいて、IPAは、既製の言語モデルよりも大幅に改善されている。 競争力のあるベースライン法よりも優れており、時には高価な微調整も行う。 特に、GPT-2をIPAで調整することはGPT-3より優れているが、GPT-3をIPAで調整することは、GPT-3よりも大きなパフォーマンス向上をもたらす。 我々の有望な結果は、極規模の言語モデルをカスタマイズする軽量な代替手段としてのIPAの可能性を強調します。

While extreme-scale language models have demonstrated exceptional performance on a variety of language tasks, the degree of control over these language models through pure prompting can often be limited. Directly fine-tuning such language models can be effective for tailoring them, but it can be either extremely costly (e.g., GPT-3) or not even feasible for the broader community (e.g., GPT-4). We propose Inference-time Policy Adapters (IPA), which efficiently tailors a language model such as GPT-3 without fine-tuning it. IPA guides a large base model during decoding time through a lightweight policy adapter trained to optimize an arbitrary user objective with reinforcement learning. On five challenging text generation tasks, such as toxicity reduction and lexically constrained generation, IPA consistently brings significant improvements over off-the-shelf language models. It outperforms competitive baseline methods, sometimes even including expensive fine-tuning. In particular, tailoring GPT-2 with IPA can outperform GPT-3, while tailoring GPT-3 with IPA brings a major performance boost over GPT-3 (and sometimes even over GPT-4). Our promising results highlight the potential of IPA as a lightweight alternative to tailoring extreme-scale language models.
翻訳日:2023-12-07 19:01:23 公開日:2023-12-06
# AlpacaFarm:人間のフィードバックから学ぶ方法のシミュレーションフレームワーク

AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback ( http://arxiv.org/abs/2305.14387v3 )

ライセンス: Link先を確認
Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto(参考訳) ChatGPTのような大規模言語モデル(LLM)は、ユーザ命令をうまく従えるため、広く採用されている。 これらのLLMの開発には、人間のフィードバックによるトレーニングを必要とする複雑なワークフローが伴う。 この命令追跡プロセスの複製と理解には、データ収集の高コスト、信頼できる評価の欠如、参照メソッドの実装の欠如という3つの大きな課題がある。 低コストでフィードバックから学ぶための研究と開発を可能にするシミュレータAlpacaFarmでこれらの課題に対処する。 まず、群衆労働者よりも45倍安い人間のフィードバックをシミュレートし、人間と高い合意を示すllmプロンプトをデザインする。 第2に,実世界インタラクションで得られたヒューマンインストラクションに対して,自動評価を行い,検証する。 第3に、ペアのフィードバックから学ぶいくつかのメソッド(PPO、DPO、ベストプラクティス、専門家のイテレーションなど)の参照実装にコントリビュートする。 最後に、AlpacaFarmのエンドツーエンド検証として、実際の10k対のフィードバックに対して11のモデルをトレーニングし、評価し、AlpacaFarmでトレーニングされたモデルのランキングが、人間のデータに基づいてトレーニングされたモデルのランキングと一致することを示す。 AlpacaFarmで可能な研究の実証として、報酬モデルを用いた手法は教師付き微調整よりも大幅に改善され、我々の参照PPO実装はDavinci003に対する勝利率を+10%向上させることがわかった。 https://github.com/tatsu-lab/alpaca_farm.com/alpacaFarmのすべてのコンポーネントをリリースします。

Large language models (LLMs) such as ChatGPT have seen widespread adoption due to their ability to follow user instructions well. Developing these LLMs involves a complex yet poorly understood workflow requiring training with human feedback. Replicating and understanding this instruction-following process faces three major challenges: the high cost of data collection, the lack of trustworthy evaluation, and the absence of reference method implementations. We address these challenges with AlpacaFarm, a simulator that enables research and development for learning from feedback at a low cost. First, we design LLM prompts to simulate human feedback that are 45x cheaper than crowdworkers and display high agreement with humans. Second, we propose an automatic evaluation and validate it against human instructions obtained on real-world interactions. Third, we contribute reference implementations for several methods (PPO, DPO, best-of-n, expert iteration, and more) that learn from pairwise feedback. Finally, as an end-to-end validation of AlpacaFarm, we train and evaluate eleven models on 10k pairs of real human feedback and show that rankings of models trained in AlpacaFarm match rankings of models trained on human data. As a demonstration of the research possible in AlpacaFarm, we find that methods that use a reward model can substantially improve over supervised fine-tuning and that our reference PPO implementation leads to a +10% improvement in win-rate against Davinci003. We release all components of AlpacaFarm at https://github.com/tatsu-lab/alpaca_farm.
翻訳日:2023-12-07 18:59:13 公開日:2023-12-06
# 視覚変換器を用いたrgb-d意味セグメンテーションのためのソースフリー領域適応

Source-Free Domain Adaptation for RGB-D Semantic Segmentation with Vision Transformers ( http://arxiv.org/abs/2305.14269v2 )

ライセンス: Link先を確認
Giulia Rizzoli, Donald Shenaj, Pietro Zanuttigh(参考訳) 深度センサの普及に伴い、色情報と深度データを組み合わせたマルチモーダルフレームワークが注目されている。 しかし、セマンティックセグメンテーションのための基礎的真理データは提供しづらいため、ドメイン適応は重要な研究領域となる。 しかし、ほとんどのドメイン適応法はマルチモーダルデータを効果的に扱えない。 具体的には、ソースデータを再利用せずに適応を行う難易度の高いソースフリードメイン適応設定に対処する。 マルチモーダル・ソースフリー情報融合トランスフォーマティブ (multimodal source-free information fusion transformer) は、視覚トランスフォーマ (vision transformers) に基づくセグメント化モジュールに、入力、特徴、出力レベルといった複数の段階で深度データを注入する深さ認識フレームワークである。 色と深さのスタイルの転送は、初期ドメインのアライメントに役立ち、モダリティ間の自己アテンションを再接続することで、より優れたセマンティックコンテンツを取り出すことができる。 さらに,異なる距離での適応的な重み付け領域に対して,深さに基づくエントロピー最小化戦略も提案されている。 我々のフレームワークは、RGB-D視覚変換器をソースフリーセマンティックセグメンテーションに利用する最初のアプローチであり、標準戦略に対する顕著な性能改善を示す。

With the increasing availability of depth sensors, multimodal frameworks that combine color information with depth data are gaining interest. However, ground truth data for semantic segmentation is burdensome to provide, thus making domain adaptation a significant research area. Yet most domain adaptation methods are not able to effectively handle multimodal data. Specifically, we address the challenging source-free domain adaptation setting where the adaptation is performed without reusing source data. We propose MISFIT: MultImodal Source-Free Information fusion Transformer, a depth-aware framework which injects depth data into a segmentation module based on vision transformers at multiple stages, namely at the input, feature and output levels. Color and depth style transfer helps early-stage domain alignment while re-wiring self-attention between modalities creates mixed features, allowing the extraction of better semantic content. Furthermore, a depth-based entropy minimization strategy is also proposed to adaptively weight regions at different distances. Our framework, which is also the first approach using RGB-D vision transformers for source-free semantic segmentation, shows noticeable performance improvements with respect to standard strategies.
翻訳日:2023-12-07 18:58:45 公開日:2023-12-06
# 物語における共感的類似性のモデル化

Modeling Empathic Similarity in Personal Narratives ( http://arxiv.org/abs/2305.14246v2 )

ライセンス: Link先を確認
Jocelyn Shen, Maarten Sap, Pedro Colon-Hernandez, Hae Won Park, Cynthia Breazeal(参考訳) 人々間の最も意味のあるつながりは、個人的な物語の中で共通の脆弱性や感情的な経験を表現することによって育まれることが多い。 本研究は,nlpで主に研究されているような意味的・語彙的類似性とは対照的に,共感的共鳴(empathic resonance)に基づく個人的物語における類似性,すなわち2人がお互いの経験に共感する程度を識別する新たな課題を提案する。 社会心理学からの洞察を用いて、主要な出来事、感情的軌道、全体的モラルまたはテイクアウトの3つの主要な特徴の観点から共感的類似性を運用する枠組みを構築する。 EmpathicStoriesは、1500の個人ストーリーに共感的類似性の特徴を付加したデータセットで、2000のストーリーに共感的類似性スコアを付加した。 我々のデータセットを用いて、ストーリーペアの共感的類似性を計算するためのモデルを微調整し、自動相関と検索メトリクスのセマンティック類似性モデルより優れていることを示す。 また,150名を対象に行ったユーザ調査の結果から,ユーザが共感するストーリの検索に対する効果を,意味的類似性に基づくナイーブな検索と比較して評価し,モデルによって検索されたストーリーに対して参加者が有意に共感していることを確認した。 私たちの研究は、人間間のつながりと共感を促進するために共感認識モデルを使うことに強い意味を持っています。

The most meaningful connections between people are often fostered through expression of shared vulnerability and emotional experiences in personal narratives. We introduce a new task of identifying similarity in personal stories based on empathic resonance, i.e., the extent to which two people empathize with each others' experiences, as opposed to raw semantic or lexical similarity, as has predominantly been studied in NLP. Using insights from social psychology, we craft a framework that operationalizes empathic similarity in terms of three key features of stories: main events, emotional trajectories, and overall morals or takeaways. We create EmpathicStories, a dataset of 1,500 personal stories annotated with our empathic similarity features, and 2,000 pairs of stories annotated with empathic similarity scores. Using our dataset, we fine-tune a model to compute empathic similarity of story pairs, and show that this outperforms semantic similarity models on automated correlation and retrieval metrics. Through a user study with 150 participants, we also assess the effect our model has on retrieving stories that users empathize with, compared to naive semantic similarity-based retrieval, and find that participants empathized significantly more with stories retrieved by our model. Our work has strong implications for the use of empathy-aware models to foster human connection and empathy between people.
翻訳日:2023-12-07 18:58:23 公開日:2023-12-06
# 予測補正によるスコアベース拡散モデルの収束性の向上

Improved Convergence of Score-Based Diffusion Models via Prediction-Correction ( http://arxiv.org/abs/2305.14164v2 )

ライセンス: Link先を確認
Francesco Pedrotti, Jan Maas, Marco Mondelli(参考訳) スコアベース生成モデル(SGM)は、複雑なデータ分布からサンプリングする強力なツールである。 その根底にある考え方は (i)データにノイズを加えることで、時間$T_1$のフォワードプロセスを実行する。 (ii)スコア関数を推定し、 (iii)そのような推定を用いて逆プロセスを実行する。 逆プロセスはフォワードの定常分布で初期化されるので、既存の分析パラダイムは$t_1\to\infty$を必要とする。 理論的には、スコア近似の所定の精度について、収束保証は$T_1$が分岐すると失敗し、実際的な観点からは、大きな$T_1$が計算コストを増大させ、エラーの伝播をもたらす。 本稿では,一般的な予測器-補正スキームのバージョンを考えることでこの問題に対処した。前方プロセスを実行した後,まず不正確なランジュバンダイナミクスを用いて最終分布を推定し,その後プロセスを反転させる。 我々の重要な技術的貢献は、一定の有限時間$T_1$でのみフォワードプロセスを実行する必要がある収束保証を提供することです。 我々の境界線は、入力次元とターゲット分布の準ガウスノルムに緩やかな対数依存を示し、データに最小の仮定を持ち、実際に最小化された量であるスコア近似の損失をL^2$制御することしか必要としない。

Score-based generative models (SGMs) are powerful tools to sample from complex data distributions. Their underlying idea is to (i) run a forward process for time $T_1$ by adding noise to the data, (ii) estimate its score function, and (iii) use such estimate to run a reverse process. As the reverse process is initialized with the stationary distribution of the forward one, the existing analysis paradigm requires $T_1\to\infty$. This is however problematic: from a theoretical viewpoint, for a given precision of the score approximation, the convergence guarantee fails as $T_1$ diverges; from a practical viewpoint, a large $T_1$ increases computational costs and leads to error propagation. This paper addresses the issue by considering a version of the popular predictor-corrector scheme: after running the forward process, we first estimate the final distribution via an inexact Langevin dynamics and then revert the process. Our key technical contribution is to provide convergence guarantees which require to run the forward process only for a fixed finite time $T_1$. Our bounds exhibit a mild logarithmic dependence on the input dimension and the subgaussian norm of the target distribution, have minimal assumptions on the data, and require only to control the $L^2$ loss on the score approximation, which is the quantity minimized in practice.
翻訳日:2023-12-07 18:58:00 公開日:2023-12-06
# mme:マルチモーダル大規模言語モデルのための総合評価ベンチマーク

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models ( http://arxiv.org/abs/2306.13394v3 )

ライセンス: Link先を確認
Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, Yunsheng Wu, Rongrong Ji(参考訳) MLLM(Multimodal Large Language Model)は、マルチモーダルなタスクを実行するための強力なLLMに依存しており、画像に基づいた詩を書くなど、近年の研究において驚くべき創発的な能力を示している。 しかし、これらのケーススタディは、総合的な評価を欠いて、MLLMの性能を完全に反映することは困難である。 本稿では、この空白を埋め、最初の総合的mllm評価ベンチマークmmeを提示する。 知覚能力と認知能力の両方を合計14のサブタスクで測定する。 評価に公開データセットを直接使用することから生じるデータ漏洩を避けるため、インストラクション・アンサーペアのアノテーションはすべて手動で設計されている。 簡潔な命令設計により、迅速なエンジニアリングに苦しむのではなく、MLLMを適切に比較することができる。 また、このような指示により、量的統計も容易に行うことができる。 既存のMLLMには改善の余地がまだ大きいだけでなく,その後のモデル最適化の可能性も明らかにしている。

Multimodal Large Language Model (MLLM) relies on the powerful LLM to perform multimodal tasks, showing amazing emergent abilities in recent studies, such as writing poems based on an image. However, it is difficult for these case studies to fully reflect the performance of MLLM, lacking a comprehensive evaluation. In this paper, we fill in this blank, presenting the first comprehensive MLLM Evaluation benchmark MME. It measures both perception and cognition abilities on a total of 14 subtasks. In order to avoid data leakage that may arise from direct use of public datasets for evaluation, the annotations of instruction-answer pairs are all manually designed. The concise instruction design allows us to fairly compare MLLMs, instead of struggling in prompt engineering. Besides, with such an instruction, we can also easily carry out quantitative statistics. A total of 30 advanced MLLMs are comprehensively evaluated on our MME, which not only suggests that existing MLLMs still have a large room for improvement, but also reveals the potential directions for the subsequent model optimization.
翻訳日:2023-12-07 18:51:24 公開日:2023-12-06
# プログラミング教育のための自動採点とフィードバックツール:体系的レビュー

Automated Grading and Feedback Tools for Programming Education: A Systematic Review ( http://arxiv.org/abs/2306.11722v2 )

ライセンス: Link先を確認
Marcus Messer, Neil C. C. Brown, Michael K\"olling, Miaojing Shi(参考訳) プログラミング教育のための自動採点およびフィードバックツールに関する体系的文献レビューを行った。 2017年から2021年にかけて121の研究論文を分析し,スキル評価,アプローチ,言語パラダイム,自動化度,評価技術に基づいて分類した。 ほとんどの論文はオブジェクト指向言語における代入の正確性を評価する。 典型的には、これらのツールは、主に単体テストという動的なテクニックを使用して、学生に成績とフィードバックを提供し、静的解析技術を使用して、提案を参照ソリューションまたは正しい学生の提出セットと比較する。 しかしながら、これらのテクニックのフィードバックは、ユニットテストがパスしたか失敗したか、期待された、実際のアウトプット、あるいは参照ソリューションとどのように違うかに制限されることが多い。 さらに、ソースコードの保守性、可読性、ドキュメンテーションを評価するツールも少なく、コード品質メトリクスなどの静的解析技術や、正確性を格付けするツールもほとんどない。 さらに、ほとんどのツールが、ほぼ瞬時にフィードバックと複数の再提出を可能にする完全自動評価を提供しており、学生の満足度を高め、成功の機会を多く提供できることがわかった。 ツールのパフォーマンスを評価する技術に関して、ほとんどの論文は、主に学生のサーベイを使用しており、自動評価ツールを人間のグッズやフィードバックと比較している。 しかし、評価データセットは頻繁に利用できないため、結果を再現し、ツールを共通の課題の集合と比較することは困難である。

We conducted a systematic literature review on automated grading and feedback tools for programming education. We analysed 121 research papers from 2017 to 2021 inclusive and categorised them based on skills assessed, approach, language paradigm, degree of automation and evaluation techniques. Most papers assess the correctness of assignments in object-oriented languages. Typically, these tools use a dynamic technique, primarily unit testing, to provide grades and feedback to the students or static analysis techniques to compare a submission with a reference solution or with a set of correct student submissions. However, these techniques' feedback is often limited to whether the unit tests have passed or failed, the expected and actual output, or how they differ from the reference solution. Furthermore, few tools assess the maintainability, readability or documentation of the source code, with most using static analysis techniques, such as code quality metrics, in conjunction with grading correctness. Additionally, we found that most tools offered fully automated assessment to allow for near-instantaneous feedback and multiple resubmissions, which can increase student satisfaction and provide them with more opportunities to succeed. In terms of techniques used to evaluate the tools' performance, most papers primarily use student surveys or compare the automatic assessment tools to grades or feedback provided by human graders. However, because the evaluation dataset is frequently unavailable, it is more difficult to reproduce results and compare tools to a collection of common assignments.
翻訳日:2023-12-07 18:50:45 公開日:2023-12-06
# 大規模言語モデルによるクリックベイト検出

Clickbait Detection via Large Language Models ( http://arxiv.org/abs/2306.09597v3 )

ライセンス: Link先を確認
Han Wang, Yi Zhu, Ye Wang, Yun Li, Yunhao Yuan, Jipeng Qiang(参考訳) clickbaitは、ニュースポータルやソーシャルメディアなど、ほぼすべてのオンラインコンテンツパブリッシャーに浸透している。 近年、Large Language Models (LLM) は強力な道具として登場し、一連のNLP下流タスクで大きな成功を収めている。 しかし,LLMが高品質なクリックベイト検出システムとして機能するかどうかは不明である。 本稿では,英語と中国語のベンチマークデータセットを用いて,数ショット,ゼロショットのシナリオにおけるLLMの性能を解析する。 実験結果から, LLM は最先端の深部・微調整 PLM 法に比べ, 最高の結果が得られないことがわかった。 人間の直感と異なり、実験では、llmは見出しだけではクリックベイトの検出を満足できないことを示した。

Clickbait, which aims to induce users with some surprising and even thrilling headlines for increasing click-through rates, permeates almost all online content publishers, such as news portals and social media. Recently, Large Language Models (LLMs) have emerged as a powerful instrument and achieved tremendous success in a series of NLP downstream tasks. However, it is not yet known whether LLMs can be served as a high-quality clickbait detection system. In this paper, we analyze the performance of LLMs in the few-shot and zero-shot scenarios on several English and Chinese benchmark datasets. Experimental results show that LLMs cannot achieve the best results compared to the state-of-the-art deep and fine-tuning PLMs methods. Different from human intuition, the experiments demonstrated that LLMs cannot make satisfied clickbait detection just by the headlines.
翻訳日:2023-12-07 18:50:05 公開日:2023-12-06
# $\textbf{A}^2\textbf{CiD}^2$:分散ディープラーニングにおける非同期通信の高速化

$\textbf{A}^2\textbf{CiD}^2$: Accelerating Asynchronous Communication in Decentralized Deep Learning ( http://arxiv.org/abs/2306.08289v2 )

ライセンス: Link先を確認
Adel Nabli (MLIA, Mila), Eugene Belilovsky (Mila), Edouard Oyallon (MLIA)(参考訳) ディープラーニングモデルの分散トレーニングは、この分野における多くの成功に不可欠である。 現在の標準手法は主に同期集中型アルゴリズムに依存しており、大規模な通信ボトルネックや同期ロックを引き起こす。 分散非同期アルゴリズムは潜在的な代替手段として登場しているが、実用性はまだ遅れている。 作業者数の増加に伴う通信コストの増大を緩和するために,規則付き非同期,ランダム化,ゴシップに基づく最適化アルゴリズムを導入して,$\textbf{a}^2\textbf{cid}^2$ という連続的な局所運動量を活用する。 本手法では,各作業者が停止することなく連続的にミニバッチを処理し,ピアツーピア平均化ルーチンを並列に実行し,アイドル時間を短縮する。 局所運動量変数の追加以外のコストなしで重要な通信加速を誘導するのに加えて、標準非同期アプローチに$\textbf{a}^2\textbf{cid}^2$を組み込むために最小限の適応が必要である。 我々の理論解析は、以前の非同期分散ベースラインと比較して加速速度を証明し、我々の$\textbf{A}^2\textbf{CiD}^2$運動量を用いることで、低接続ネットワークにおける通信コストを著しく減少させることを示した。 特に,最大64個の非同期ワーカ(a100 gpu)と各種通信ネットワークトポロジを用いたimagenetデータセットの一貫性向上を示す。

Distributed training of Deep Learning models has been critical to many recent successes in the field. Current standard methods primarily rely on synchronous centralized algorithms which induce major communication bottlenecks and synchronization locks at scale. Decentralized asynchronous algorithms are emerging as a potential alternative but their practical applicability still lags. In order to mitigate the increase in communication cost that naturally comes with scaling the number of workers, we introduce a principled asynchronous, randomized, gossip-based optimization algorithm which works thanks to a continuous local momentum named $\textbf{A}^2\textbf{CiD}^2$. Our method allows each worker to continuously process mini-batches without stopping, and run a peer-to-peer averaging routine in parallel, reducing idle time. In addition to inducing a significant communication acceleration at no cost other than adding a local momentum variable, minimal adaptation is required to incorporate $\textbf{A}^2\textbf{CiD}^2$ to standard asynchronous approaches. Our theoretical analysis proves accelerated rates compared to previous asynchronous decentralized baselines and we empirically show that using our $\textbf{A}^2\textbf{CiD}^2$ momentum significantly decrease communication costs in poorly connected networks. In particular, we show consistent improvement on the ImageNet dataset using up to 64 asynchronous workers (A100 GPUs) and various communication network topologies.
翻訳日:2023-12-07 18:49:48 公開日:2023-12-06
# 大方向グラフのためのシンプルでスケーラブルなグラフニューラルネットワーク

A Simple and Scalable Graph Neural Network for Large Directed Graphs ( http://arxiv.org/abs/2306.08274v2 )

ライセンス: Link先を確認
Seiji Maekawa, Yuya Sasaki, Makoto Onizuka(参考訳) ノード分類は、グラフ分析で最もホットなタスクの1つです。 既存の研究は有向グラフと無向グラフで様々なノード表現を探索しているが、グラフの情報を取り込む能力の区別を見落としている。 この制限に対処するために,入力グラフ内のノード表現(アグリゲーション特徴と隣接リスト)とエッジ方向認識(指向性と非指向性)の様々な組み合わせについて検討する。 本研究は,ノード表現とエッジ方向認識を併用した各種GNNの性能のベンチマークを行うための実証的研究である。 実験の結果,データセット間で,どの組み合わせも安定して最先端の結果が得られず,データセットの特性に応じて適切な組み合わせを選択する必要があることが示された。 そこで本研究では,有向グラフと無向グラフのすべてのノード表現の組み合わせを活用する,単純かつ総括的な分類法a2dugを提案する。 a2dugは様々なデータセットで安定して動作し、最先端の手法と比較して11.29まで精度が向上する。 新しいメソッドの開発を促進するため、MITライセンスの下で完全なコードベースを公開しています。

Node classification is one of the hottest tasks in graph analysis. Though existing studies have explored various node representations in directed and undirected graphs, they have overlooked the distinctions of their capabilities to capture the information of graphs. To tackle the limitation, we investigate various combinations of node representations (aggregated features vs. adjacency lists) and edge direction awareness within an input graph (directed vs. undirected). We address the first empirical study to benchmark the performance of various GNNs that use either combination of node representations and edge direction awareness. Our experiments demonstrate that no single combination stably achieves state-of-the-art results across datasets, which indicates that we need to select appropriate combinations depending on the dataset characteristics. In response, we propose a simple yet holistic classification method A2DUG which leverages all combinations of node representations in directed and undirected graphs. We demonstrate that A2DUG stably performs well on various datasets and improves the accuracy up to 11.29 compared with the state-of-the-art methods. To spur the development of new methods, we publicly release our complete codebase under the MIT license.
翻訳日:2023-12-07 18:49:18 公開日:2023-12-06
# 視覚言語事前学習のためのグローバル・ローカルセマンティクス補完学習

Global and Local Semantic Completion Learning for Vision-Language Pre-training ( http://arxiv.org/abs/2306.07096v2 )

ライセンス: Link先を確認
Rong-Cheng Tu, Yatai Ji, Jie Jiang, Weijie Kong, Chengfei Cai, Wenzhe Zhao, Hongfa Wang, Yujiu Yang, and Wei Liu(参考訳) クロスモーダルアライメントは視覚言語事前学習(VLP)モデルにおいて重要な役割を担い、異なるモダリティ間で有意義な関連を捉えることができる。 この目的のために、VLPはモーダル間相互作用をさらに促進するために多くのマスク付きモデリングタスクが提案されている。 以前のマスクモデリングタスクの核となるアイデアは、ローカル-ローカルアライメントを学ぶために、可視化されたコンテキストに基づいてマスクトークンを再構築することである。 しかし、そのほとんどはマスクされたデータのために生成されたグローバルセマンティック機能にほとんど注意を払わず、その結果、他のモダリティの局所的な特徴に対するグローバル表現のクロスモーダルアライメント能力が制限された。 そこで本稿では,グローバルなアライメントとローカルなアライメントを同時に実現するための,グローバルおよびローカルなセマンティックコンプリート学習(GLSCL)タスクを提案する。 特に、glsclタスクはマスクデータの欠落したセマンティクスを補完し、クロスモーダルインタラクションによってグローバルおよびローカルな特徴を回復する。 GLSCLは,マスク付きグローバルセマンティックコンプリート(MGSC)とマスク付きローカルトークンコンプリート(MLTC)から構成される。 MGSCは、下流タスクのパフォーマンスに大きな影響を与える、より代表的なグローバルな特徴の学習を促進し、MLTCは、モーダルフュージョンローカルトークンを再構成し、マルチモーダルデータの正確な理解をさらに強化する。 クロスモーダルアライメントにおける提案手法を評価するために,aligned-bench と呼ばれる検証ベンチマークを開発した。 さらに,画像テキストとビデオテキストのマルチモーダルタスクを同時に実行可能にするフレキシブルなビジョンエンコーダを提案する。 実験の結果,視覚的質問応答,画像テキスト検索,ビデオテキスト検索など,様々な視覚言語ベンチマーク上での最先端性能が得られた。

Cross-modal alignment plays a crucial role in vision-language pre-training (VLP) models, enabling them to capture meaningful associations across different modalities. For this purpose, numerous masked modeling tasks have been proposed for VLP to further promote cross-modal interactions. The core idea of previous masked modeling tasks is to focus on reconstructing the masked tokens based on visible context for learning local-local alignment. However, most of them pay little attention to the global semantic features generated for the masked data, resulting in a limited cross-modal alignment ability of global representations to local features of the other modality. Therefore, in this paper, we propose a novel Global and Local Semantic Completion Learning (GLSCL) task to facilitate global-local alignment and local-local alignment simultaneously. Specifically, the GLSCL task complements the missing semantics of masked data and recovers global and local features by cross-modal interactions. Our GLSCL consists of masked global semantic completion (MGSC) and masked local token completion (MLTC). MGSC promotes learning more representative global features, which have a great impact on the performance of downstream tasks, while MLTC reconstructs modal-fusion local tokens, further enhancing accurate comprehension of multimodal data. To evaluate the proposed approaches on cross-modal alignment, we develop a validation benchmark called ALIGN-BENCH. Moreover, we present a flexible vision encoder, enabling our model to simultaneously perform image-text and video-text multimodal tasks. Experimental results show that our proposed method obtains state-of-the-art performance on various vision-language benchmarks, such as visual question answering, image-text retrieval, and video-text retrieval.
翻訳日:2023-12-07 18:48:59 公開日:2023-12-06
# 量子計算による酸素同位体中の中性子ドリップ線の予測

Prediction of the neutron drip line in oxygen isotopes using quantum computation ( http://arxiv.org/abs/2306.06432v2 )

ライセンス: Link先を確認
Chandan Sarma, Olivia Di Matteo, Abhishek Abhishek, Praveen C. Srivastava(参考訳) ノイズの多い中間スケール量子時代において、変分アルゴリズムは量子多体問題を解く標準的なアプローチとなっている。 ここでは,シェルモデル記述中の選択酸素同位体の変動量子固有解法(VQE)について述べる。 本研究の目的は, 現象学的USDB相互作用に加えて, 異なる微視的相互作用 (DJ16, JISP16, N3LO) を持つユニタリカップリングクラスタ (UCC) 型アンサターゼを用いて酸素鎖の中性子ドリップ線を見つけることである。 当初、現代の量子ハードウェア上では実行できないが、問題のサイズは、カスタム回路の設計と最適化と共にキュービットテーパリング技術を用いて大幅に削減される。 古典的なシミュレーションから得られたアンサッツパラメータの最適値はdj16相互作用にあてられ、テーパ付き回路は閉じ込められたイオン量子コンピュータであるionqのaria上で実行される。 3つの同位体にゲート誤差緩和を施した後、数パーセントの誤差で正確な基底状態エネルギーを再現した。 ハードウェアによる後処理の結果、酸素鎖のドリップライン核として$^{24}$Oが明らかに示されている。 将来の量子ハードウェアの改良により、重い核のドリップ線を見つけることができる。

In the noisy intermediate-scale quantum era, variational algorithms have become a standard approach to solving quantum many-body problems. Here, we present variational quantum eigensolver (VQE) results of selected oxygen isotopes within the shell model description. The aim of the present work is to locate the neutron drip line of the oxygen chain using unitary coupled cluster (UCC) type ansatze with different microscopic interactions (DJ16, JISP16, and N3LO), in addition to a phenomenological USDB interaction. While initially infeasible to execute on contemporary quantum hardware, the size of the problem is reduced significantly using qubit tapering techniques in conjunction with custom circuit design and optimization. The optimal values of ansatz parameters from classical simulation are taken for the DJ16 interaction, and the tapered circuits are run on IonQ's Aria, a trapped-ion quantum computer. After applying gate error mitigation for three isotopes, we reproduced exact ground state energies within a few percent error. The post-processed results from hardware also clearly show $^{24}$O as the drip line nucleus of the oxygen chain. Future improvements in quantum hardware could make it possible to locate drip lines of heavier nuclei.
翻訳日:2023-12-07 18:48:17 公開日:2023-12-06
# 構造ボソニック環境における熱サイクルとポーラロン形成

Thermal cycle and polaron formation in structured bosonic environments ( http://arxiv.org/abs/2306.04248v2 )

ライセンス: Link先を確認
A. Riva, D. Tamascelli, A. J. Dunnett, and A. W. Chin(参考訳) 時間依存密度行列再正規化群と組み合わせたチェインマッピング技術は、構造化ボゾン環境と相互作用するオープン量子系の力学をシミュレートする強力なツールである。 興味深いことに、彼らは環境の自由度を検査に残している。 本研究では,環境観測装置へのアクセスを最大限に活用し,オープン量子システムの進化とそれと相互作用する環境の詳細な進化との関係を解明する。 特に、有限温度チェーンマッピング形式が動的平衡状態を表現することを可能にする基礎物理学を正確に記述する。 さらに、超原子環境と強く相互作用する2段階の系を分析し、そこでは、極性状態の形成に遡ることができるスピン-ボソン基底状態の変化を発見する。

Chain-mapping techniques combined with the time-dependent density matrix renormalization group are powerful tools for simulating the dynamics of open quantum systems interacting with structured bosonic environments. Most interestingly, they leave the degrees of freedom of the environment open to inspection. In this work, we fully exploit the access to environmental observables to illustrate how the evolution of the open quantum system can be related to the detailed evolution of the environment it interacts with. In particular, we give a precise description of the fundamental physics that enables the finite temperature chain-mapping formalism to express dynamical equilibrium states. Furthermore, we analyze a two-level system strongly interacting with a super-Ohmic environment, where we discover a change in the spin-boson ground state that can be traced to the formation of polaronic states.
翻訳日:2023-12-07 18:47:56 公開日:2023-12-06
# コンテキスト-PIP: 永続的な独立粒子は空間的コンテキスト特徴を要求する

Context-PIPs: Persistent Independent Particles Demands Spatial Context Features ( http://arxiv.org/abs/2306.02000v2 )

ライセンス: Link先を確認
Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yitong Dong, Yijin Li, Hongsheng Li(参考訳) 我々は,ビデオ中の問合せ点の長期的軌跡を推定することを目的としたPIP(Tracking Any Point, TAP)の問題に対処する。 従来の手法では、これらの軌跡を独立して推定して、より長い画像列を組み込むことが試みられた。 独立したビデオポイントトラッキングは、空間的コンテキスト機能も必要としている。 そこで本稿では,ビデオの空間的特徴を集約することで,ポイントトラジェクトリの精度を効果的に向上する新しいフレームワークContext-PIPを提案する。 Context-PIPは2つの主要なモジュールを含んでいる。 1) sourse feature enhancement (sofe)モジュール、及び 2) TArget Feature Aggregation (TAFA)モジュール。 コンテキストPIPはPIPを全面的に改善し、CroHDでは平均11.4%、TAP-Vid-Kinecticsでは平均11.8%となっている。 デモはhttps://wkbian.github.io/Projects/Context-PIPs/で公開されている。

We tackle the problem of Persistent Independent Particles (PIPs), also called Tracking Any Point (TAP), in videos, which specifically aims at estimating persistent long-term trajectories of query points in videos. Previous methods attempted to estimate these trajectories independently to incorporate longer image sequences, therefore, ignoring the potential benefits of incorporating spatial context features. We argue that independent video point tracking also demands spatial context features. To this end, we propose a novel framework Context-PIPs, which effectively improves point trajectory accuracy by aggregating spatial context features in videos. Context-PIPs contains two main modules: 1) a SOurse Feature Enhancement (SOFE) module, and 2) a TArget Feature Aggregation (TAFA) module. Context-PIPs significantly improves PIPs all-sided, reducing 11.4% Average Trajectory Error of Occluded Points (ATE-Occ) on CroHD and increasing 11.8% Average Percentage of Correct Keypoint (A-PCK) on TAP-Vid-Kinectics. Demos are available at https://wkbian.github.io/Projects/Context-PIPs/.
翻訳日:2023-12-07 18:47:44 公開日:2023-12-06
# 拡散モデルによる光学的流れと単眼深度推定の驚くべき効果

The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation ( http://arxiv.org/abs/2306.01923v2 )

ライセンス: Link先を確認
Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet(参考訳) 拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。 また,これらのタスクに支配的なタスク固有のアーキテクチャや損失関数がなければ,光学的フローと単眼深度の推定にも優れることを示す。 従来の回帰に基づく手法の点推定と比較すると、拡散モデルは、流れと深さの不確かさと曖昧さを捉えるなど、モンテカルロ推論を可能にする。 自己教師付き事前訓練、教師付きトレーニングのための合成データと実データの統合、ノイズのない不完全なトレーニングデータを扱う技術革新(補足と段階的に学習する拡散訓練)、および粗い微細化の簡単な形態により、深度と光フロー推定のための最先端拡散モデルを訓練することができる。 広範な実験では、ベンチマーク、アブレーション、モデルの不確実性とマルチモダリティを捉える能力、欠落した値に対する定量的なパフォーマンスに焦点を当てている。 我々のモデルDDVM(Denoising Diffusion Vision Model)は、室内NYUベンチマークで0.074の最先端相対深度誤差と、KITTIの光学フローベンチマークで3.26倍のFl-allアウトリー率を得る。 概要はhttps://diffusion-vision.github.ioを参照。

Denoising diffusion probabilistic models have transformed image generation with their impressive fidelity and diversity. We show that they also excel in estimating optical flow and monocular depth, surprisingly, without task-specific architectures and loss functions that are predominant for these tasks. Compared to the point estimates of conventional regression-based methods, diffusion models also enable Monte Carlo inference, e.g., capturing uncertainty and ambiguity in flow and depth. With self-supervised pre-training, the combined use of synthetic and real data for supervised training, and technical innovations (infilling and step-unrolled denoising diffusion training) to handle noisy-incomplete training data, and a simple form of coarse-to-fine refinement, one can train state-of-the-art diffusion models for depth and optical flow estimation. Extensive experiments focus on quantitative performance against benchmarks, ablations, and the model's ability to capture uncertainty and multimodality, and impute missing values. Our model, DDVM (Denoising Diffusion Vision Model), obtains a state-of-the-art relative depth error of 0.074 on the indoor NYU benchmark and an Fl-all outlier rate of 3.26\% on the KITTI optical flow benchmark, about 25\% better than the best published method. For an overview see https://diffusion-vision.github.io.
翻訳日:2023-12-07 18:47:19 公開日:2023-12-06
# 乳腺病理組織学的H&E全スライディング画像の公開データセット:スコーピングレビュー

Publicly available datasets of breast histopathology H&E whole-slide images: A scoping review ( http://arxiv.org/abs/2306.01546v2 )

ライセンス: Link先を確認
Masoud Tafavvoghi (1), Lars Ailo Bongo (2), Nikita Shvetsov (2), Lill-Tove Rasmussen Busund (3), Kajsa M{\o}llersen (1) ((1) Department of Community Medicine, UiT The Arctic University of Norway, Troms{\o}, Norway, (2) Department of Computer Science, UiT The Arctic University of Norway, Troms{\o}, Norway, (3) Department of Medical Biology, UiT The Arctic University of Norway, Troms{\o}, Norway)(参考訳) デジタル病理学と計算資源の進歩は、乳がんの診断と治療のための計算病理学の分野に大きな影響を与えた。 しかし、乳がんの良質なラベル付き病理像へのアクセスは、正確で堅牢なディープラーニングモデルの開発を制限する大きな課題である。 このスコーピングレビューでは、深層学習アルゴリズムの開発に使用できる胸部H&E染色スライディング画像(WSI)の公開データセットを特定した。 9つの学術文献データベースと9つの研究データリポジトリを体系的に検索し,乳癌のh&e wsis10385を含む17の公開データセットを発見した。 さらに,各データセットの画像メタデータと特徴を報告し,乳癌の計算病理における特定のタスクに適したデータセットの選択を支援する。 さらに,胸部H&Eパッチと個人データセットの2つのリストを,研究者の補助資料としてまとめた。 注目すべきなのは,複数のデータセットを使用した記事の28%に過ぎず,外部検証セットを使用したのは14%に過ぎなかったことだ。 TCGA-BRCAは選択された研究の52%で使用された。 このデータセットには、トレーニングされたアルゴリズムの堅牢性と一般化性に影響を与える、かなりの選択バイアスがある。 また、正確なディープラーニングモデルを開発する際に問題となる、胸部wsiデータセットの一貫したメタデータレポートが欠如しており、胸部wsiデータセットの特徴とメタデータを文書化する明確なガイドラインを確立する必要性を示している。

Advancements in digital pathology and computing resources have made a significant impact in the field of computational pathology for breast cancer diagnosis and treatment. However, access to high-quality labeled histopathological images of breast cancer is a big challenge that limits the development of accurate and robust deep learning models. In this scoping review, we identified the publicly available datasets of breast H&E stained whole-slide images (WSI) that can be used to develop deep learning algorithms. We systematically searched nine scientific literature databases and nine research data repositories and found 17 publicly available datasets containing 10385 H&E WSIs of breast cancer. Moreover, we reported image metadata and characteristics for each dataset to assist researchers in selecting proper datasets for specific tasks in breast cancer computational pathology. In addition, we compiled two lists of breast H&E patches and private datasets as supplementary resources for researchers. Notably, only 28% of the included articles utilized multiple datasets, and only 14% used an external validation set, suggesting that the performance of other developed models may be susceptible to overestimation. The TCGA-BRCA was used in 52% of the selected studies. This dataset has a considerable selection bias that can impact the robustness and generalizability of the trained algorithms. There is also a lack of consistent metadata reporting of breast WSI datasets that can be an issue in developing accurate deep learning models, indicating the necessity of establishing explicit guidelines for documenting breast WSI dataset characteristics and metadata.
翻訳日:2023-12-07 18:46:51 公開日:2023-12-06
# panogrf:広基線パノラマの一般化可能な球面放射場

PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline Panoramas ( http://arxiv.org/abs/2306.01531v2 )

ライセンス: Link先を確認
Zheng Chen, Yan-Pei Cao, Yuan-Chen Guo, Chen Wang, Ying Shan, Song-Hai Zhang(参考訳) 6自由度(6DoF)で仮想環境を探索できる没入型体験を実現することは、仮想現実(VR)のような様々なアプリケーションに不可欠である。 広帯域パノラマは、ネットワーク帯域幅とストレージ要求を減らすために一般的に使用される。 しかし、これらのパノラマから新しい視点を合成することは重要な課題である。 既存のニューラルラディアンス場法は、細いベースラインと密集したイメージキャプチャーの下でフォトリアリスティックなビューを生成することができるが、スパース360^{\circ}$ビューから正確な幾何学を学ぶのが難しいため、 'emph{wide-baseline} panoramas' を扱う場合、トレーニングビューに適合する傾向にある。 この問題に対処するため,我々は,360^{\circ}$シーンプリエントを含む球面ラミアンス場を構成する広基線パノラマに対して,一般化可能な球面ラミアンスフィールドであるpanogrfを提案する。 パースペクティブ画像で訓練された一般化された放射輝度場とは異なり、パノラマからパースペクティブへの変換による情報損失を回避し、球面投影に基づく各パノラマ視点からの3dサンプル点の形状と外観の特徴を直接集約する。 さらに、パノラマの一部の領域は1つの視点でしか見えず、他の領域からは広いベースライン設定で見えないため、パノラマは360^{\circ}$単眼深度を球面深度推定に組み込んで幾何学的特徴を改善する。 複数のパノラマデータセットの実験的結果は、panogrfが広帯域パノラマ(例えばomnisyn)とパースペクティブ画像(例えばibrnet、neuray)の最先端の汎用ビュー合成法を大幅に上回っていることを示している。

Achieving an immersive experience enabling users to explore virtual environments with six degrees of freedom (6DoF) is essential for various applications such as virtual reality (VR). Wide-baseline panoramas are commonly used in these applications to reduce network bandwidth and storage requirements. However, synthesizing novel views from these panoramas remains a key challenge. Although existing neural radiance field methods can produce photorealistic views under narrow-baseline and dense image captures, they tend to overfit the training views when dealing with \emph{wide-baseline} panoramas due to the difficulty in learning accurate geometry from sparse $360^{\circ}$ views. To address this problem, we propose PanoGRF, Generalizable Spherical Radiance Fields for Wide-baseline Panoramas, which construct spherical radiance fields incorporating $360^{\circ}$ scene priors. Unlike generalizable radiance fields trained on perspective images, PanoGRF avoids the information loss from panorama-to-perspective conversion and directly aggregates geometry and appearance features of 3D sample points from each panoramic view based on spherical projection. Moreover, as some regions of the panorama are only visible from one view while invisible from others under wide baseline settings, PanoGRF incorporates $360^{\circ}$ monocular depth priors into spherical depth estimation to improve the geometry features. Experimental results on multiple panoramic datasets demonstrate that PanoGRF significantly outperforms state-of-the-art generalizable view synthesis methods for wide-baseline panoramas (e.g., OmniSyn) and perspective images (e.g., IBRNet, NeuRay).
翻訳日:2023-12-07 18:46:26 公開日:2023-12-06
# 偏微分方程式のアナログ量子シミュレーション

Analog quantum simulation of partial differential equations ( http://arxiv.org/abs/2308.00646v3 )

ライセンス: Link先を確認
Shi Jin and Nana Liu(参考訳) 量子シミュレータはもともと1つの偏微分方程式(PDE)、特にシュロディンガー方程式をシミュレートするために提案された。 量子シミュレータは他のPDEを効率的にシミュレートできるのか? PDEの計算方法(古典と量子の両方)はデジタルであるが(PDEはまず離散化されなければならない)、PDEは連続的な自由度を持つ。 これはアナログ表現がより自然であることが示唆される。 デジタル量子自由度は通常、量子ビットによって記述されるが、アナログまたは連続量子自由度は量子モデで表される。 シュロディンジェライゼーション(Schrodingerisation)と呼ばれる手法に基づいて、D+1 qumod 上のアナログあるいは連続変数ハミルトニアンシミュレーションを使用できる(D+1)-量子系に直接D次元線形PDEをマッピングする方法を示す。 この非常に単純な方法論は、まずPDEを識別する必要はないし、線形PDEだけでなく、非線形PDEや非線形ODEのシステムにも適用できる。 この手法を用いて、リウヴィル方程式、熱方程式、フォッカー・プランク方程式、ブラック・シェール方程式、波動方程式、マクスウェル方程式などを示す。 また、不確かさの定量化において重要な線形PDEに対する新しいプロトコルを考案し、アナログや連続変数のフレームワークがいかに自然であるかを明らかにした。 これはまた、いくつかのPDEがそれらの量子系に対して自然にハミルトニアンを用いることで、アナログ量子系上で直接シミュレートされる可能性を高める。

Quantum simulators were originally proposed for simulating one partial differential equation (PDE) in particular - Schrodinger's equation. Can quantum simulators also efficiently simulate other PDEs? While most computational methods for PDEs - both classical and quantum - are digital (PDEs must be discretised first), PDEs have continuous degrees of freedom. This suggests that an analog representation can be more natural. While digital quantum degrees of freedom are usually described by qubits, the analog or continuous quantum degrees of freedom can be captured by qumodes. Based on a method called Schrodingerisation, we show how to directly map D-dimensional linear PDEs onto a (D+1)-qumode quantum system where analog or continuous-variable Hamiltonian simulation on D+1 qumodes can be used. This very simple methodology does not require one to discretise PDEs first, and it is not only applicable to linear PDEs but also to some nonlinear PDEs and systems of nonlinear ODEs. We show some examples using this method, including the Liouville equation, heat equation, Fokker-Planck equation, Black-Scholes equations, wave equation and Maxwell's equations. We also devise new protocols for linear PDEs with random coefficients, important in uncertainty quantification, where it is clear how the analog or continuous-variable framework is most natural. This also raises the possibility that some PDEs may be simulated directly on analog quantum systems by using Hamiltonians natural for those quantum systems.
翻訳日:2023-12-07 18:40:41 公開日:2023-12-06
# 社会目的関数によるソーシャルメディアAIへの民主的価値の埋め込み

Embedding Democratic Values into Social Media AIs via Societal Objective Functions ( http://arxiv.org/abs/2307.13912v2 )

ライセンス: Link先を確認
Chenyan Jia, Michelle S. Lam, Minh Chau Mai, Jeff Hancock, Michael S. Bernstein(参考訳) ソーシャルメディアフィードをランク付けする人工知能(AI)システムを設計すれば、その目的機能の一部としてパルチザンの敵意を緩和するような民主的価値を考慮できるだろうか? 本稿では, 確立された社会的科学的構成を社会目的関数と呼ぶai目的関数に翻訳する手法を紹介し, 反民主主義的態度の政治科学構築への応用を実証する。 伝統的に、そのようなモデルをトレーニングするための観測可能な成果は得られていないが、社会科学はこれらの構築物に対する調査機器や定性的コードブックを開発し、その精度は大規模言語モデルの詳細なプロンプトへの翻訳を容易にする。 本稿では,ソーシャルメディア投稿が反民主的態度を促進する程度を推定する民主的態度モデルを作成し,この民主的態度モデルを3つの研究で検証する。 研究1では,米国パルチザン間の介入(n=1,380)が,反民主主義的態度スコアを付したソーシャルメディア投稿(アルファ=.895)に手作業で注釈を付け,これらのスコアに基づいて複数のフィードランキング条件をテストし,行動的効果を最初に検証した。 削除(d=.20)と下級のフィード(d=.25)は、参加者の経験やエンゲージメントを損なうことなく、パルチザンの敵意を減らした。 研究2では, 民主的態度モデルを作成し, マニュアルラベルとの強い合意を求めることで, マニュアルラベルをスケールアップする(rho=.75)。 最後に,研究3では,手動ラベルの代わりに民主的態度モデルを用いて研究1を再現し,その姿勢的・行動的影響(N=558)を検証した。 本手法は,ソーシャルメディアAIにおける社会的害を軽減するために,社会科学理論と手法に基づく新たな戦略を提案する。

Can we design artificial intelligence (AI) systems that rank our social media feeds to consider democratic values such as mitigating partisan animosity as part of their objective functions? We introduce a method for translating established, vetted social scientific constructs into AI objective functions, which we term societal objective functions, and demonstrate the method with application to the political science construct of anti-democratic attitudes. Traditionally, we have lacked observable outcomes to use to train such models, however, the social sciences have developed survey instruments and qualitative codebooks for these constructs, and their precision facilitates translation into detailed prompts for large language models. We apply this method to create a democratic attitude model that estimates the extent to which a social media post promotes anti-democratic attitudes, and test this democratic attitude model across three studies. In Study 1, we first test the attitudinal and behavioral effectiveness of the intervention among US partisans (N=1,380) by manually annotating (alpha=.895) social media posts with anti-democratic attitude scores and testing several feed ranking conditions based on these scores. Removal (d=.20) and downranking feeds (d=.25) reduced participants' partisan animosity without compromising their experience and engagement. In Study 2, we scale up the manual labels by creating the democratic attitude model, finding strong agreement with manual labels (rho=.75). Finally, in Study 3, we replicate Study 1 using the democratic attitude model instead of manual labels to test its attitudinal and behavioral impact (N=558), and again find that the feed downranking using the societal objective function reduced partisan animosity (d=.25). This method presents a novel strategy to draw on social science theory and methods to mitigate societal harms in social media AIs.
翻訳日:2023-12-07 18:39:45 公開日:2023-12-06
# ゆらぎ定理と期待効用仮説

Fluctuation theorems and expected utility hypothesis ( http://arxiv.org/abs/2307.12358v2 )

ライセンス: Link先を確認
Gianluca Francica, Luca Dell'Anna(参考訳) 期待された効用仮説は経済学において一般的な概念であり、支払いが不確実な場合に決定を下すのに役立つ。 本稿では,予測効用理論における揺らぎ定理の影響について考察する。 特に、エントロピーがギャンブルのガイドラインになるかどうか疑問である。 我々は、生成するエントロピーに依存する確実性同値を含む境界の存在を証明する。 次に,非平衡初期状態からの作業抽出の特定の状況,特に,エントロピーに等価な確実性の依存性を検討する。

The expected utility hypothesis is a popular concept in economics that is useful for making decisions when the payoff is uncertain. In this paper, we investigate the implications of a fluctuation theorem in the theory of expected utility. In particular, we wonder whether entropy could serve as a guideline for gambling. We prove the existence of a bound involving the certainty equivalent which depends on the entropy produced. Then, we examine the dependence of the certainty equivalent on the entropy by looking at specific situations, in particular the work extraction from a nonequilibrium initial state.
翻訳日:2023-12-07 18:39:07 公開日:2023-12-06
# 1次元フェルミガス中の不純物の相関除去による温度測定

Thermometry by correlated dephasing of impurities in a 1D Fermi gas ( http://arxiv.org/abs/2307.10132v3 )

ライセンス: Link先を確認
Sindre Brattegard and Mark T. Mitchison(参考訳) 我々は,超低温フェルミオン原子の共有環境に埋め込まれた2つの静的不純物量子ビットの純粋退化ダイナミクスを理論的に検討する。 我々の目標は、不純物間の浴媒介相互作用が非平衡量子温度計としての性能にどのように影響するかを理解することである。 関数決定式を用いて動的に解くことにより,ruderman-kittel-kasuya-yosida型の遅延相互作用により不純物が相関することを示した。 さらに, これらの相関関係は, 2量子ビット温度計の感度を2つの独立した不純物よりも高め, メトロロジー的な利点をもたらすことを実証する。 この増強は、低温と不純物と気体の間の弱い衝突結合の限界において最も顕著である。 この精度の利点は標準ラムゼイ干渉計を用いて利用でき、相関した初期状態を作成したり、不純物を個別に操作したり測定したりする必要もない。 また, 温度推定を行う際の相関を無視する影響を定量的に評価し, 不純物の簡易モデルから許容可能な精度を得ることができた。 以上の結果から, フェルミガス中の不純物の高次非平衡物理が示され, 超低温での温度推定の精度向上に寄与する可能性が示唆された。

We theoretically investigate the pure dephasing dynamics of two static impurity qubits embedded within a common environment of ultracold fermionic atoms, which are confined to one spatial dimension. Our goal is to understand how bath-mediated interactions between impurities affect their performance as nonequilibrium quantum thermometers. By solving the dynamics exactly using a functional determinant approach, we show that the impurities become correlated via retarded interactions of the Ruderman-Kittel-Kasuya-Yosida type. Moreover, we demonstrate that these correlations can provide a metrological advantage, enhancing the sensitivity of the two-qubit thermometer beyond that of two independent impurities. This enhancement is most prominent in the limit of low temperature and weak collisional coupling between the impurities and the gas. We show that this precision advantage can be exploited using standard Ramsey interferometry, with no need to prepare correlated initial states nor to individually manipulate or measure the impurities. We also quantitatively assess the impact of ignoring these correlations when constructing a temperature estimate, finding that acceptable precision can still be achieved from a simplified model of independent impurities. Our results demonstrate the rich nonequilibrium physics of impurities dephasing in a common Fermi gas, and may help to provide better temperature estimates at ultralow temperatures.
翻訳日:2023-12-07 18:38:38 公開日:2023-12-06
# 順序データ科学へ向けて

Towards Ordinal Data Science ( http://arxiv.org/abs/2307.09477v2 )

ライセンス: Link先を確認
Gerd Stumme, Dominik D\"urrschnabel, Tom Hanika(参考訳) 順序は、(経験的な)データ内のオブジェクト間の関係を測定する主要な手段の1つである。 しかし, 対象物の数値特性を利用する手法に比べ, 開発された順序法は比較的少ない。 この理由の1つは、順序計算に必要とされる計算資源が前世紀に限られていたことである。 この研究で特に重要な理由は、秩序に基づく手法は実世界のデータに適用するには数学的に厳密すぎるとしばしば見なされるためである。 そこで本論文では,順序構造 -- 有向グラフの特定のクラス -- の計測と「計算」の異なる方法について議論し,それらから知識を推測する方法を示す。 私たちの目標は、順序データ科学を根本的に新しい研究課題として確立することです。 他の基盤となる機械学習や知識表現手法との交配に加えて、心理学、社会学、経済学、ウェブサイエンス、知識工学、サイエントメトリックスなど、幅広い分野がこの取り組みの恩恵を受ける。

Order is one of the main instruments to measure the relationship between objects in (empirical) data. However, compared to methods that use numerical properties of objects, the amount of ordinal methods developed is rather small. One reason for this is the limited availability of computational resources in the last century that would have been required for ordinal computations. Another reason -- particularly important for this line of research -- is that order-based methods are often seen as too mathematically rigorous for applying them to real-world data. In this paper, we will therefore discuss different means for measuring and 'calculating' with ordinal structures -- a specific class of directed graphs -- and show how to infer knowledge from them. Our aim is to establish Ordinal Data Science as a fundamentally new research agenda. Besides cross-fertilization with other cornerstone machine learning and knowledge representation methods, a broad range of disciplines will benefit from this endeavor, including, psychology, sociology, economics, web science, knowledge engineering, scientometrics.
翻訳日:2023-12-07 18:38:14 公開日:2023-12-06
# パスシグネチャとsiamese unsupervised feature compressorを用いた早期自閉症診断

Early Autism Diagnosis based on Path Signature and Siamese Unsupervised Feature Compressor ( http://arxiv.org/abs/2307.06472v2 )

ライセンス: Link先を確認
Zhuowen Yin, Xinyao Ding, Xin Zhang, Zhengwang Wu, Li Wang and Gang Li(参考訳) 自閉症スペクトラム障害(asd)は、公衆衛生の脅威になりつつある。 ASDの早期診断は、タイムリーで効果的な介入と治療に不可欠である。 しかし, コミュニケーションや行動パターンに基づく従来の診断法は, 2歳未満の子どもには信頼性が低い。 ASD乳児の神経発達異常の証拠を考慮し, 早期自閉症診断のために, 自然欠失, クラス不均衡, 異種構造MR画像から重要な特徴を抽出する, 深層学習に基づく新しい手法を考案した。 具体的には,不足データ拡張のためのsiamese検証フレームワークと,キー特徴抽出によるデータ不均衡緩和のための教師なし圧縮器を提案する。 また,バリデーション中に異なるサンプルの投票重みを与えることにより,サンプルの不均一性に対処するための重み制約を提案し,二点データから有意義な発達特性を明らかにするためにパスシグネチャを用いた。 さらに,自閉症診断のための機械学習焦点脳領域も抽出した。 広範にわたる実験により,本手法は実用的なシナリオの下で良好に動作し,既存の機械学習手法を超越し,自閉症早期診断のための解剖学的洞察を提供することが示された。

Autism Spectrum Disorder (ASD) has been emerging as a growing public health threat. Early diagnosis of ASD is crucial for timely, effective intervention and treatment. However, conventional diagnosis methods based on communications and behavioral patterns are unreliable for children younger than 2 years of age. Given evidences of neurodevelopmental abnormalities in ASD infants, we resort to a novel deep learning-based method to extract key features from the inherently scarce, class-imbalanced, and heterogeneous structural MR images for early autism diagnosis. Specifically, we propose a Siamese verification framework to extend the scarce data, and an unsupervised compressor to alleviate data imbalance by extracting key features. We also proposed weight constraints to cope with sample heterogeneity by giving different samples different voting weights during validation, and we used Path Signature to unravel meaningful developmental features from the two-time point data longitudinally. We further extracted machine learning focused brain regions for autism diagnosis. Extensive experiments have shown that our method performed well under practical scenarios, transcending existing machine learning methods and providing anatomical insights for autism early diagnosis.
翻訳日:2023-12-07 18:37:57 公開日:2023-12-06
# 分割・評価・再定義:反復的VQAフィードバックによるテキスト・画像アライメントの評価と改善

Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image Alignment with Iterative VQA Feedback ( http://arxiv.org/abs/2307.04749v2 )

ライセンス: Link先を確認
Jaskirat Singh and Liang Zheng(参考訳) テキスト条件付き画像生成の分野は、最近潜伏拡散モデルが出現し、相容れない進歩を遂げた。 驚くべきことに、与えられたテキスト入力の複雑さが増加するにつれて、最先端の拡散モデルは、与えられたプロンプトのセマンティクスを正確に伝達する画像の生成に失敗する可能性がある。 さらに,CLIPのような事前訓練されたマルチモーダルモデルでは,このような誤認識は検出されないことが多い。 これらの問題に対処するため,本論文では,テキスト間アライメントの評価と改善の両面において,単純かつ効果的な分解アプローチを提案する。 特に、まず分解-アライメント-スコアを導入し、複雑なプロンプトを与えて、それを不同なアサーションの集合に分解する。 次に、各アサーションと生成された画像のアライメントをVQAモデルを用いて測定する。 最後に、異なるアサーションに対するアライメントスコアを結合して、最終的なテキストから画像へのアライメントスコアを与える。 実験により,従来のCLIP,BLIPスコアと比べ,アライメント測定値の相関が有意に高いことが明らかとなった。 さらに,アサーションレベルアライメントスコアは,最終画像出力の異なるアサーション表現を徐々に増加させるために,簡単な反復手順で使用できる有用なフィードバックを提供することがわかった。 人間のユーザスタディは、提案手法が従来の最先端の手法を8.7%上回ったことを示唆している。 私たちの論文のプロジェクトページはhttps://1jsingh.github.io/divide-evaluate-and-refineで閲覧できます。

The field of text-conditioned image generation has made unparalleled progress with the recent advent of latent diffusion models. While remarkable, as the complexity of given text input increases, the state-of-the-art diffusion models may still fail in generating images which accurately convey the semantics of the given prompt. Furthermore, it has been observed that such misalignments are often left undetected by pretrained multi-modal models such as CLIP. To address these problems, in this paper we explore a simple yet effective decompositional approach towards both evaluation and improvement of text-to-image alignment. In particular, we first introduce a Decompositional-Alignment-Score which given a complex prompt decomposes it into a set of disjoint assertions. The alignment of each assertion with generated images is then measured using a VQA model. Finally, alignment scores for different assertions are combined aposteriori to give the final text-to-image alignment score. Experimental analysis reveals that the proposed alignment metric shows significantly higher correlation with human ratings as opposed to traditional CLIP, BLIP scores. Furthermore, we also find that the assertion level alignment scores provide a useful feedback which can then be used in a simple iterative procedure to gradually increase the expression of different assertions in the final image outputs. Human user studies indicate that the proposed approach surpasses previous state-of-the-art by 8.7% in overall text-to-image alignment accuracy. Project page for our paper is available at https://1jsingh.github.io/divide-evaluate-and-refine
翻訳日:2023-12-07 18:37:38 公開日:2023-12-06
# DyEdgeGAT: IIoTシステムにおける早期故障検出のためのグラフ注意による動的エッジ

DyEdgeGAT: Dynamic Edge via Graph Attention for Early Fault Detection in IIoT Systems ( http://arxiv.org/abs/2307.03761v2 )

ライセンス: Link先を確認
Mengjie Zhao and Olga Fink(参考訳) 産業用モノのインターネットでは、複雑なシステムからのコンディショニングセンサー信号は、様々な操作条件下で強い非線形・確率的空間-時間ダイナミクスを示す。 このような複雑な力学は、特に断層検出を難しくする。 以前提案された手法はこれらのダイナミクスを効果的にモデル化するが、センサー信号間の関係の動的進化を無視することが多い。 これらの関係の未検出なシフトは、重大なシステム障害を引き起こす可能性がある。 もうひとつの制限は、新しい運用条件と実際の障害を効果的に区別できないことだ。 このギャップに対処するために,新しい動作条件から障害を識別しながら,特に早期に関係が変化したことを特徴とする,様々な障害を検出する新しいアプローチであるDyEdgeGATを提案する。 DyEdgeGATは、時系列間の関係の進化を動的に表現・追跡するエッジを動的に構築する、多変量時系列の新しいグラフ推論スキームを提供するグラフベースのフレームワークである。 さらに、一般的に見過ごされる側面、例えば制御入力と測定の間のシステム内の因果関係に対処する。 システム非依存変数を操作条件のコンテキストとしてノードダイナミックス抽出に組み込むことで、DyEdgeGATは新たな動作条件に対する堅牢性を高める。 種々の断層重大度をシミュレートする合成データセットと,検出複雑さの異なる様々な断層型を含む実世界の産業規模ベンチマークを用いて,DyEdgeGATの性能を厳格に評価した。 以上の結果から,DyEdgeGATは異常検出に極めて有効であり,新しい動作条件下では堅牢性を維持しつつ早期故障検出に特に強いことが示唆された。

In the industrial Internet of Things, condition monitoring sensor signals from complex systems often exhibit strong nonlinear and stochastic spatial-temporal dynamics under varying operating conditions. Such complex dynamics make fault detection particularly challenging. Although previously proposed methods effectively model these dynamics, they often neglect the dynamic evolution of relationships between sensor signals. Undetected shifts in these relationships can potentially result in significant system failures. Another limitation is their inability to effectively distinguish between novel operating conditions and actual faults. To address this gap, we propose DyEdgeGAT (Dynamic Edge via Graph Attention), a novel approach capable of detecting various faults, especially those characterized by relationship changes at early stages, while distinguishing faults from novel operating conditions. DyEdgeGAT is a graph-based framework that provides a novel graph inference scheme for multivariate time series that dynamically constructs edges to represent and track the evolution of relationships between time series. Additionally, it addresses a commonly overlooked aspect: the cause-and-effect relationships within the system, such as between control inputs and measurements. By incorporating system-independent variables as contexts of operating conditions into node dynamics extraction, DyEdgeGAT enhances its robustness against novel operating conditions. We rigorously evaluate DyEdgeGAT's performance using both a synthetic dataset, designed to simulate varying levels of fault severity and a real-world industrial-scale benchmark containing a variety of fault types with different detection complexities. Our findings demonstrate that DyEdgeGAT is highly effective in fault detection, showing particular strength in early fault detection while maintaining robustness under novel operating conditions.
翻訳日:2023-12-07 18:37:10 公開日:2023-12-06
# ランダム木との比較による自然言語文のストラー数

Strahler Number of Natural Language Sentences in Comparison with Random Trees ( http://arxiv.org/abs/2307.02697v4 )

ライセンス: Link先を確認
Kumiko Tanaka-Ishii and Akira Tanaka(参考訳) ストラー数は当初、河川分岐の複雑さを特徴付けるために提案され、様々な応用を見出した。 本稿では,自然言語文木構造に対するシュトララー数の上限と下限の計算を提案する。 文法的にアノテートされたデータによる経験的な測定により、ストラフラーの自然言語文の数は、ストラフラー (1957) が報告したように川の分岐の例と同様に、ほぼ3または4であると示される。 この数値の背後にある理論から、文を処理するのに必要なメモリ量の制限が1つ低いことが分かる。 我々は,Strahler数について,文処理に必要なメモリ領域の数が3から4であることを示すレポート(Schuler et al., 2010)と,心理的な「マジックナンバー」が3から5であることを示すレポート(Cowan, 2001)の推論を提供すると考えている。 分析的および経験的分析により、ストラー数は一定ではないが対数的に増加することが示され、したがってストラー数は文の長さの範囲から導かれる。 さらに、ストラー数はランダム木に対して異なるものではなく、その起源は自然言語に特有ではないことを示唆している。

The Strahler number was originally proposed to characterize the complexity of river bifurcation and has found various applications. This article proposes computation of the Strahler number's upper and lower limits for natural language sentence tree structures. Through empirical measurements across grammatically annotated data, the Strahler number of natural language sentences is shown to be almost 3 or 4, similarly to the case of river bifurcation as reported by Strahler (1957). From the theory behind the number, we show that it is one kind of lower limit on the amount of memory required to process sentences. We consider the Strahler number to provide reasoning that explains reports showing that the number of required memory areas to process sentences is 3 to 4 for parsing (Schuler et al., 2010), and reports indicating a psychological "magical number" of 3 to 5 (Cowan, 2001). An analytical and empirical analysis shows that the Strahler number is not constant but grows logarithmically; therefore, the Strahler number of sentences derives from the range of sentence lengths. Furthermore, the Strahler number is not different for random trees, which could suggest that its origin is not specific to natural language.
翻訳日:2023-12-07 18:36:42 公開日:2023-12-06
# 無線通信におけるチャネル推定のための説明可能なAI

Towards Explainable AI for Channel Estimation in Wireless Communications ( http://arxiv.org/abs/2307.00952v2 )

ライセンス: Link先を確認
Abdul Karim Gizzini, Yahia Medjahdi, Ali J. Ghandour, Laurent Clavier(参考訳) 6Gネットワークの研究は、自律運転のような様々な重要な人工知能(AI)支援アプリケーションをサポートするために始められた。 このようなアプリケーションでは、AIベースの意思決定をリアルタイムで行う必要がある。 これらの決定には、リソース割り当て、ローカライゼーション、チャネル推定などが含まれる。 既存のAIベースモデルのブラックボックスの性質を考えると、そのようなモデルの意思決定行動を理解し信頼することは極めて困難である。 したがって、これらのモデルの背後にあるロジックを説明可能なAI(XAI)技術で説明することは、重要なアプリケーションでの利用に不可欠である。 本論文は,2つの選択チャネル推定に使用される深層学習(DL)モデルの詳細な合理的解釈性を提供する,XAI-CHEST(XAI-CHEST)方式を提案する。 XAI-CHEST方式の目的は,無関係なモデルに対して高雑音を誘導することにより,関連するモデル入力を同定することである。 その結果, dlに基づくチャネル推定器の挙動を, 生成した解釈に基づいてさらに解析し, 評価することができる。 シミュレーションの結果,提案手法は,dlに基づくチャネル推定器の異なるシナリオに対する有効な解釈を提供することがわかった。

Research into 6G networks has been initiated to support a variety of critical artificial intelligence (AI) assisted applications such as autonomous driving. In such applications, AI-based decisions should be performed in a real-time manner. These decisions include resource allocation, localization, channel estimation, etc. Considering the black-box nature of existing AI-based models, it is highly challenging to understand and trust the decision-making behavior of such models. Therefore, explaining the logic behind those models through explainable AI (XAI) techniques is essential for their employment in critical applications. This manuscript proposes a novel XAI-based channel estimation (XAI-CHEST) scheme that provides detailed reasonable interpretability of the deep learning (DL) models that are employed in doubly-selective channel estimation. The aim of the proposed XAI-CHEST scheme is to identify the relevant model inputs by inducing high noise on the irrelevant ones. As a result, the behavior of the studied DL-based channel estimators can be further analyzed and evaluated based on the generated interpretations. Simulation results show that the proposed XAI-CHEST scheme provides valid interpretations of the DL-based channel estimators for different scenarios.
翻訳日:2023-12-07 18:36:15 公開日:2023-12-06
# 最適時間変数学習における時間正規化

Time Regularization in Optimal Time Variable Learning ( http://arxiv.org/abs/2306.16111v2 )

ライセンス: Link先を確認
Evelyn Herberg and Roland Herzog and Frederik K\"ohne(参考訳) 近年、arXiv:2204.08528では、ディープニューラルネットワーク(DNN)における最適時変学習が導入されている。 この写本では、離散力学系の時間軸に直接関係する正規化項を導入することで概念を拡張している。 さらに,Residual Neural Networks (ResNets) に対する適応型プルーニング手法を提案する。 この結果は、よく知られたMNISTとFashion MNISTデータセットの分類タスクに提案された概念を適用することで説明される。 pytorchコードはhttps://github.com/frederikkoehne/time_variable_learningで利用できます。

Recently, optimal time variable learning in deep neural networks (DNNs) was introduced in arXiv:2204.08528. In this manuscript we extend the concept by introducing a regularization term that directly relates to the time horizon in discrete dynamical systems. Furthermore, we propose an adaptive pruning approach for Residual Neural Networks (ResNets), which reduces network complexity without compromising expressiveness, while simultaneously decreasing training time. The results are illustrated by applying the proposed concepts to classification tasks on the well known MNIST and Fashion MNIST data sets. Our PyTorch code is available on https://github.com/frederikkoehne/time_variable_learning.
翻訳日:2023-12-07 18:35:09 公開日:2023-12-06
# 適応性制約下における逐次意思決定の一般的な枠組み

A General Framework for Sequential Decision-Making under Adaptivity Constraints ( http://arxiv.org/abs/2306.14468v3 )

ライセンス: Link先を確認
Nuoya Xiong, Zhaoran Wang, Zhuoran Yang(参考訳) 適応性制約(まれなポリシースイッチ)とバッチ学習(バッチ学習)という2つの制約の下で、一般的なシーケンシャルな意思決定を研究するための第一歩を踏み出します。 まず,多種多様な強化学習クラスを含むeluder条件クラスと呼ばれる一般クラスを提供する。 そして、まれなポリシースイッチの制約に対して、EC クラスで $\widetilde{\mathcal{O}}(\log K) $ switch cost を $\widetilde{\mathcal{O}}(\sqrt{K})$ regret で達成するための一般的なアルゴリズムを提供する。 バッチ学習制約に対しては、バッチ数$bで$\widetilde{\mathcal{o}}(\sqrt{k}+k/b)$ regretを提供するアルゴリズムを提供する。 $ This paper is the first work considering rare policy switch and batch learning under general function classes, which covers nearly all the models studied in the previous works such as tabular MDP (Bai et al. 2019; Zhang et al. 2020), linear MDP (Wang et al. 2021; Gao et al. 2021), low eluder dimension MDP (Kong et al. 2021; Gao et al. 2021), generalized linear function approximation (Qiao et al. 2023), and also some new classes such as the low $D_\Delta$-type Bellman eluder dimension problem, linear mixture MDP, kernelized nonlinear regulator and undercomplete partially observed Markov decision process (POMDP).

We take the first step in studying general sequential decision-making under two adaptivity constraints: rare policy switch and batch learning. First, we provide a general class called the Eluder Condition class, which includes a wide range of reinforcement learning classes. Then, for the rare policy switch constraint, we provide a generic algorithm to achieve a $\widetilde{\mathcal{O}}(\log K) $ switching cost with a $\widetilde{\mathcal{O}}(\sqrt{K})$ regret on the EC class. For the batch learning constraint, we provide an algorithm that provides a $\widetilde{\mathcal{O}}(\sqrt{K}+K/B)$ regret with the number of batches $B.$ This paper is the first work considering rare policy switch and batch learning under general function classes, which covers nearly all the models studied in the previous works such as tabular MDP (Bai et al. 2019; Zhang et al. 2020), linear MDP (Wang et al. 2021; Gao et al. 2021), low eluder dimension MDP (Kong et al. 2021; Gao et al. 2021), generalized linear function approximation (Qiao et al. 2023), and also some new classes such as the low $D_\Delta$-type Bellman eluder dimension problem, linear mixture MDP, kernelized nonlinear regulator and undercomplete partially observed Markov decision process (POMDP).
翻訳日:2023-12-07 18:34:51 公開日:2023-12-06
# 完全パッシブ計測-デバイス非依存量子キー分布

Fully Passive Measurement-Device-Independent Quantum Key Distribution ( http://arxiv.org/abs/2309.07673v2 )

ライセンス: Link先を確認
Jinjie Li, Wenyuan Wang, Hoi-Kwong Lo(参考訳) 最近提案された完全受動QKDは、すべてのソース変調器側チャネルを除去する。 本研究では、全受動的ソースとMDI-QKDを組み合わせることで、ソース変調器と検出器からサイドチャネルを同時に除去する。 我々は、受動的MDI-QKDの数値シミュレーションを行い、より優れた実装セキュリティと実装の容易さを確保しつつ、より安全で実用的なQKDシステムへの道を開くことを目的とした、最近提案された完全受動的TF-QKDと比較して、許容可能な鍵レートを得る。 我々は、完全受動的プロトコルがMDI-QKDと互換性があることを証明し、シフティング効率を向上できる新しいアイデアを提案した。

A recently proposed fully passive QKD removes all source modulator side channels. In this work, we combine the fully passive sources with MDI-QKD to remove simultaneously side channels from source modulators and detectors. We show a numerical simulation of the passive MDI-QKD, and we obtain an acceptable key rate while getting much better implementation security, as well as ease of implementation, compared with a recently proposed fully passive TF-QKD, paving the way towards more secure and practical QKD systems. We have proved that a fully passive protocol is compatible with MDI-QKD and we also proposed a novel idea that could potentially improve the sifting efficiency.
翻訳日:2023-12-07 18:27:40 公開日:2023-12-06
# TCM舌の特徴を組み合わせた非侵襲的解釈型NAFLD診断法

A Non-Invasive Interpretable NAFLD Diagnostic Method Combining TCM Tongue Features ( http://arxiv.org/abs/2309.02959v3 )

ライセンス: Link先を確認
Shan Cao, Qunsheng Ruan, Qingfeng Wu, Weiqiang Lin(参考訳) 非アルコール性脂肪性肝疾患(Non-Alcoholic fat liver disease,NAFLD)は、アルコールを排除した肝脂肪症を特徴とする臨床病理学的症候群である。 世界中で慢性肝疾患の主要な原因となっている。 現在,従来のnafld検出手法は高価であり,日常的な診断には適していない。 本研究は,非侵襲的かつ解釈可能なnafld診断法を提案する。本研究の目的は,性別,年齢,身長,体重,腰周囲,股関節周囲,舌画像のみである。 この方法は、患者の生理的指標と舌の特徴を融合させ、SelectorNetと呼ばれる融合ネットワークに入力する。 selectornetはアテンション機構と特徴選択機構を組み合わせることで、重要な機能を選択する能力を自律的に学習することができる。 実験結果から,非侵襲的データのみを用いて77.22\%の精度を達成し,優れた解釈性行列を提供することがわかった。 本研究はNAFLDの早期診断とTCM舌診断の知的進歩に寄与する。 この論文で言及されたプロジェクトは、現在公開されている。

Non-alcoholic fatty liver disease (NAFLD) is a clinicopathological syndrome characterized by hepatic steatosis resulting from the exclusion of alcohol and other identifiable liver-damaging factors. It has emerged as a leading cause of chronic liver disease worldwide. Currently, the conventional methods for NAFLD detection are expensive and not suitable for users to perform daily diagnostics. To address this issue, this study proposes a non-invasive and interpretable NAFLD diagnostic method, the required user-provided indicators are only Gender, Age, Height, Weight, Waist Circumference, Hip Circumference, and tongue image. This method involves merging patients' physiological indicators with tongue features, which are then input into a fusion network named SelectorNet. SelectorNet combines attention mechanisms with feature selection mechanisms, enabling it to autonomously learn the ability to select important features. The experimental results show that the proposed method achieves an accuracy of 77.22\% using only non-invasive data, and it also provides compelling interpretability matrices. This study contributes to the early diagnosis of NAFLD and the intelligent advancement of TCM tongue diagnosis. The project mentioned in this paper is currently publicly available.
翻訳日:2023-12-07 18:27:25 公開日:2023-12-06
# 捕捉イオンのマルチサイト集積光アドレス

Multi-site Integrated Optical Addressing of Trapped Ions ( http://arxiv.org/abs/2308.14918v2 )

ライセンス: Link先を確認
Joonhyuk Kwon, William J. Setzer, Michael Gehl, Nicholas Karl, Jay Van Der Wall, Ryan Law, Daniel Stick and Hayden J. McGuinness(参考訳) 量子コンピュータと量子センサーの性能を向上させる最も効果的な方法の1つは、システム内の量子ビットや量子リソースの数を増やすことである。 捕捉イオン系におけるこの目標を達成するために解決しなければならない大きな技術的課題は、多くの個々のイオンへの光信号の配信をスケールすることである。 本稿では、導波路とマルチモード干渉計スプリッタを用いて、全量子ビット制御に必要な波長を全て供給することにより、表面トラップに複数の$^{171}\textrm{yb}^+$ ionsを光学的に対応させる手法を示す。 ドップラー冷却,状態調整,コヒーレント動作,検出に必要な光を導波路に統合することにより,e2クロック遷移における超微細スペクトルとrabi浮揚の測定を行った。 我々は、波長毎に1個の光入力を用いて複数のイオンに対処するスプリッタの使用を説明し、異なるトラップ部位で発生する2つの異なる遷移で同時にラビの浮き彫りを示す。 この研究は、原子時計や閉じ込められたイオン量子情報システムのためのスケーラブルな集積フォトニクスの実現に向けた重要なステップである。

One of the most effective ways to advance the performance of quantum computers and quantum sensors is to increase the number of qubits or quantum resources in the system. A major technical challenge that must be solved to realize this goal for trapped-ion systems is scaling the delivery of optical signals to many individual ions. In this paper we demonstrate an approach employing waveguides and multi-mode interferometer splitters to optically address multiple $^{171}\textrm{Yb}^+$ ions in a surface trap by delivering all wavelengths required for full qubit control. Measurements of hyperfine spectra and Rabi flopping were performed on the E2 clock transition, using integrated waveguides for delivering the light needed for Doppler cooling, state preparation, coherent operations, and detection. We describe the use of splitters to address multiple ions using a single optical input per wavelength and use them to demonstrate simultaneous Rabi flopping on two different transitions occurring at distinct trap sites. This work represents an important step towards the realization of scalable integrated photonics for atomic clocks and trapped-ion quantum information systems.
翻訳日:2023-12-07 18:27:07 公開日:2023-12-06
# バルクテルル中の光電流

Photocurrents in bulk tellurium ( http://arxiv.org/abs/2308.12741v2 )

ライセンス: Link先を確認
M. D. Moldavskaya, L. E. Golub, S. N. Danilov, V. V. Bel'kov, D. Weiss and S. D. Ganichev(参考訳) バルクテルル結晶中の偏光赤外/テラヘルツ光電流の包括的研究を報告する。 異なる光電流の寄与を観察し, 実験条件により, 三角光ガルバニック効果, 横線形光子ドラッグ効果, 磁場誘起リニア光ガルバニック効果および円光ガルバニック効果に起因することを示した。 観測されたすべての光電流は以前に報告されておらず、発達した現象学的および顕微鏡理論によってよく説明されている。 光電流の偏光、磁場、放射周波数依存性を研究することにより、その効果を曖昧に区別できることを示す。 30Hzの周波数では、光電流は原子価帯のサブバンド間の直接光遷移によって引き起こされる。 実験で使用した1~3Hzの低周波数では、これらの遷移は不可能となり、検出された光電流は間接光遷移(ドルデ様放射線吸収)によって引き起こされる。

We report a comprehensive study of polarized infrared/terahertz photocurrents in bulk tellurium crystals. We observe different photocurrent contributions and show that, depending on the experimental conditions, they are caused by the trigonal photogalvanic effect, the transverse linear photon drag effect, and the magnetic field induced linear and circular photogalvanic effects. All observed photocurrents have not been reported before and are well explained by the developed phenomenological and microscopic theory. We show that the effects can be unambiguously distinguished by studying the polarization, magnetic field, and radiation frequency dependence of the photocurrent. At frequencies around 30 THz, the photocurrents are shown to be caused by the direct optical transitions between subbands in the valence band. At lower frequencies of 1 to 3 THz, used in our experiment, these transitions become impossible and the detected photocurrents are caused by the indirect optical transitions (Drude-like radiation absorption).
翻訳日:2023-12-07 18:26:24 公開日:2023-12-06
# 選択パラメータ更新による汎用知識損失の克服

Overcoming Generic Knowledge Loss with Selective Parameter Update ( http://arxiv.org/abs/2308.12462v3 )

ライセンス: Link先を確認
Wenxuan Zhang, Paul Janson, Rahaf Aljundi, Mohamed Elhoseiny(参考訳) 基礎モデルは広範な知識ベースを包含し、顕著な転送性を提供する。 しかし、この知識は時間とともに時代遅れか不十分になる。 課題は、ファンデーションモデルを継続的に更新して、元の能力を保ちながら、新しい情報に対応させることにある。 基礎モデルが様々なタスクや領域について初期知識を持っているという事実を生かして、全てのパラメータを等しく更新する代わりに、学習対象のタスクに関連するスパースなパラメータ集合への更新をローカライズする新しいアプローチを提案する。 ファウンデーションモデルの転送性と一般化性を維持しながら、効率性と新しいタスクパフォーマンスのバランスを取ります。 連続学習タスクの多種多様なスペクトルを持つ基礎的視覚言語モデルにおいて,本手法を広範囲に評価する。 本手法は,新たに学習したタスクの精度を最大7%まで向上させるとともに,前訓練知識を代表制御セット精度で0.9%低下させることなく保持する。

Foundation models encompass an extensive knowledge base and offer remarkable transferability. However, this knowledge becomes outdated or insufficient over time. The challenge lies in continuously updating foundation models to accommodate novel information while retaining their original capabilities. Leveraging the fact that foundation models have initial knowledge on various tasks and domains, we propose a novel approach that, instead of updating all parameters equally, localizes the updates to a sparse set of parameters relevant to the task being learned. We strike a balance between efficiency and new task performance, while maintaining the transferability and generalizability of foundation models. We extensively evaluate our method on foundational vision-language models with a diverse spectrum of continual learning tasks. Our method achieves improvements on the accuracy of the newly learned tasks up to 7% while preserving the pretraining knowledge with a negligible decrease of 0.9% on a representative control set accuracy.
翻訳日:2023-12-07 18:26:07 公開日:2023-12-06
# 量子情報科学・技術教育におけるカリキュラム変換の枠組み

A Framework for Curriculum Transformation in Quantum Information Science and Technology Education ( http://arxiv.org/abs/2308.10371v2 )

ライセンス: Link先を確認
Simon Goorney, Jonas Bley, Stefan Heusler and Jacob Sherson(参考訳) 量子情報科学と技術(qist)の分野が急成長している。 このため、開発産業の労働力を確保するために、新しい教育コースや大学プログラムが数多く必要となる。 専門的な性格から、STEM分野における教育の最良のアプローチを支援することを目的とした、科学教育研究のかなりの範囲から、この分野の教育アプローチは切り離されている。 この2つのコミュニティを実践的かつ反復的な方法論で結びつけるために,我々は,この教育研究を,QISTキュリキュラの変換のための決定木に基づく理論的モデルに合成した。 QCTFは4つのステップから構成される。 1.トピックを選択します。 2 一つ以上の目標とするスキルを選択する。 3.学習目標を選択して 4.この目標を達成するための指導方法を選択する。 本稿では、このカリキュラムにおける量子通信の基本概念として、例カリキュラム、より具体的には量子テレポーテーションを用いてどのように実現できるかを示す。 このようにカリキュラム作成とトランスフォーメーションにアプローチすることで、教育の目標と成果がより明確に定義され、個人と業界の両方が関心を持つようになる。 このフレームワークは、QIST教育の物語を構造化することを目的としており、将来のテストと改良により、QISTの実践に関するさらなる研究の基盤を形成する。

The field of Quantum Information Science and Technology (QIST) is booming. Due to this, many new educational courses and university programs are needed in order to prepare a workforce for the developing industry. Owing to its specialist nature, teaching approaches in this field can suffer with being disconnected from the substantial degree of science education research which aims to support the best approaches to teaching in STEM fields. In order to connect these two communities with a pragmatic and repeatable methodology, we have synthesised this educational research into a decision-tree based theoretical model for the transformation of QIST curricula, intended to provide a didactical perspective for practitioners. The QCTF consists of four steps: 1. choose a topic, 2. choose one or more targeted skills, 3. choose a learning goal and 4. choose a teaching approach that achieves this goal. We show how this can be done using an example curriculum and more specifically quantum teleportation as a basic concept of quantum communication within this curriculum. By approaching curriculum creation and transformation in this way, educational goals and outcomes are more clearly defined which is in the interest of the individual and the industry alike. The framework is intended to structure the narrative of QIST teaching, and with future testing and refinement it will form a basis for further research in the didactics of QIST.
翻訳日:2023-12-07 18:25:52 公開日:2023-12-06
# 変圧器の深さ勾配連続性の改善:CNNによる単眼深度推定の比較検討

Improving Depth Gradient Continuity in Transformers: A Comparative Study on Monocular Depth Estimation with CNN ( http://arxiv.org/abs/2308.08333v3 )

ライセンス: Link先を確認
Jiawei Yao, Tong Wu, Xiaofeng Zhang(参考訳) 単眼深度推定はコンピュータビジョンにおいて進行中の課題である。 最近のトランスフォーマーモデルの進歩は、この分野の従来のcnnよりも顕著な利点を示している。 しかし、これらのモデルが2次元画像の異なる領域を優先し、これらの領域が深さ推定性能にどのように影響するかを理解するには、まだギャップがある。 トランスフォーマーとcnnの違いを探るため,我々は,両者の区別を対比的に解析するために,疎画素法を適用した。 以上の結果から,トランスフォーマーはグローバルな文脈や複雑なテクスチャを扱うのに優れるが,CNNより遅れて奥行き勾配の連続性を保っていることが示唆された。 単眼深度推定におけるトランスモデルの性能をさらに高めるために,高次微分,特徴融合,再校正により深さ推定を洗練する深さ勾配補正(dgr)モジュールを提案する。 さらに, 最適輸送理論を活用し, 深度写像を空間確率分布として扱い, 最適輸送距離を損失関数としてモデル最適化を行う。 実験により,プラグアンドプレイDGR(Depth Gradient Refinement)モジュールに統合されたモデルと,提案した損失関数により,屋外KITTIと屋内NYU-Depth-v2データセットの複雑さと計算コストを増大させることなく,性能が向上することを示した。 本研究は,トランスフォーマーとCNNの深度推定における区別に関する新たな知見を提供するだけでなく,新しい深度推定手法の道を開く。

Monocular depth estimation is an ongoing challenge in computer vision. Recent progress with Transformer models has demonstrated notable advantages over conventional CNNs in this area. However, there's still a gap in understanding how these models prioritize different regions in 2D images and how these regions affect depth estimation performance. To explore the differences between Transformers and CNNs, we employ a sparse pixel approach to contrastively analyze the distinctions between the two. Our findings suggest that while Transformers excel in handling global context and intricate textures, they lag behind CNNs in preserving depth gradient continuity. To further enhance the performance of Transformer models in monocular depth estimation, we propose the Depth Gradient Refinement (DGR) module that refines depth estimation through high-order differentiation, feature fusion, and recalibration. Additionally, we leverage optimal transport theory, treating depth maps as spatial probability distributions, and employ the optimal transport distance as a loss function to optimize our model. Experimental results demonstrate that models integrated with the plug-and-play Depth Gradient Refinement (DGR) module and the proposed loss function enhance performance without increasing complexity and computational costs on both outdoor KITTI and indoor NYU-Depth-v2 datasets. This research not only offers fresh insights into the distinctions between Transformers and CNNs in depth estimation but also paves the way for novel depth estimation methodologies.
翻訳日:2023-12-07 18:25:27 公開日:2023-12-06
# 連続量子計測電流の最初の通過時間

First Passage Times for Continuous Quantum Measurement Currents ( http://arxiv.org/abs/2308.07810v2 )

ライセンス: Link先を確認
Michael J. Kewming, Anthony Kiely, Steve Campbell, Gabriel T. Landi(参考訳) FPT(First Passage Time)は、確率過程が所望の閾値に達するのに要する時間である。 本稿では,連続的に測定される量子系の場合の確率的測定電流のfptについて述べる。 提案手法は電荷検出の全数統計量に関連する電荷分解マスター方程式に基づいている。 量子ジャンプにおいて、これはマスター方程式の結合系の形を取るが、量子拡散では量子フォッカー・プランク方程式の一種となる。 いずれの場合においても、fpt は吸収境界条件を導入することで得られることを示し、それらの計算を極めて効率的な {and analysisly tractable} とする。 フレームワークの汎用性は、2つの関連する例で示されています。 まず,本手法は,fptの信号対雑音比を境界とする量子ジャンプにおいて,最近提案されている速度的不確かさ関係(kurs)の厳密性を調べるために有効であることを示す。 第2に,Rabiパルスのしきい値検出器としての量子ビットの利用について検討し,検出確率を最大化するために,同時に偽陽性の発生を最小限に抑える方法を示す。

The First Passage Time (FPT) is the time taken for a stochastic process to reach a desired threshold. In this letter we address the FPT of the stochastic measurement current in the case of continuously measured quantum systems. Our approach is based on a charge-resolved master equation, which is related to the Full-Counting statistics of charge detection. In the quantum jump unravelling this takes the form of a coupled system of master equations, while for quantum diffusion it becomes a type of quantum Fokker-Planck equation. In both cases, we show that the FPT can be obtained by introducing absorbing boundary conditions, making their computation extremely efficient {and analytically tractable}. The versatility of our framework is demonstrated with two relevant examples. First, we show how our method can be used to study the tightness of recently proposed kinetic uncertainty relations (KURs) for quantum jumps, which place bounds on the signal-to-noise ratio of the FPT. Second, we study the usage of qubits as threshold detectors for Rabi pulses, and show how our method can be employed to maximize the detection probability while, at the same time, minimize the occurrence of false positives.
翻訳日:2023-12-07 18:24:56 公開日:2023-12-06
# TongueSAM:zero-Shotを用いたSAMに基づくユニバーサルトングセグメンテーションモデル

TongueSAM: An Universal Tongue Segmentation Model Based on SAM with Zero-Shot ( http://arxiv.org/abs/2308.06444v3 )

ライセンス: Link先を確認
Shan Cao, Qunsheng Ruan and Linjian Ma(参考訳) 舌分節はtcm舌の自動診断の第一段階であり, 診断結果において重要な役割を担っている。 現在、多くのディープラーニングベースの手法が有望な結果を得ている。 しかし、トレーニングセットと異なる、あるいは課題のある背景を持つ舌画像と向き合うと、これらの手法は限られた性能を示す。 そこで本研究では,SAM(Segment Anything Model)に基づく舌分割モデルTongueSAMを提案する。 SAMは、その強力なゼロショット一般化能力で知られている大規模な事前訓練された対話的セグメンテーションモデルである。 SAMを舌のセグメンテーションに適用することは、自然画像から学んだ知識を活用し、様々な種類の舌画像に対するゼロショットセグメンテーションの達成を可能にする。 本研究では,物体検出に基づくプロンプトジェネレータをSAMに統合し,エンドツーエンドの自動舌分割法を実現する。 TongueSAMは、特にゼロショット下で、様々な舌のセグメンテーションデータセットで例外的なパフォーマンスを達成している。 難しい背景舌画像を扱う場合でも、ランサムは他のセグメンテーション法を上回って、ゼロショット条件下で95.23\%のmiouを達成する。 われわれが知る限り、これは舌分割のための大規模事前訓練モデルの最初の応用である。 この論文で言及されたプロジェクトは、現在公開されている。

Tongue segmentation serves as the primary step in automated TCM tongue diagnosis, which plays a significant role in the diagnostic results. Currently, numerous deep learning based methods have achieved promising results. However, when confronted with tongue images that differ from the training set or possess challenging backgrounds, these methods demonstrate limited performance. To address this issue, this paper proposes a universal tongue segmentation model named TongueSAM based on SAM (Segment Anything Model). SAM is a large-scale pretrained interactive segmentation model known for its powerful zero-shot generalization capability. Applying SAM to tongue segmentation leverages its learned prior knowledge from natural images, enabling the achievement of zero-shot segmentation for various types of tongue images. In this study, a Prompt Generator based on object detection is integrated into SAM to enable an end-to-end automated tongue segmentation method. Experiments demonstrate that TongueSAM achieves exceptional performance across various of tongue segmentation datasets, particularly under zero-shot. Even when dealing with challenging background tongue images, TongueSAM achieves a mIoU of 95.23\% under zero-shot conditions, surpassing other segmentation methods. As far as we know, this is the first application of large-scale pretrained model for tongue segmentation. The project mentioned in this paper is currently publicly available.
翻訳日:2023-12-07 18:24:37 公開日:2023-12-06
# SSL-Auth: 自己教師型学習における事前学習エンコーダのためのFragile Watermarkingによる認証フレームワーク

SSL-Auth: An Authentication Framework by Fragile Watermarking for Pre-trained Encoders in Self-supervised Learning ( http://arxiv.org/abs/2308.04673v3 )

ライセンス: Link先を確認
Xiaobei Li, Changchun Yin, Liyue Zhu, Xiaogang Xu, Liming Fang, Run Wang, Chenhao Lin(参考訳) ラベルのないデータセットを使って堅牢なエンコーダをトレーニングするセルフ教師付き学習(ssl)は、最近かなりの成功を収めている。 これらのエンコーダは、重要な計算資源を必要とする下流タスクのための重要な特徴抽出器として機能する。 しかし、最近の研究は、バックドアや敵の脅威を含む、訓練済みのエンコーダの脆弱性に光を当てている。 エンコーダトレーナーの知的財産を保護し、デプロイされたエンコーダの信頼性を確保することは、SSLにおいて顕著な課題となる。 これらのギャップを埋めるために、トレーニング済みエンコーダ用に明示的に設計された最初の認証フレームワークであるSSL-Authを導入する。 SSL-Authは選択されたキーサンプルを活用し、よく訓練された生成ネットワークを使用して透かし情報を再構築する。 重要なサンプルの復元結果を比較することで、悪意のある変更を特定できる。 提案するSSL-Authの有効性を実証するため,様々なエンコーダおよび下流タスクの総合評価を行った。

Self-supervised learning (SSL), a paradigm harnessing unlabeled datasets to train robust encoders, has recently witnessed substantial success. These encoders serve as pivotal feature extractors for downstream tasks, demanding significant computational resources. Nevertheless, recent studies have shed light on vulnerabilities in pre-trained encoders, including backdoor and adversarial threats. Safeguarding the intellectual property of encoder trainers and ensuring the trustworthiness of deployed encoders pose notable challenges in SSL. To bridge these gaps, we introduce SSL-Auth, the first authentication framework designed explicitly for pre-trained encoders. SSL-Auth leverages selected key samples and employs a well-trained generative network to reconstruct watermark information, thus affirming the integrity of the encoder without compromising its performance. By comparing the reconstruction outcomes of the key samples, we can identify any malicious alterations. Comprehensive evaluations conducted on a range of encoders and diverse downstream tasks demonstrate the effectiveness of our proposed SSL-Auth.
翻訳日:2023-12-07 18:23:49 公開日:2023-12-06
# TEASMA:突然変異解析を用いたディープニューラルネットワークのテスト評価のための実践的アプローチ

TEASMA: A Practical Approach for the Test Assessment of Deep Neural Networks using Mutation Analysis ( http://arxiv.org/abs/2308.01311v2 )

ライセンス: Link先を確認
Amin Abbasishahkoo and Mahboubeh Dadkhah and Lionel Briand and Dayi Lin(参考訳) ディープニューラルネットワーク(dnn)のデプロイの成功、特に安全クリティカルなシステムでは、テスト結果に対する十分な信頼性を確保するために、十分なテストセットによる検証が必要である。 近年,従来のソフトウェアにおけるテスト精度測定手法である変異解析がDNNに適用されている。 この手法は、理想的には実際の故障を代表し、テスト精度の評価に使用できる変異体を生成することに基づいている。 本稿では、DNNモデルを直接修正する突然変異演算子(つまり後学習演算子)が、DNNの試験入力を確実に評価するためにどのように使用できるかを初めて検討する。 その結果,これらの演算子は,現実的障害を表すものではないが,障害との強い非線形関係を示すことがわかった。 この発見に触発されて,訓練データやプログラムを変更するオペレータ(即ち事前訓練オペレータ)と比較して,訓練後のオペレーターの重要な計算上の利点を考慮し,dnnsテストセットの妥当性を評価するための訓練後の突然変異に基づくアプローチであるteasmaを提案し,評価する。 TEASMAを使用すると、エンジニアはテスト結果が信頼できるかどうかを判断し、デプロイ前にDNNを検証することができる。 DNNモデルのトレーニングセットに基づいて、TEASMAは、その突然変異スコアからテストセットの障害検出率(FDR)の正確なDNN固有の予測モデルを構築する方法を提供し、その評価を可能にする。 複数のDNNモデルにおいて,予測されたFDR値は実値と強い線形相関(R2 >= 0.94)を持つことを示す。 その結果、TEASMAは、DNNモデルの試験結果を信頼するか、あるいはテストセットを改善するべきかを確実に判断するための信頼性の高い基盤を提供することが示された。

Successful deployment of Deep Neural Networks (DNNs), particularly in safety-critical systems, requires their validation with an adequate test set to ensure a sufficient degree of confidence in test outcomes. Mutation analysis, a well-established technique for measuring test adequacy in traditional software, has been adapted to DNNs in recent years. This technique is based on generating mutants that ideally aim to be representative of actual faults and thus can be used for test adequacy assessment. In this paper, we investigate for the first time whether and how mutation operators that directly modify the trained DNN model (i.e., post-training operators) can be used for reliably assessing the test inputs of DNNs. Our results show that these operators, though they do not aim to represent realistic faults, exhibit strong, non-linear relationships with faults. Inspired by this finding and considering the significant computational advantage of post-training operators compared to the operators that modify the training data or program (i.e., pre-training operators), we propose and evaluate TEASMA, an approach based on posttraining mutation for assessing the adequacy of DNNs test sets. In practice, TEASMA allows engineers to decide whether they will be able to trust test results and thus validate the DNN before its deployment. Based on a DNN model`s training set, TEASMA provides a methodology to build accurate DNNspecific prediction models of the Fault Detection Rate (FDR) of a test set from its mutation score, thus enabling its assessment. Our large empirical evaluation, across multiple DNN models, shows that predicted FDR values have a strong linear correlation (R2 >= 0.94) with actual values. Consequently, empirical evidence suggests that TEASMA provides a reliable basis for confidently deciding whether to trust test results or improve the test set of a DNN model.
翻訳日:2023-12-07 18:23:31 公開日:2023-12-06
# 量子カーネル法のハイパーパラメーターによる研究

A Hyperparameter Study for Quantum Kernel Methods ( http://arxiv.org/abs/2310.11891v2 )

ライセンス: Link先を確認
Sebastian Egginger, Alona Sakhnenko, Jeanette Miriam Lorenz(参考訳) 量子カーネルメソッドは、それらに接続された保証のおかげで、量子機械学習において有望な方法である。 分析的考察に対するそれらのアクセシビリティは、量子的優位性の可能性に基づいてデータセットを事前スクリーニングする可能性も開ける。 そのため、初期の研究は、量子カーネルと古典的カーネルの間の2つのカーネルベースの機械学習アプローチの密接度尺度として理解できる幾何学的差異を開発した。 この計量は量子と古典的なモデルの複雑さを結びつける。 したがって、モデル複雑性との関係に基づく幾何学的差が、量子優位のポテンシャル以外の評価において有用なツールであるかどうかという疑問を提起する。 本研究では,ハイパーパラメータ選択がモデル性能および古典カーネルと量子カーネル間の一般化ギャップに与える影響について検討する。 ハイパーパラメータ最適化の重要性は、古典的な機械学習でもよく知られている。 特に量子ハミルトニアン進化の特徴マップでは、入力データのスケーリングが重要であることが示されている。 しかし、最適化すべきパラメータは、投影された量子カーネルを計算する前にトレースする最善の量子ビット数のように、残されている。 これらのハイパーパラメータの影響を調査し,古典的信頼性の高いクロス検証法と幾何学的差異に基づく選択法を比較した。 11のデータセットにわたるハイパーパラメータの徹底的な調査に基づいて、新しいデータセットを調べる際に活用できる商品を特定しました。 さらに,この知見は,幾何学的差異の適用可能性の理解を深める一助となる。

Quantum kernel methods are a promising method in quantum machine learning thanks to the guarantees connected to them. Their accessibility for analytic considerations also opens up the possibility of prescreening datasets based on their potential for a quantum advantage. To do so, earlier works developed the geometric difference, which can be understood as a closeness measure between two kernel-based machine learning approaches, most importantly between a quantum kernel and classical kernel. This metric links the quantum and classical model complexities. Therefore, it raises the question of whether the geometric difference, based on its relation to model complexity, can be a useful tool in evaluations other than for the potential for quantum advantage. In this work, we investigate the effects of hyperparameter choice on the model performance and the generalization gap between classical and quantum kernels. The importance of hyperparameter optimization is well known also for classical machine learning. Especially for the quantum Hamiltonian evolution feature map, the scaling of the input data has been shown to be crucial. However, there are additional parameters left to be optimized, like the best number of qubits to trace out before computing a projected quantum kernel. We investigate the influence of these hyperparameters and compare the classically reliable method of cross validation with the method of choosing based on the geometric difference. Based on the thorough investigation of the hyperparameters across 11 datasets we identified commodities that can be exploited when examining a new dataset. In addition, our findings contribute to better understanding of the applicability of the geometric difference.
翻訳日:2023-12-07 18:17:14 公開日:2023-12-06
# Zipformer: 音声認識のための高速で優れたエンコーダ

Zipformer: A faster and better encoder for automatic speech recognition ( http://arxiv.org/abs/2310.11230v2 )

ライセンス: Link先を確認
Zengwei Yao, Liyong Guo, Xiaoyu Yang, Wei Kang, Fangjun Kuang, Yifan Yang, Zengrui Jin, Long Lin, Daniel Povey(参考訳) Conformerは自動音声認識(ASR)のための最も人気のあるエンコーダモデルとなっている。 ローカル依存とグローバル依存の両方を学ぶために、トランスフォーマーに畳み込みモジュールを追加する。 本研究では,Zipformerと呼ばれる高速で,メモリ効率が高く,パフォーマンスも向上したトランスフォーマーについて述べる。 モデリングの変更は以下のとおりである。 1) 中間スタックが低フレームレートで作動するu-netライクエンコーダ構造 2) 効率のために注意重みを再利用するより多くのモジュールを備えた再編成されたブロック構造 3) BiasNormと呼ばれるLayerNormの修正版は、いくつかの長さ情報を保持できます。 4) 新しいアクティベーション機能 SwooshR と SwooshL は Swish より優れている。 また,各テンソルの現在のスケールで更新をスケールし,相対的な変化をほぼ同じ状態に保ちながら,パラメータスケールを明示的に学習する,scaledadamと呼ばれる新しい最適化器を提案する。 これはAdamよりも早く収束し、パフォーマンスを向上させる。 LibriSpeech、Aishell-1、WenetSpeechデータセットの大規模な実験は、提案したZipformerが他の最先端のASRモデルに対して有効であることを示す。 私たちのコードはhttps://github.com/k2-fsa/icefallで公開されています。

The Conformer has become the most popular encoder model for automatic speech recognition (ASR). It adds convolution modules to a transformer to learn both local and global dependencies. In this work we describe a faster, more memory-efficient, and better-performing transformer, called Zipformer. Modeling changes include: 1) a U-Net-like encoder structure where middle stacks operate at lower frame rates; 2) reorganized block structure with more modules, within which we re-use attention weights for efficiency; 3) a modified form of LayerNorm called BiasNorm allows us to retain some length information; 4) new activation functions SwooshR and SwooshL work better than Swish. We also propose a new optimizer, called ScaledAdam, which scales the update by each tensor's current scale to keep the relative change about the same, and also explictly learns the parameter scale. It achieves faster convergence and better performance than Adam. Extensive experiments on LibriSpeech, Aishell-1, and WenetSpeech datasets demonstrate the effectiveness of our proposed Zipformer over other state-of-the-art ASR models. Our code is publicly available at https://github.com/k2-fsa/icefall.
翻訳日:2023-12-07 18:16:55 公開日:2023-12-06
# フェルミ・ハバードモデルにおけるグリーン関数の量子アルゴリズム

Quantum Algorithm for Green's Functions Measurements in the Fermi-Hubbard Model ( http://arxiv.org/abs/2310.10412v2 )

ライセンス: Link先を確認
Gino Bishop, Dmitry Bagrets, Frank K. Wilhelm(参考訳) 強相関フェルミオン系に対するハイブリッド量子古典変分クラスターアプローチ(vca)の枠組みにおいて、量子サブルーチンの目的の一つは、多項式時間で格子フェルミオンの単粒子相関関数を見つけることである。 以前の研究では、この目的のためにハダマール試験の変種を使用することを提案した。 しかし、シミュレーションモデルの完全なダイナミクスを特定する制御されたユニタリの実装が必要となる。 本研究では,ハバードモデルを模擬した量子回路に適応した線形応答理論において,久保公式のアナログを用いた新しい量子アルゴリズムを提案する。 これにより、クラスタのグリーン関数に直接アクセスでき、その結果、アダマールテストの使用を回避できる。 2量子ビットゲートのゲート数を大幅に削減し、ハードウェア設計の制限を従来のアプローチと比較した。

In the framework of the hybrid quantum-classical variational cluster approach (VCA) to strongly correlated fermion systems one of the goals of a quantum subroutine is to find single-particle correlation functions of lattice fermions in polynomial time. Previous works suggested to use variants of the Hadamard test for this purpose. However, it requires an implementation of controlled unitaries specifying the full dynamics of the simulated model. In this work, we propose a new quantum algorithm, which uses an analog of the Kubo formula within linear response theory adapted to a quantum circuit simulating the Hubbard model. It allows to access the Green's function of a cluster directly and thereby circumvents the usage of the Hadamard test. We find a drastic reduction in gate count of two-qubits gates and limitations on hardware design as compared to previous approaches.
翻訳日:2023-12-07 18:16:38 公開日:2023-12-06
# 視覚言語モデルのスケーリングから視覚データ型理解は生まれない

Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models ( http://arxiv.org/abs/2310.08577v3 )

ライセンス: Link先を確認
Vishaal Udandarao, Max F. Burg, Samuel Albanie, Matthias Bethge(参考訳) 近年の視覚言語モデル(VLM)の発展は、構成的イメージ理解の印象的な例を含む視覚意味コンテンツ認識において顕著な成功を収めている。 本稿では,視覚データ型識別,データキュレーション(大規模データセットからのノイズデータ削除,ドメイン固有検索など)と自律視覚(例えば,カメラのレンズ染色と気象条件の変化を区別する)の新たな課題を紹介する。 動物画像からなる2つのデータセットを27種類の視覚的データタイプに分けて開発し,4つのカテゴリにまたがった。 100Mから80Bのパラメータを含む39個のVLMの広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。 VLMは漫画やスケッチなど、ある種のスタイリスティックな \textit{data-types} を特定するのに適しているが、画像の回転や付加的なノイズといった基本的な操作から生じる単純なデータタイプに苦労する。 私たちの発見は (i)モデルスケーリングだけでCLIPのような対照的に訓練されたモデルに対して限界ゲインが得られる。 (ii)openflamingoのような最大の自己回帰訓練vlmの性能低下が顕著である。 この発見は、現在のフロンティアのVLMにおいて盲点であることを示している。セマンティックなコンテンツを認識するのに優れるが、スケーリングを通じて視覚的なデータ型を理解することに失敗する。 これらのモデルの事前学習分布を解析し、微調整中のキャプションにデータ型情報を組み込むことにより、性能を大幅に向上させる。 これまでにない課題を探索することにより,視覚的データ型理解を付加するために,VLMをさらに前進させるステージを設定することを目指している。 コードとデータセットはhttps://github.com/bethgelab/DataTypeIdentificationで公開される。

Recent advances in the development of vision-language models (VLMs) are yielding remarkable success in recognizing visual semantic content, including impressive instances of compositional image understanding. Here, we introduce the novel task of Visual Data-Type Identification, a basic perceptual skill with implications for data curation (e.g., noisy data-removal from large datasets, domain-specific retrieval) and autonomous vision (e.g., distinguishing changing weather conditions from camera lens staining). We develop two datasets consisting of animal images altered across a diverse set of 27 visual data-types, spanning four broad categories. An extensive zero-shot evaluation of 39 VLMs, ranging from 100M to 80B parameters, shows a nuanced performance landscape. While VLMs are reasonably good at identifying certain stylistic \textit{data-types}, such as cartoons and sketches, they struggle with simpler data-types arising from basic manipulations like image rotations or additive noise. Our findings reveal that (i) model scaling alone yields marginal gains for contrastively-trained models like CLIP, and (ii) there is a pronounced drop in performance for the largest auto-regressively trained VLMs like OpenFlamingo. This finding points to a blind spot in current frontier VLMs: they excel in recognizing semantic content but fail to acquire an understanding of visual data-types through scaling. By analyzing the pre-training distributions of these models and incorporating data-type information into the captions during fine-tuning, we achieve a significant enhancement in performance. By exploring this previously uncharted task, we aim to set the stage for further advancing VLMs to equip them with visual data-type understanding. Code and datasets are released at https://github.com/bethgelab/DataTypeIdentification.
翻訳日:2023-12-07 18:16:26 公開日:2023-12-06
# 時間反転アンシラによる吸収パラメータの量子的利用

Quantum advantage of time-reversed ancilla-based metrology of absorption parameters ( http://arxiv.org/abs/2310.06142v2 )

ライセンス: Link先を確認
Jiaxuan Wang, Ruynet. L. de Matos Filho, Girish S. Agarwal, and Luiz Davidovich(参考訳) オープンシステムダイナミクスを定義するパラメータの量子推定は、プローブと絡み合っているがダイナミクスに渡されないアンシラを用いて強化される。 ここでは,試料による光の透過率の推定において,吸収と散乱による損失を伴う重要な問題を考える。 量子フィッシャー情報の判定により,光パラメトリック増幅器が生成する2モーダル圧縮状態のモードであるプローブとアンシラの結合光子計数により,フォック状態入力に対して得られるアンシラ戦略が,単一モード推定において最善の精度をもたらすことを示す。 この提案は、高い光子数フォック状態の生成と検出の課題を克服し、追加ノイズに対して非常に頑健である:我々は、位相雑音に免疫があり、入射状態が絡み合わなければ精度は変化しないことを示す。 さらに、入力ビームの適度な光子損失の下でも量子ゲインが存在する。 我々はまた、現在の技術で容易に実装可能なジョイント光子計数の代替についても論じ、サンプルを2つの光パラメトリック増幅器の間に配置する時間反転手順と、第1に生成したスクイーズを解き放つ第2の方法により、サンプルがプローブされる前の入力ビームの適度な光子損失であっても、弱い吸収のために量子フィッシャー情報結果にアプローチする。 損失パラメータの推定精度は、平均出力全光子数とその分散から得られる。 どちらの手順でも、プローブの状態と検出手順はパラメータの値とは独立である。

Quantum estimation of parameters defining open-system dynamics may be enhanced by using ancillas that are entangled with the probe but are not submitted to the dynamics. Here we consider the important problem of estimation of transmission of light by a sample, with losses due to absorption and scattering. We show, through the determination of the quantum Fisher information, that the ancilla strategy leads to the best possible precision in single-mode estimation, the one obtained for a Fock state input, through joint photon-counting of probe and ancilla, which are modes of a bimodal squeezed state produced by an optical parametric amplifier. This proposal overcomes the challenge of producing and detecting high photon-number Fock states, and it is quite robust against additional noise: we show that it is immune to phase noise and the precision does not change if the incoming state gets disentangled. Furthermore, the quantum gain is still present under moderate photon losses of the input beams. We also discuss an alternative to joint photon counting, which is readily implementable with present technology, and approaches the quantum Fisher information result for weak absorption, even with moderate photons losses of the input beams before the sample is probed: a time-reversal procedure, placing the sample between two optical parametric amplifiers, with the second undoing the squeezing produced by the first one. The precision of estimation of the loss parameter is obtained from the average outgoing total photon number and its variance. In both procedures, the state of the probe and the detection procedure are independent of the value of the parameter.
翻訳日:2023-12-07 18:15:52 公開日:2023-12-06
# LLMLingua: 大規模言語モデルの高速化推論のためのプロンプト圧縮

LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models ( http://arxiv.org/abs/2310.05736v2 )

ライセンス: Link先を確認
Huiqiang Jiang, Qianhui Wu, Chin-Yew Lin, Yuqing Yang, Lili Qiu(参考訳) 大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。 chain-of-thought (cot) プロンプトや in-context learning (icl) といった技術の進歩により、llm に供給されるプロンプトはますます長くなり、数万トークンを超えている。 モデル推論を高速化し、コストを削減するため、LLMLingua、高圧縮率下で意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮法、圧縮されたコンテンツ間の相互依存性をより良くモデル化するトークンレベルの反復圧縮アルゴリズム、言語モデル間の分配アライメントのための命令チューニングに基づく手法を提案する。 我々は,GSM8K,BBH,ShareGPT,Arxiv- March23の4つのシナリオを対象とした実験と解析を行い,提案手法が最先端性能を実現し,性能損失の少ない最大20倍圧縮を実現することを示す。 私たちのコードはhttps://aka.ms/LLMLingua.comで利用可能です。

Large language models (LLMs) have been applied in various applications due to their astonishing capabilities. With advancements in technologies such as chain-of-thought (CoT) prompting and in-context learning (ICL), the prompts fed to LLMs are becoming increasingly lengthy, even exceeding tens of thousands of tokens. To accelerate model inference and reduce cost, this paper presents LLMLingua, a coarse-to-fine prompt compression method that involves a budget controller to maintain semantic integrity under high compression ratios, a token-level iterative compression algorithm to better model the interdependence between compressed contents, and an instruction tuning based method for distribution alignment between language models. We conduct experiments and analysis over four datasets from different scenarios, i.e., GSM8K, BBH, ShareGPT, and Arxiv-March23; showing that the proposed approach yields state-of-the-art performance and allows for up to 20x compression with little performance loss. Our code is available at https://aka.ms/LLMLingua.
翻訳日:2023-12-07 18:15:22 公開日:2023-12-06
# 多変量非線形性を有するニューラルネットワークの関数空間最適性

Function-Space Optimality of Neural Architectures With Multivariate Nonlinearities ( http://arxiv.org/abs/2310.03696v2 )

ライセンス: Link先を確認
Rahul Parhi and Michael Unser(参考訳) 多変量非線形性/活性化関数を持つ浅層ニューラルネットワークの関数空間最適性(具体的にはバナッハ空間最適性)について検討する。 この目的のために、我々は正規化作用素、$k$-平面変換、およびスパーシティ・プロモーティングノルムを通じて定義されるバナッハ空間の新しい族を構築する。 これらのバナッハ空間上で生じる学習問題に対する解集合が、多変量非線形性を持つニューラルアーキテクチャによって完全に特徴づけられることを証明した。 これらの最適アーキテクチャは接続をスキップし、直交量正規化とマルチインデックスモデルに強く結びついており、どちらもニューラルネットワークコミュニティに最近関心を寄せている。 本手法は, 直交線形単位(relu)活性化関数, ノルム活性化関数, および薄板/多ハーモニックスプラインの理論に見られる放射基底関数を含む, 数多くの古典非線形性に適合する。 また、基底空間は、カーネルバナッハ空間と変分空間を再現する特別な例であることを示す。 その結果、特に多変量非線形性で訓練されたニューラルネットワークが学習した関数の規則性に光を当て、実際に見つかったいくつかのアーキテクチャ選択に対する新たな理論的動機を与えた。

We investigate the function-space optimality (specifically, the Banach-space optimality) of a large class of shallow neural architectures with multivariate nonlinearities/activation functions. To that end, we construct a new family of Banach spaces defined via a regularization operator, the $k$-plane transform, and a sparsity-promoting norm. We prove a representer theorem that states that the solution sets to learning problems posed over these Banach spaces are completely characterized by neural architectures with multivariate nonlinearities. These optimal architectures have skip connections and are tightly connected to orthogonal weight normalization and multi-index models, both of which have received recent interest in the neural network community. Our framework is compatible with a number of classical nonlinearities including the rectified linear unit (ReLU) activation function, the norm activation function, and the radial basis functions found in the theory of thin-plate/polyharmonic splines. We also show that the underlying spaces are special instances of reproducing kernel Banach spaces and variation spaces. Our results shed light on the regularity of functions learned by neural networks trained on data, particularly with multivariate nonlinearities, and provide new theoretical motivation for several architectural choices found in practice.
翻訳日:2023-12-07 18:14:58 公開日:2023-12-06
# ポイントPEFT:3次元事前学習モデルのためのパラメータ効率の良いファインチューニング

Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models ( http://arxiv.org/abs/2310.03059v4 )

ライセンス: Link先を確認
Ivan Tang, Ray Zhang, Zoey Guo, Xianzheng Ma, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li(参考訳) 事前訓練された大規模モデルの人気は、言語、ビジョン、マルチモダリティといった様々な分野の下流タスクに革命をもたらした。 下流タスクの適応コストを最小限に抑えるために,言語および2次元画像事前訓練モデルに対して,パラメータ効率の良い細調整(PEFT)技術が多数提案されている。 しかし,3次元事前学習モデルのPEFT法はまだ未検討である。 この目的のために,最小限の学習パラメータを持つポイントクラウド事前学習モデルに適用するための新しいフレームワークであるPoint-PEFTを紹介する。 具体的には、事前トレーニングされた3dモデルでは、ほとんどのパラメータを凍結し、新たに追加されたpeftモジュールを、ポイント優先プロンプトとジオメトリ対応アダプタで構成される下流タスクでのみチューニングします。 Point-prior Promptは学習可能なプロンプトトークンの集合を採用し、ドメイン固有の知識を持つメモリバンクの構築を提案し、パラメータフリーの注意を使ってプロンプトトークンを強化する。 Geometry-Aware Adapterは、空間近傍の点雲の特徴を集約し、局所的な相互作用を通じてきめ細かい幾何学的情報をキャプチャすることを目的としている。 広範な実験により,ダウンストリームタスクの完全な微調整よりも優れた性能を実現することができたが,トレーニング可能なパラメータは5%に過ぎず,その効率と効果を示すことができた。 コードはhttps://github.com/Even-JK/PEFT-3Dで公開される。

The popularity of pre-trained large models has revolutionized downstream tasks across diverse fields, such as language, vision, and multi-modality. To minimize the adaption cost for downstream tasks, many Parameter-Efficient Fine-Tuning (PEFT) techniques are proposed for language and 2D image pre-trained models. However, the specialized PEFT method for 3D pre-trained models is still under-explored. To this end, we introduce Point-PEFT, a novel framework for adapting point cloud pre-trained models with minimal learnable parameters. Specifically, for a pre-trained 3D model, we freeze most of its parameters, and only tune the newly added PEFT modules on downstream tasks, which consist of a Point-prior Prompt and a Geometry-aware Adapter. The Point-prior Prompt adopts a set of learnable prompt tokens, for which we propose to construct a memory bank with domain-specific knowledge, and utilize a parameter-free attention to enhance the prompt tokens. The Geometry-aware Adapter aims to aggregate point cloud features within spatial neighborhoods to capture fine-grained geometric information through local interactions. Extensive experiments indicate that our Point-PEFT can achieve better performance than the full fine-tuning on various downstream tasks, while using only 5% of the trainable parameters, demonstrating the efficiency and effectiveness of our approach. Code will be released at https://github.com/Even-JK/PEFT-3D.
翻訳日:2023-12-07 18:14:34 公開日:2023-12-06
# TIGERScore:すべてのテキスト生成タスクのための説明可能なメトリクスの構築を目指して

TIGERScore: Towards Building Explainable Metric for All Text Generation Tasks ( http://arxiv.org/abs/2310.00752v2 )

ライセンス: Link先を確認
Dongfu Jiang, Yishan Li, Ge Zhang, Wenhao Huang, Bill Yuchen Lin, Wenhu Chen(参考訳) 本稿では,テキスト生成タスクの幅広い範囲において,textbf{I}nstruction \textbf{G}uidance を用いて,textbf{E}xplainable および \textbf{R}eference-free 評価を行う。 アークーンスコアのみを提供する他の自動評価方法とは異なり、TIGERScoreは自然言語命令によって誘導され、生成されたテキストの誤りをピンポイントするエラー解析を提供する。 LLaMA-2は6つのテキスト生成タスクと23のテキスト生成データセットをカバーする命令チューニングデータセットである。 データセットは42K四重項からなる(命令、入力、システム出力$\rightarrow$エラー解析)。 さまざまなタイプのエラーをカバーするために,多種多様なモデルから‘システム出力’を収集した。 評価基準を定量的に評価するため、5つのホールドインデータセット、2つのホールドアウトデータセットの人格評価との相関を評価し、TIGERScoreがこれらのデータセットの人格評価とオープンソースSoTA相関を達成でき、GPT-4評価にほぼ近づいたことを示す。 基準のない計量として、その相関は既存の基準ベースの最高の指標を超えうる。 さらに,本測定で得られた理論的根拠を定性的に評価するために,生成された説明について人間による評価を行い,その説明が70.8\%正確であることを見出した。 これらの実験結果を通じて、TIGERScoreは、任意のテキスト生成タスクを評価する普遍的な説明可能なメトリクスを構築する可能性を実証している。

We present TIGERScore, a \textbf{T}rained metric that follows \textbf{I}nstruction \textbf{G}uidance to perform \textbf{E}xplainable, and \textbf{R}eference-free evaluation over a wide spectrum of text generation tasks. Different from other automatic evaluation methods that only provide arcane scores, TIGERScore is guided by natural language instruction to provide error analysis to pinpoint the mistakes in the generated text. Our metric is based on LLaMA-2, trained on our meticulously curated instruction-tuning dataset MetricInstruct which covers 6 text generation tasks and 23 text generation datasets. The dataset consists of 42K quadruple in the form of (instruction, input, system output $\rightarrow$ error analysis). We collected the `system outputs' through from a large variety of models to cover different types of errors. To quantitatively assess our metric, we evaluate its correlation with human ratings on 5 held-in datasets, 2 held-out datasets and show that TIGERScore can achieve the open-source SoTA correlation with human ratings across these datasets and almost approaches GPT-4 evaluator. As a reference-free metric, its correlation can even surpass the best existing reference-based metrics. To further qualitatively assess the rationale generated by our metric, we conduct human evaluation on the generated explanations and found that the explanations are 70.8\% accurate. Through these experimental results, we believe TIGERScore demonstrates the possibility of building universal explainable metrics to evaluate any text generation task.
翻訳日:2023-12-07 18:14:09 公開日:2023-12-06
# 小さな視覚言語モデルを用いた自己監督型オープンエンディング分類

Self-Supervised Open-Ended Classification with Small Visual Language Models ( http://arxiv.org/abs/2310.00500v2 )

ライセンス: Link先を確認
Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Cees G. M. Snoek, Marcel Worring, Yuki M. Asano(参考訳) 視覚言語モデルを用いたオープンディビジョン分類において,自己教師付きアプローチであるsecat(self-context adaptation)を提案する。 提案手法は,大量の画像プールをクラスタ化した後,意味的に無関係な名前をクラスタ化することで,イメージキャプションを自己管理的に模倣する。 そこで我々は,画像と疑似カプセル対のインターリーブされたシーケンスと,問合せ画像からなる学習信号を構築し,それを「自己文脈」列と呼ぶ。 この信号に基づいて、モデルは適切な擬似カプセルを生成するように訓練される。 様々な粒度にまたがるマルチモーダルな数ショットデータセット上で,SeCAtの性能と柔軟性を示す。 約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。 SeCAtは、大規模またはプロプライエタリなモデルへのアクセスを必要とする、オープンソースの数ショット学習における研究と応用の新たな可能性を開く。

We present Self-Context Adaptation (SeCAt), a self-supervised approach that unlocks few-shot abilities for open-ended classification with small visual language models. Our approach imitates image captions in a self-supervised way based on clustering a large pool of images followed by assigning semantically-unrelated names to clusters. By doing so, we construct a training signal consisting of interleaved sequences of image and pseudocaption pairs and a query image, which we denote as the 'self-context' sequence. Based on this signal the model is trained to produce the right pseudo-caption. We demonstrate the performance and flexibility of SeCAt on several multimodal few-shot datasets, spanning various granularities. By using models with approximately 1B parameters we outperform the few-shot abilities of much larger models, such as Frozen and FROMAGe. SeCAt opens new possibilities for research and applications in open-ended few-shot learning that otherwise requires access to large or proprietary models.
翻訳日:2023-12-07 18:13:35 公開日:2023-12-06
# ローカルスーパーオペレーターの基底状態としての対称性

Symmetries as Ground States of Local Superoperators ( http://arxiv.org/abs/2309.15167v2 )

ライセンス: Link先を確認
Sanjay Moudgalya, Olexei I. Motrunich(参考訳) 局所性を持つ量子多体系の対称性代数は、与えられた局所作用素の集合と可換な作用素の代数として定義される可換代数を用いて理解することができる。 本研究では、これらの対称性代数を局所超作用素のフラストレーションのない基底状態として表現できることを示し、これを「超ハミルトニアン」と呼ぶ。 これは、例えば$z_2$、$u(1)$、$su(2)$のように、対称性代数が様々な強磁性基底状態に写像する従来の対称性や、ヒルベルト空間の断片化や量子多体傷の弱いエルゴーディティ破砕現象をもたらす非慣習的な対称性に対して証明する。 さらに、この超ハミルトニアンは、雑音対称ブラウン回路における作用素緩和を支配する超作用素であることを示す。 この物理解釈は、自己相関関数のマズール境界に対する新しい解釈を提供し、超ハミルトニアンの低エネルギー励起を対称性系の緩やかな緩和モードを決定する近似対称性に関連付ける。 離散/連続対称性の存在下で生じるスローモードの欠如/欠如を示すガッピング/ガップレス超ハミルトニアンの例を見いだす。 空隙のない場合、それぞれU(1)$対称性、ヒルベルト空間の断片化、および量子的き裂の塔の存在下で、拡散、トレーサー拡散、漸近的き裂などの緩やかなモードを回復する。 これは、局所性を持つ系における対称性とそれらの動的結果の包括的理解を得る際の可換代数フレームワークの力を示す。

Symmetry algebras of quantum many-body systems with locality can be understood using commutant algebras, which are defined as algebras of operators that commute with a given set of local operators. In this work, we show that these symmetry algebras can be expressed as frustration-free ground states of a local superoperator, which we refer to as a "super-Hamiltonian". We demonstrate this for conventional symmetries such as $Z_2$, $U(1)$, and $SU(2)$, where the symmetry algebras map to various kinds of ferromagnetic ground states, as well as for unconventional ones that lead to weak ergodicity breaking phenomena of Hilbert space fragmentation and quantum many-body scars. In addition, we show that this super-Hamiltonian is exactly the superoperator that governs the operator relaxation in noisy symmetric Brownian circuits. This physical interpretation provides a novel interpretation for Mazur bounds for autocorrelation functions, and relates the low-energy excitations of the super-Hamiltonian to approximate symmetries that determine slowly relaxing modes in symmetric systems. We find examples of gapped/gapless super-Hamiltonians indicating the absence/presence of slow-modes, which happens in the presence of discrete/continuous symmetries. In the gapless cases, we recover slow-modes such as diffusion, tracer diffusion, and asymptotic scars in the presence of $U(1)$ symmetry, Hilbert space fragmentation, and a tower of quantum scars respectively. In all, this demonstrates the power of the commutant algebra framework in obtaining a comprehensive understanding of symmetries and their dynamical consequences in systems with locality.
翻訳日:2023-12-07 18:13:18 公開日:2023-12-06
# 閉ループ個別化曲線を用いた連続運転政策最適化

Continual Driving Policy Optimization with Closed-Loop Individualized Curricula ( http://arxiv.org/abs/2309.14209v2 )

ライセンス: Link先を確認
Haoyi Niu, Yizhou Xu, Xingjian Jiang, Jianming Hu(参考訳) 自動運転車(AV)の安全性は、長い尾の自然主義運転分布において稀で安全に重要なシナリオが欠如していることから、長年の最大の懸念事項となっている。 この課題に取り組むために、高リスク運転シナリオの生成と、avモデルの安全性クリティカルテストの適用に重点を置いた、シナリオベースの自動運転の研究が急増している。 しかし、avモデルを反復的に改善するためにこれらの広範なシナリオを再利用する作業は限られている。 さらに、異なる振る舞いを持つ他のAVモデルから収集された巨大なシナリオライブラリを抽出し、現在のAV改善のために転送可能な情報を抽出することが難しかった。 そこで我々は,CLIC(Crowd-Loop individualized Curricula)を特徴とする連続運転ポリシー最適化フレームワークを開発し,AV評価,シナリオ選択,AVトレーニングなど,フレキシブルな実装選択のための標準化されたサブモジュールのセットに分解する。 CLICは衝突予測タスクとしてAV評価をフレーム化し、各イテレーションでこれらのシナリオでAV障害が起こる確率を見積もる。 その後、これらの障害確率に基づいて過去のシナリオを再サンプリングすることで、CLICは下流トレーニング用に個別化されたキュキュラを調整し、AVの評価能力と整合させる。 したがって、CLICは、クローズドループ駆動ポリシー最適化のための膨大な事前コンパイルされたシナリオライブラリの利用を最大化するだけでなく、トレーニングをこれらの未整理シナリオからより困難なケースで識別することで、AV改善を促進する。 実験結果から,CLICは他のカリキュラムベースのトレーニング戦略を超越し,リスクのあるシナリオの管理が大幅に改善され,単純なケースの処理能力は維持されていることが明らかとなった。

The safety of autonomous vehicles (AV) has been a long-standing top concern, stemming from the absence of rare and safety-critical scenarios in the long-tail naturalistic driving distribution. To tackle this challenge, a surge of research in scenario-based autonomous driving has emerged, with a focus on generating high-risk driving scenarios and applying them to conduct safety-critical testing of AV models. However, limited work has been explored on the reuse of these extensive scenarios to iteratively improve AV models. Moreover, it remains intractable and challenging to filter through gigantic scenario libraries collected from other AV models with distinct behaviors, attempting to extract transferable information for current AV improvement. Therefore, we develop a continual driving policy optimization framework featuring Closed-Loop Individualized Curricula (CLIC), which we factorize into a set of standardized sub-modules for flexible implementation choices: AV Evaluation, Scenario Selection, and AV Training. CLIC frames AV Evaluation as a collision prediction task, where it estimates the chance of AV failures in these scenarios at each iteration. Subsequently, by re-sampling from historical scenarios based on these failure probabilities, CLIC tailors individualized curricula for downstream training, aligning them with the evaluated capability of AV. Accordingly, CLIC not only maximizes the utilization of the vast pre-collected scenario library for closed-loop driving policy optimization but also facilitates AV improvement by individualizing its training with more challenging cases out of those poorly organized scenarios. Experimental results clearly indicate that CLIC surpasses other curriculum-based training strategies, showing substantial improvement in managing risky scenarios, while still maintaining proficiency in handling simpler cases.
翻訳日:2023-12-07 18:12:47 公開日:2023-12-06
# 1次元上の自由フェルミオンに対する測定誘起相転移

Measurement-induced phase transition for free fermions above one dimension ( http://arxiv.org/abs/2309.12405v2 )

ライセンス: Link先を確認
Igor Poboiko, Igor V. Gornyi, Alexander D. Mirlin(参考訳) 自由フェルミオンモデルに対する$d>1$次元における測定誘起エンタングルメント相転移の理論を開発した。 臨界点は、粒子数とエンタングルメントエントロピーの第二累積量である$\ell^{d-1} \ln \ell$スケーリングのギャップレス位相と、$\ell^{d-1}$スケーリングの領域ロー位相とを分離し、ここで$\ell$はサブシステムのサイズである。 この問題は、$R\to 1$を持つ$d+1$次元のSU($R$)レプリカ非線型シグマモデルにマッピングされる。 正規化群解析を用いて、1ループ近似における臨界指標を$d = 1+ \epsilon$と$\epsilon \ll 1$で計算する。 さらに、正方格子上の$d=2$モデルの遷移の数値的研究を行い、臨界点を数値的に決定し、相関長の臨界指数である$\nu \approx 1.4$を推定する。

A theory of the measurement-induced entanglement phase transition for free-fermion models in $d>1$ dimensions is developed. The critical point separates a gapless phase with $\ell^{d-1} \ln \ell$ scaling of the second cumulant of the particle number and of the entanglement entropy and an area-law phase with $\ell^{d-1}$ scaling, where $\ell$ is a size of the subsystem. The problem is mapped onto an SU($R$) replica non-linear sigma model in $d+1$ dimensions, with $R\to 1$. Using renormalization-group analysis, we calculate critical indices in one-loop approximation justified for $d = 1+ \epsilon$ with $\epsilon \ll 1$. Further, we carry out a numerical study of the transition for a $d=2$ model on a square lattice, determine numerically the critical point, and estimate the critical index of the correlation length, $\nu \approx 1.4$.
翻訳日:2023-12-07 18:12:14 公開日:2023-12-06
# 単純集合による代数トポロジーのための新しい量子計算セット

A new quantum computational set-up for algebraic topology via simplicial sets ( http://arxiv.org/abs/2309.11304v2 )

ライセンス: Link先を確認
Roberto Zucchini(参考訳) 本稿では,Simplicial set theoryに基づく代数トポロジーの量子計算フレームワークの基礎を概説する。 これは、主にトポロジカルデータ解析を目的とし、単純な複素数に制限された以前の研究を拡張した。 我々のセットアップは任意のパラ有限単純集合に適用され、それを有限次元の単純ヒルベルト空間に関連付け、その単純作用素構造を深く研究する。 特に、simplicial set のホモロジーを決定する問題は、simplicial Hilbert frameworkの中でどのように解決できるかを示す。 本稿では,量子コンピュータの有限資源を考慮した量子計算環境において,単純集合論的アルゴリズムを実装できる条件について検討する。 最後に,いくつかの基本的な量子アルゴリズムを組み合わせた簡約集合の単純ホモロジー空間とベッチ数を計算可能な量子アルゴリズムスキームを概説する。

In this paper, we lay down the foundation of a quantum computational framework for algebraic topology based on simplicial set theory. This extends previous work, which was limited to simplicial complexes and aimed mostly to topological data analysis. Our set--up applies to any parafinite simplicial set and proceeds by associating with it a finite dimensional simplicial Hilbert space, whose simplicial operator structure we study in depth. We show in particular how the problem of determining the simplicial set's homology can be solved within the simplicial Hilbert framework. We examine further the conditions under which simplicial set theoretic algorithms can be implemented in a quantum computational setting taking into account a quantum computer's finite resources. We outline finally a quantum algorithmic scheme capable to compute the simplicial homology spaces and Betti numbers of a simplicial set combining a number of basic quantum algorithms.
翻訳日:2023-12-07 18:11:53 公開日:2023-12-06
# 多数のラベルを用いたテキスト分類のための文脈内学習

In-Context Learning for Text Classification with Many Labels ( http://arxiv.org/abs/2309.10954v2 )

ライセンス: Link先を確認
Aristides Milios, Siva Reddy, Dzmitry Bahdanau(参考訳) 多くのラベルを持つタスクに対して大きな言語モデルを用いたインコンテキスト学習(ICL)は、コンテキストウィンドウが限られており、プロンプトに十分な数のサンプルを適合させることが困難である。 本稿では,事前学習された高密度検索モデルを用いて,この制限を回避し,各推論呼出の完全なラベル空間の部分的なビューのみを与える。 近年のオープンソースLLM (OPT, LLaMA) を用いて, 3つの共通の意図分類データセットに対して, ファインタニングを伴わずに, 数ショット設定でアートパフォーマンスの新たな状態を設定した。 また,特定の場合において,細粒度感情分類の微調整性能を上回った。 我々は,複数のインコンテキストサンプルと異なるモデルスケールのパフォーマンスを分析し,大規模モデルがiclのより大きなコンテキスト長を効果的かつ一貫して利用する必要があることを示した。 いくつかのアブレーションを実行することで、モデルの使い方を分析します。 a) インコンテキストの例と現在の入力との類似性 b) クラス名の意味的内容,及び c) 例とラベルの正確な対応 最近の研究とは対照的に、3つ全てがドメインによって異なる次数を必要とすることを実証する。

In-context learning (ICL) using large language models for tasks with many labels is challenging due to the limited context window, which makes it difficult to fit a sufficient number of examples in the prompt. In this paper, we use a pre-trained dense retrieval model to bypass this limitation, giving the model only a partial view of the full label space for each inference call. Testing with recent open-source LLMs (OPT, LLaMA), we set new state of the art performance in few-shot settings for three common intent classification datasets, with no finetuning. We also surpass fine-tuned performance on fine-grained sentiment classification in certain cases. We analyze the performance across number of in-context examples and different model scales, showing that larger models are necessary to effectively and consistently make use of larger context lengths for ICL. By running several ablations, we analyze the model's use of: a) the similarity of the in-context examples to the current input, b) the semantic content of the class names, and c) the correct correspondence between examples and labels. We demonstrate that all three are needed to varying degrees depending on the domain, contrary to certain recent works.
翻訳日:2023-12-07 18:11:39 公開日:2023-12-06
# 制約パラメータ正規化

Constrained Parameter Regularization ( http://arxiv.org/abs/2311.09058v2 )

ライセンス: Link先を確認
J\"org K.H. Franke, Michael Hefenbrock, Gregor Koehler, Frank Hutter(参考訳) 正規化はディープラーニングトレーニングにおいて重要な要素であり、体重減少は一般的なアプローチである。 すべてのパラメータに対して一定のペナルティ係数を適用する。 これは一部のパラメータには不必要に制限されるが、他のパラメータには不十分である。 異なるパラメータ群に対するペナルティ係数を動的に調整するために,従来の減量に代わる制約付きパラメータ正規化(cpr)を提案する。 すべてのパラメータに単一の定数ペナルティを適用する代わりに、パラメータ群の統計的測度(例えば、l$_2$-norm)の上界を強制する。 その結果,学習は制約最適化問題となり,拡張ラグランジアン法の適用によって対処する。 cprは2つのハイパーパラメータしか必要とせず、実行時のオーバーヘッドを計測できない。 さらに,最適化時に上界を適応するための簡易かつ効率的な機構を提案する。 我々は,CPRの「農業」現象,コンピュータビジョン,言語モデリングタスクの実験における有効性の実証的証拠を提供する。 以上の結果から,CPRはグルーキングの効果と相反し,従来の重量減少よりも優れていた。

Regularization is a critical component in deep learning training, with weight decay being a commonly used approach. It applies a constant penalty coefficient uniformly across all parameters. This may be unnecessarily restrictive for some parameters, while insufficiently restricting others. To dynamically adjust penalty coefficients for different parameter groups, we present constrained parameter regularization (CPR) as an alternative to traditional weight decay. Instead of applying a single constant penalty to all parameters, we enforce an upper bound on a statistical measure (e.g., the L$_2$-norm) of parameter groups. Consequently, learning becomes a constraint optimization problem, which we address by an adaptation of the augmented Lagrangian method. CPR only requires two hyperparameters and incurs no measurable runtime overhead. Additionally, we propose a simple but efficient mechanism to adapt the upper bounds during the optimization. We provide empirical evidence of CPR's efficacy in experiments on the "grokking" phenomenon, computer vision, and language modeling tasks. Our results demonstrate that CPR counteracts the effects of grokking and consistently matches or outperforms traditional weight decay.
翻訳日:2023-12-07 18:04:40 公開日:2023-12-06
# ランダムダイナミクスによるページ曲線とレプリカワームホール

Page curves and replica wormholes from random dynamics ( http://arxiv.org/abs/2311.07655v2 )

ライセンス: Link先を確認
Jan de Boer, Jildou Hollander, Andrew Rolph(参考訳) 非単体ページ曲線と、ランダムなダイナミクスを持つ玩具量子系のユニタリティを復元する模擬ワームホールのような寄与の両方をキャプチャする方法を示す。 動機は、重力物理学のこの側面を捉える最も単純な力学モデルを見つけることである。 我々のモデルでは、マイクロカノニカルウィンドウ内でGUE統計を持つハミルトンのアンサンブルで進化する。 平均状態のエントロピーは非ユニタリ曲線、平均エントロピーはユニタリ曲線、この差は密度行列をレプリカワームホールのように連結するハール平均における行列指数の収縮から生じる。

We show how to capture both the non-unitary Page curve and replica wormhole-like contributions that restore unitarity in a toy quantum system with random dynamics. The motivation is to find the simplest dynamical model that captures this aspect of gravitational physics. In our model, we evolve with an ensemble of Hamiltonians with GUE statistics within microcanonical windows. The entropy of the averaged state gives the non-unitary curve, the averaged entropy gives the unitary curve, and the difference comes from matrix index contractions in the Haar averaging that connect the density matrices in a replica wormhole-like manner.
翻訳日:2023-12-07 18:04:23 公開日:2023-12-06
# InfMLLM:ビジュアル言語タスクのための統一フレームワーク

InfMLLM: A Unified Framework for Visual-Language Tasks ( http://arxiv.org/abs/2311.06791v2 )

ライセンス: Link先を確認
Qiang Zhou, Zhibin Wang, Wei Chu, Yinghui Xu, Hao Li, Yuan Qi(参考訳) 大規模言語モデル(LLM)は、包括的な言語中心のアプリケーションを扱う上で、その顕著な汎用性を証明している。 LLMの機能をより広い範囲のモーダル入力に拡張するために、マルチモーダル大言語モデル(MLLM)が注目されている。 この作業は、llmがより視覚言語に関連したタスク、特に画像キャプション、視覚質問応答(vqa)、視覚の接地に取り組むことを可能にすることに役立ちます。 この目的のために,軽量アライメントプリトレーニングから中等級のマルチタスクハイブリッドトレーニング,最後にllm微調整による命令追従能力の向上という3段階のトレーニングスキームを実装した。 トレーニングプロセスを通じて、GPUメモリの要件は徐々に増加する。 位置情報を保存しながらLLMに渡される視覚的埋め込み数を効果的に管理するために,プールアダプタと呼ばれる単純な視覚的アダプターモジュールを導入する。 実験により,プール適応器を通して視覚埋め込みの位置情報を保存することは,視覚接地などのタスクに特に有益であることが示された。 我々は,提案手法をInfMLLMと命名し,様々なベンチマークデータセットで広く評価した。 以上の結果から,InfMLLMは最新のMLLMに匹敵する,最先端のSOTA(State-of-the-art)性能を達成できることが示された。 コードとモデルはオープンソースにされる。 \url{https://github.com/mightyzau/InfMLLM}。

Large language models (LLMs) have proven their remarkable versatility in handling a comprehensive range of language-centric applications. To expand LLMs' capabilities to a broader spectrum of modal inputs, multimodal large language models (MLLMs) have attracted growing interest. This work delves into enabling LLMs to tackle more vision-language-related tasks, particularly image captioning, visual question answering (VQA,) and visual grounding. To this end, we implemented a three-stage training scheme: starting with lightweight alignment pretraining, then moderate-weight multitask hybrid training, and finally, LLM fine-tuning to improve instruction following capability. Throughout the training process, the requirements on GPU memory gradually increase. To effectively manage the number of visual embeddings passed to the LLM while preserving their positional information, we introduce a straightforward visual adapter module dubbed pool-adapter. Our experiments demonstrate that preserving the positional information of visual embeddings through the pool-adapter is particularly beneficial for tasks like visual grounding. We name our proposed approach InfMLLM and have evaluated it extensively on various benchmark datasets. Our results demonstrate that InfMLLM achieves either state-of-the-art (SOTA) performance or performance comparable to recent MLLMs. The code and model will be made open-source at: \url{https://github.com/mightyzau/InfMLLM}.
翻訳日:2023-12-07 18:04:09 公開日:2023-12-06
# 重み付きファジィ集合の基本命題と重み付きファジィ情報システムのパラメータ還元

Foundational propositions of hesitant fuzzy sets and parameter reductions of hesitant fuzzy information systems ( http://arxiv.org/abs/2311.04256v2 )

ライセンス: Link先を確認
Shizhan Lu(参考訳) 曖昧なファジィ集合は不確実性や迷信の例で広く使われている。 包含関係は集合の重要かつ基礎的な定義である。 ヘジットファジィ集合は、ある種の集合として、包含関係を明確に定義する必要がある。 離散形式の迷入ファジィ会員度に基づいて、迷入ファジィ集合のいくつかの種類の包含関係を提案する。 そして、迷うファジィ集合と迷うファジィ集合の族の基本命題が提示される。 最後に、パラメータ還元に関する迷入ファジィ情報システムのいくつかの基礎的提案を行い、パラメータ還元の過程を説明するために、例とアルゴリズムを与える。

Hesitant fuzzy sets are widely used in the instances of uncertainty and hesitation. The inclusion relationship is an important and foundational definition for sets. Hesitant fuzzy set, as a kind of set, needs explicit definition of inclusion relationship. Base on the hesitant fuzzy membership degree of discrete form, several kinds of inclusion relationships for hesitant fuzzy sets are proposed. And then some foundational propositions of hesitant fuzzy sets and the families of hesitant fuzzy sets are presented. Finally, some foundational propositions of hesitant fuzzy information systems with respect to parameter reductions are put forward, and an example and an algorithm are given to illustrate the processes of parameter reductions.
翻訳日:2023-12-07 18:03:43 公開日:2023-12-06
# 保守作業順序からのKPI抽出 -風車の故障率計算のための専門家ラベル、テキスト分類、AI支援タグの比較-

KPI Extraction from Maintenance Work Orders -- A Comparison of Expert Labeling, Text Classification and AI-Assisted Tagging for Computing Failure Rates of Wind Turbines ( http://arxiv.org/abs/2311.04064v2 )

ライセンス: Link先を確認
Marc-Alexander Lutz, Bastian Sch\"afermeier, Rachael Sexton, Michael Sharp, Alden Dima, Stefan Faulstich, Jagan Mohini Aluri(参考訳) 保守作業命令は、風力タービンの運転とメンテナンスに関する情報を文書化するために一般的に使用される。 これには、予防や修正メンテナンスなど、アクティブで反応性のある風力タービンのダウンタイムの詳細が含まれている。 しかし、保守作業命令に含まれる情報は、しばしば構造化されておらず、分析が難しいため、運用とメンテナンスの最適化に利用したい意思決定者には課題が提示される。 この問題に対処するため,本研究では,保守作業の順序から性能指標による信頼性を算出するための3つの異なる手法を比較した。 最初のアプローチでは、ドメインの専門家によるメンテナンス作業の順序を手動でラベリングし、産業ガイドラインで定義されたスキーマを使用してラベルを割り当てる。 第2のアプローチは、テキスト分類手法を使用してメンテナンス作業順序を自動的にラベル付けするモデルの開発である。 この手法により,それぞれ0.75と0.85のマクロ平均値と重み付き平均F1スコアを達成できる。 第3のテクニックは、AI支援のタグ付けツールを使用して、生のメンテナンス情報をタグ付けし、構造化すると同時に、障害率計算のための関連保守作業順序を抽出する新しいルールベースのアプローチである。 我々の実験では、AI支援ツールが他の2つのアプローチと比較してタグ付け時間を88%削減する一方、専門家のラベル付けとテキスト分類はKPI抽出においてより正確である。 全体として,メンテナンス作業順序からメンテナンス情報を抽出し,信頼性の高いキー性能指標の評価を可能にし,風力タービンの運転とメンテナンスの最適化を支援する。

Maintenance work orders are commonly used to document information about wind turbine operation and maintenance. This includes details about proactive and reactive wind turbine downtimes, such as preventative and corrective maintenance. However, the information contained in maintenance work orders is often unstructured and difficult to analyze, presenting challenges for decision-makers wishing to use it for optimizing operation and maintenance. To address this issue, this work compares three different approaches to calculate reliability by performance indicators from maintenance work orders. The first approach involves manual labeling of the maintenance work orders by domain experts, using the schema defined in an industrial guideline to assign the label accordingly. The second approach involves the development of a model that automatically labels the maintenance work orders using text classification methods. Through this method, we are able to achieve macro average and weighted average F1-Scores of 0.75 and 0.85 respectively. The third technique uses an AI-assisted tagging tool to tag and structure the raw maintenance information, together with a novel rule-based approach for extracting relevant maintenance work orders for failure rate calculation. In our experiments the AI-assisted tool leads to a 88% drop in tagging time in comparison to the other two approaches, while expert labeling and text classification are more accurate in KPI extraction. Overall, our findings make extracting maintenance information from maintenance work orders more efficient, enable the assessment of reliability key performance indicators and therefore support the optimization of wind turbine operation and maintenance.
翻訳日:2023-12-07 18:03:34 公開日:2023-12-06
# 高速ディスクマイニングのためのマルチ次元時系列のスケッチ

Sketching Multidimensional Time Series for Fast Discord Mining ( http://arxiv.org/abs/2311.03393v2 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Yan Zheng, Menghai Pan, Huiyuan Chen, Zhongfang Zhuang, Junpeng Wang, Liang Wang, Wei Zhang, Jeff M. Phillips, Eamonn Keogh(参考訳) 時系列ディスコードは時系列異常検出に有用なプリミティブであり、マトリックスプロファイルは効果的にディスコードを取り込むことができる。 時系列の長さに関して、ディスコード発見のスケーラビリティを向上させるための研究が数多く存在する。 しかし、多次元時系列の次元に付随する行列プロファイル計算の時間的複雑さの低減に焦点を当てる作業は驚くほど少ない。 本研究では,多次元時系列間の不協和音マイニングのためのスケッチを提案する。 データを読み取るのと同じくらい早くスケッチを初期処理した後、ディスコードマイニングは元のデータの次元に依存しない実行時間を持つ。 水処理と輸送から得られたいくつかの実世界の例では、提案アルゴリズムは少なくとも1桁(50倍)のスループットを向上し、近似解の品質への影響は最小限である。 さらに,提案手法は,非連続的オーバーヘッドによる次元の動的付加や削除を処理できる。 これにより、データアナリストは、データを探索しながらリアルタイムに"What-if"シナリオを検討できる。

Time series discords are a useful primitive for time series anomaly detection, and the matrix profile is capable of capturing discord effectively. There exist many research efforts to improve the scalability of discord discovery with respect to the length of time series. However, there is surprisingly little work focused on reducing the time complexity of matrix profile computation associated with dimensionality of a multidimensional time series. In this work, we propose a sketch for discord mining among multi-dimensional time series. After an initial pre-processing of the sketch as fast as reading the data, the discord mining has runtime independent of the dimensionality of the original data. On several real world examples from water treatment and transportation, the proposed algorithm improves the throughput by at least an order of magnitude (50X) and only has minimal impact on the quality of the approximated solution. Additionally, the proposed method can handle the dynamic addition or deletion of dimensions inconsequential overhead. This allows a data analyst to consider "what-if" scenarios in real time while exploring the data.
翻訳日:2023-12-07 18:03:03 公開日:2023-12-06
# BoschAI @ PLABA 2023: エンドツーエンドのニューラルネットワーク文単純化における編集操作の活用

BoschAI @ PLABA 2023: Leveraging Edit Operations in End-to-End Neural Sentence Simplification ( http://arxiv.org/abs/2311.01907v2 )

ライセンス: Link先を確認
Valentin Knappich, Simon Razniewski, Annemarie Friedrich(参考訳) 自動単純化は、素人が複雑な科学文書を理解するのに役立つ。 言語モデルは、複雑な言語から単純な言語に翻訳することで、このタスクに頻繁に適用される。 本稿では,生体医学的テキストの簡易化に取り組むplaba共有タスクで第1位となるllama 2に基づくシステムについて述べる。 入力と出力の共有トークンの大部分は、トレーニング信号の弱さと保守的なモデル編集につながることがわかった。 これらの問題を緩和するために,文レベルとトークンレベルの損失重み付けを提案する。 彼らはそれぞれ、編集距離と編集操作によって示される変更トークンに重みを与える。 我々はPLABAデータセット上で実験的な評価を行い、両者のアプローチが人間のアノテーション(+1.8% / +3.5% SARI)、より単純な言語(-1/-1.1 FKGL)、より多くの編集(1.6x / 1.8x編集距離)と、標準的なクロスエントロピーで微調整された同じモデルに近づいた。 さらに,トークンレベルの損失重みのハイパーパラメータ$\lambda$を編集距離と単純度(fkgl)を制御するために使用できることを示した。

Automatic simplification can help laypeople to comprehend complex scientific text. Language models are frequently applied to this task by translating from complex to simple language. In this paper, we describe our system based on Llama 2, which ranked first in the PLABA shared task addressing the simplification of biomedical text. We find that the large portion of shared tokens between input and output leads to weak training signals and conservatively editing models. To mitigate these issues, we propose sentence-level and token-level loss weights. They give higher weight to modified tokens, indicated by edit distance and edit operations, respectively. We conduct an empirical evaluation on the PLABA dataset and find that both approaches lead to simplifications closer to those created by human annotators (+1.8% / +3.5% SARI), simpler language (-1 / -1.1 FKGL) and more edits (1.6x / 1.8x edit distance) compared to the same model fine-tuned with standard cross entropy. We furthermore show that the hyperparameter $\lambda$ in token-level loss weights can be used to control the edit distance and the simplicity level (FKGL).
翻訳日:2023-12-07 18:02:48 公開日:2023-12-06
# 一般循環モデルにおける重複不透明種の高精度処理のための機械学習

Harnessing machine learning for accurate treatment of overlapping opacity species in general circulation models ( http://arxiv.org/abs/2311.00775v3 )

ライセンス: Link先を確認
Aaron David Schneider, Paul Molli\`ere, Gilles Louppe, Ludmila Carone, Uffe Gr{\aa}e J{\o}rgensen, Leen Decin, Christiane Helling(参考訳) 太陽系外惑星や褐色小星の高精度な観測を理解するためには、流体力学、化学、放射線を含む詳細で複雑な一般循環モデル(GCM)が必要である。 本研究では, GCMにおける化学と放射線のカップリングについて検討し, 平衡化学を仮定できない場合, 相関kの仮定で異なる化学種の不透明度を混合する方法を比較した。 本稿では,個々の相関k不透明度(k-tables)を効果的に組み合わせた,DeepSets(DS)に基づく高速機械学習手法を提案する。 適応的等価消滅 (AEE) やランダムオーバーラップ (RORR) などの他の手法とともにDS法を評価した。 我々はこれらの混合法をGCM(expeRT/MITgcm)に統合し、ホットジュピターHD~209458 bの精度と性能を評価した。 以上の結果から,DS法はGCMでの使用には正確かつ効率的である一方,RORRは遅すぎることが示唆された。 さらに,AEEの精度はその具体的実装に依存しており,放射能伝達解収束の達成において,数値的な問題を提起する可能性も見いだした。 次に, 簡便な化学不平衡状態においてDS混合法を適用し, TiOおよびVOの降雨をモデル化し, TiOおよびVOの降雨が成層圏の形成を妨げることを確認した。 gcmsにおける不平衡化学計算の一貫性をさらに高めるために, ds混合法と相関k放射伝達ソルバを結合するための文書とコードを提供する。 DS法はGCMの精度を十分に評価するために広く試験されてきたが、大気圏の探索を加速するためには他の方法が必要であるかもしれない。

To understand high precision observations of exoplanets and brown dwarfs, we need detailed and complex general circulation models (GCMs) that incorporate hydrodynamics, chemistry, and radiation. For this study, we specifically examined the coupling between chemistry and radiation in GCMs and compared different methods for the mixing of opacities of different chemical species in the correlated-k assumption, when equilibrium chemistry cannot be assumed. We propose a fast machine learning method based on DeepSets (DS), which effectively combines individual correlated-k opacities (k-tables). We evaluated the DS method alongside other published methods such as adaptive equivalent extinction (AEE) and random overlap with rebinning and resorting (RORR). We integrated these mixing methods into our GCM (expeRT/MITgcm) and assessed their accuracy and performance for the example of the hot Jupiter HD~209458 b. Our findings indicate that the DS method is both accurate and efficient for GCM usage, whereas RORR is too slow. Additionally, we observed that the accuracy of AEE depends on its specific implementation and may introduce numerical issues in achieving radiative transfer solution convergence. We then applied the DS mixing method in a simplified chemical disequilibrium situation, where we modeled the rainout of TiO and VO, and confirmed that the rainout of TiO and VO would hinder the formation of a stratosphere. To further expedite the development of consistent disequilibrium chemistry calculations in GCMs, we provide documentation and code for coupling the DS mixing method with correlated-k radiative transfer solvers. The DS method has been extensively tested to be accurate enough for GCMs; however, other methods might be needed for accelerating atmospheric retrievals.
翻訳日:2023-12-07 18:02:24 公開日:2023-12-06
# 外部からswap regret 2.0: 大きなアクションスペースに対する効率的な削減と必然的な敵意

From External to Swap Regret 2.0: An Efficient Reduction and Oblivious Adversary for Large Action Spaces ( http://arxiv.org/abs/2310.19786v3 )

ライセンス: Link先を確認
Yuval Dagan and Constantinos Daskalakis and Maxwell Fishelson and Noah Golowich(参考訳) 本稿では,blum-mansour [bm07] と stolz-lugosi [sl05] の古典的還元により,swap-regret 最小化から外部-regret 最小化への新しい還元法を提案する。 ある仮説クラスに対して外部回帰アルゴリズムが存在しない場合、同じクラスに対して非スワップ回帰アルゴリズムが存在することも示している。 専門家のアドバイスで学ぶ問題については,スワップの後悔は1回あたり$\log(n)^{o(1/\epsilon)$ と1回あたり$o(n)$ (n$ は専門家の数) の後に {\epsilon} で区切られることを保証できること,一方,blum-mansour と stolz-lugosi の古典的な還元には$o(n/\epsilon^2)$ と少なくとも $\omega(n^2)$ の反復複雑性が必要であることを示唆する。 結果として,[bm07]のそれとは対照的に,[bm07]では,専門家よりもディストリビューションを採用可能な,限定的かつ$\ell_1$-constrainedadversariesと学習者に対して,ラウンド数を$\tilde\omega(n/\epsilon^2)$あるいは$/\epsilon$の指数値でなくてはなりません。 我々の減少は、あるゲームで非回帰学習が可能であるならば、このゲームは任意によい近似の近似平衡を持つ必要があることを意味する。 これは、近似的粗相関平衡が存在するという非回帰学習の民俗学的な含意を強める。 重要なことに、作用集合が有限であるという要件を大きく広げた相関平衡が存在するための十分な条件を与え、 [dg22; ass+23] によって開かれた問題に答える。 さらに、ゲームにおける平衡計算と学習に関するいくつかの卓越した疑問に答える。

We provide a novel reduction from swap-regret minimization to external-regret minimization, which improves upon the classical reductions of Blum-Mansour [BM07] and Stolz-Lugosi [SL05] in that it does not require finiteness of the space of actions. We show that, whenever there exists a no-external-regret algorithm for some hypothesis class, there must also exist a no-swap-regret algorithm for that same class. For the problem of learning with expert advice, our result implies that it is possible to guarantee that the swap regret is bounded by {\epsilon} after $\log(N)^{O(1/\epsilon)}$ rounds and with $O(N)$ per iteration complexity, where $N$ is the number of experts, while the classical reductions of Blum-Mansour and Stolz-Lugosi require $O(N/\epsilon^2)$ rounds and at least $\Omega(N^2)$ per iteration complexity. Our result comes with an associated lower bound, which -- in contrast to that in [BM07] -- holds for oblivious and $\ell_1$-constrained adversaries and learners that can employ distributions over experts, showing that the number of rounds must be $\tilde\Omega(N/\epsilon^2)$ or exponential in $1/\epsilon$. Our reduction implies that, if no-regret learning is possible in some game, then this game must have approximate correlated equilibria, of arbitrarily good approximation. This strengthens the folklore implication of no-regret learning that approximate coarse correlated equilibria exist. Importantly, it provides a sufficient condition for the existence of correlated equilibrium which vastly extends the requirement that the action set is finite, thus answering a question left open by [DG22; Ass+23]. Moreover, it answers several outstanding questions about equilibrium computation and learning in games.
翻訳日:2023-12-07 18:01:30 公開日:2023-12-06
# イメージジェネレータのハイブリッドドメイン適応

Few-shot Hybrid Domain Adaptation of Image Generators ( http://arxiv.org/abs/2310.19378v2 )

ライセンス: Link先を確認
Hengjia Li, Yang Liu, Linxuan Xia, Yuqi Lin, Tu Zheng, Zheng Yang, Wenxiao Wang, Xiaohui Zhong, Xiaobo Ren, Xiaofei He(参考訳) 事前学習されたジェネレータは、複数のターゲットドメインのハイブリッドに適応し、それらの統合された属性で画像を生成することができるか? 本研究では、Few-shot Hybrid Domain Adaptation (HDA)という新しいタスクを導入する。 ソースジェネレータといくつかのターゲットドメインを与えられたhdaは、ソースドメインの特性をオーバーライドすることなく、すべてのターゲットドメインの統合属性を保持する適応型ジェネレータの獲得を目指している。 ドメイン適応(DA)と比較して、HDAはジェネレータをより複合的で拡張可能なドメインに適応するための柔軟性と汎用性を提供します。 同時に、HDAは、ターゲットドメインの個々の画像のみにアクセスでき、ハイブリッドドメインの認証画像が欠如しているため、DAよりも多くの課題を提示します。 この問題に対処するために、異なるドメインの画像を直接分離可能なサブ空間にエンコードする差別化フレームワークを導入する。 HDAを実現するために,距離損失と方向損失からなる新たな方向空間損失を提案する。 特に、距離損失は、生成された画像からすべての対象部分空間までの距離を減らすことにより、すべての対象領域の属性をブレンドする。 方向損失は、垂直部分空間に沿って適応を導くことによって、ソース領域からの特性を保存する。 実験により、本手法は、セマンティクス類似性、画像忠実性、ドメイン間の一貫性においてベースラインメソッドを上回る1つの適応型ジェネレータにおいて、多数のドメイン固有の属性を得ることができることを示した。

Can a pre-trained generator be adapted to the hybrid of multiple target domains and generate images with integrated attributes of them? In this work, we introduce a new task -- Few-shot Hybrid Domain Adaptation (HDA). Given a source generator and several target domains, HDA aims to acquire an adapted generator that preserves the integrated attributes of all target domains, without overriding the source domain's characteristics. Compared with Domain Adaptation (DA), HDA offers greater flexibility and versatility to adapt generators to more composite and expansive domains. Simultaneously, HDA also presents more challenges than DA as we have access only to images from individual target domains and lack authentic images from the hybrid domain. To address this issue, we introduce a discriminator-free framework that directly encodes different domains' images into well-separable subspaces. To achieve HDA, we propose a novel directional subspace loss comprised of a distance loss and a direction loss. Concretely, the distance loss blends the attributes of all target domains by reducing the distances from generated images to all target subspaces. The direction loss preserves the characteristics from the source domain by guiding the adaptation along the perpendicular to subspaces. Experiments show that our method can obtain numerous domain-specific attributes in a single adapted generator, which surpasses the baseline methods in semantic similarity, image fidelity, and cross-domain consistency.
翻訳日:2023-12-07 18:00:42 公開日:2023-12-06
# chat-gptを用いた対話推薦のためのユーザニーズの抽出

Extracting user needs with Chat-GPT for dialogue recommendation ( http://arxiv.org/abs/2310.19303v2 )

ライセンス: Link先を確認
Yugen Sato, Taisei Nakajima, Tatsuki Kawamoto, Tomohiro Takagi(参考訳) chatgptのような大規模言語モデル(llm)はますます洗練され、人間のような能力を発揮し、様々な日常業務において人間を助ける上で不可欠な役割を担っている。 AIの重要な応用は、対話型レコメンデーションシステムで、人間の問い合わせに応答し、ユーザに合わせたレコメンデーションを行う。 ほとんどの従来の対話型レコメンデーションシステムでは、言語モデルは対話モデルとしてのみ使用され、別個のレコメンデーションシステムが存在する。 これは対話システムとして使われる言語モデルが推薦システムとして機能する能力を持っていないためである。 そこで我々は,対話システムとしての非常に高い推論能力と高品質な文を生成する能力を有するOpenAIのChat-GPTを用いて,推薦機能を備えた対話システムの構築を実現し,システムの有効性を検証する。

Large-scale language models (LLMs), such as ChatGPT, are becoming increasingly sophisticated and exhibit human-like capabilities, playing an essential role in assisting humans in a variety of everyday tasks. An important application of AI is interactive recommendation systems that respond to human inquiries and make recommendations tailored to the user. In most conventional interactive recommendation systems, the language model is used only as a dialogue model, and there is a separate recommendation system. This is due to the fact that the language model used as a dialogue system does not have the capability to serve as a recommendation system. Therefore, we will realize the construction of a dialogue system with recommendation capability by using OpenAI's Chat-GPT, which has a very high inference capability as a dialogue system and the ability to generate high-quality sentences, and verify the effectiveness of the system.
翻訳日:2023-12-07 18:00:16 公開日:2023-12-06
# 雑音Werner-Holevoチャネルとその特性

The noisy Werner-Holevo channel and its properties ( http://arxiv.org/abs/2310.15353v5 )

ライセンス: Link先を確認
Shayan Roofeh, Vahid Karimipour(参考訳) Werner-Holevoチャネルへの関心は主に、その抽象的な数学的性質に起因する。 本研究では, 3次元およびわずかな修正を加えることで, このチャネルをランダムな方向における量子状態の回転としてランダムな角度で実現できることを示す。 したがって、量子処理タスクにおけるクォートリットの潜在的な使用と、多くの異なるプラットフォームでのそれらの実現の観点から、修正Werner-Holevoチャネルは非常に単純で現実的なノイズモデルとして利用することができる。 我々は、このチャネルを詳細に研究し、その様々な特性を導き出す。 特に、最近提案されたフラグ拡張や他の手法を用いて、このチャネルの異なる容量に対する解析的表現と境界を導出する。 これらの導出において対称性の役割が明らかになる。

The interest in the Werner-Holevo channel has been mainly due to its abstract mathematical properties. We show that in three dimensions and with a slight modification, this channel can be realized as rotation of qutrit states in random directions by random angles. Therefore and in view of the potential use of qutrits in quantum processing tasks and their realization in many different platforms, the modifed Werner-Holevo channel can be used as a very simple and realistic noise model, in the same way that the depolarizing channel is for qubits. We will make a detailed study of this channel and derive its various properties. In particular we will use the recently proposed flag extension and other techniques to derive analytical expressions and bounds for different capacities of this channel. The role of symmetry is revealed in these derivations.
翻訳日:2023-12-07 17:59:40 公開日:2023-12-06
# 分布ミスマッチによる確率的生成モデルに対するSVHNデータセットの認識

The SVHN Dataset Is Deceptive for Probabilistic Generative Models Due to a Distribution Mismatch ( http://arxiv.org/abs/2312.02168v2 )

ライセンス: Link先を確認
Tim Z. Xiao, Johannes Zenn, Robert Bamler(参考訳) ストリートビューハウス番号(SVHN)データセットは、ディープラーニングにおいて人気のあるベンチマークデータセットである。 もともとは桁分類タスク用に設計されたSVHNデータセットは、生成モデリングを含む様々なタスクのベンチマークとして広く使用されている。 しかし,本研究は,SVHNデータセットを生成モデルタスクのベンチマークとして,コミュニティに警告することを目的としている。 この分布ミスマッチが分類タスクにほとんど影響を与えないことを実証的に示すが、これはなぜ以前にも検出されていないのかを説明できるが、変分オートコーダや拡散モデルのような確率的生成モデルの評価に大きく影響する。 回避策として,svhnを分類以外のタスクに使用する場合,公式のトレーニングセットとテストセットを混合し,再分割することを提案する。 新しい分割とインデックスをhttps://jzenn.github.io/svhn-remix/で公開しています。

The Street View House Numbers (SVHN) dataset is a popular benchmark dataset in deep learning. Originally designed for digit classification tasks, the SVHN dataset has been widely used as a benchmark for various other tasks including generative modeling. However, with this work, we aim to warn the community about an issue of the SVHN dataset as a benchmark for generative modeling tasks: we discover that the official split into training set and test set of the SVHN dataset are not drawn from the same distribution. We empirically show that this distribution mismatch has little impact on the classification task (which may explain why this issue has not been detected before), but it severely affects the evaluation of probabilistic generative models, such as Variational Autoencoders and diffusion models. As a workaround, we propose to mix and re-split the official training and test set when SVHN is used for tasks other than classification. We publish a new split and the indices we used to create it at https://jzenn.github.io/svhn-remix/ .
翻訳日:2023-12-07 17:53:41 公開日:2023-12-06
# Biased Random-Key Genetic Algorithms: A review

Biased Random-Key Genetic Algorithms: A Review ( http://arxiv.org/abs/2312.00961v2 )

ライセンス: Link先を確認
Mariana A. Londe, Luciana S. Pessoa, Carlos E. Andrade, Mauricio G. C. Resende(参考訳) 本稿では,Biased Random-Key Genetic Algorithms (BRKGA)について概説する。 BRKGAは、遺伝的アルゴリズムの枠組みにおいて、偏り、均一、エリート主義的な交配戦略を持つランダムキーベースの染色体を用いるメタヒューリスティックである。 このレビューは、古典的組合せ最適化問題、実世界の産業的ユースケース、および機械学習におけるニューラルネットワークハイパーパラメータチューニングのような非orthodoxアプリケーションを含む、幅広い応用を含む150以上の論文を含んでいる。 スケジューリングは、このレビューで最も広く使われているアプリケーション領域であり、ネットワーク設計とロケーションの問題が続く。 最も頻繁なハイブリダイゼーション手法はローカル検索であり、新機能は人口の多様性を高めることを目的としている。 本調査は、BRKGAメタヒューリスティックとその応用の概要を概観し、今後の研究の重要領域を明らかにする。

This paper is a comprehensive literature review of Biased Random-Key Genetic Algorithms (BRKGA). BRKGA is a metaheuristic that employs random-key-based chromosomes with biased, uniform, and elitist mating strategies in a genetic algorithm framework. The review encompasses over 150 papers with a wide range of applications, including classical combinatorial optimization problems, real-world industrial use cases, and non-orthodox applications such as neural network hyperparameter tuning in machine learning. Scheduling is by far the most prevalent application area in this review, followed by network design and location problems. The most frequent hybridization method employed is local search, and new features aim to increase population diversity. Overall, this survey provides a comprehensive overview of the BRKGA metaheuristic and its applications and highlights important areas for future research.
翻訳日:2023-12-07 17:53:25 公開日:2023-12-06
# SpaCE:空間境界環境

SpaCE: The Spatial Confounding Environment ( http://arxiv.org/abs/2312.00710v2 )

ライセンス: Link先を確認
Mauricio Tec, Ana Trisovic, Michelle Audirac, Sophie Woodward, Jie Kate Hu, Naeem Khoshnevis, Francesca Dominici(参考訳) 空間共役は、観測されていない空間変数が治療と結果の両方に影響しうる空間データを含む科学研究において重要な課題となる。 この問題を解決するために,空間共起環境(spatial confounding environment),現実的なベンチマークデータセットを提供する最初のツールキット,空間共起を緩和するために設計された因果的推論方法を体系的に評価するツールを紹介する。 各データセットには、トレーニングデータ、真の反事実、座標付き空間グラフ、欠落した空間共同創設者の効果を特徴付ける滑らかさと統合スコアが含まれる。 それはまた、因果推論ベンチマークのベストプラクティスに従って、最先端の機械学習アンサンブルを使用して生成される現実的な半合成結果と反ファクトアルを含んでいる。 データセットは、気候、健康、社会科学など様々な分野の実際の治療と共変量をカバーする。 SpaCEは、エンドツーエンドパイプラインの自動化、データのロードの簡略化、実験的なセットアップ、マシンラーニングと因果推論モデルの評価を容易にする。 SpaCEプロジェクトは、さまざまなサイズと空間的複雑さの数十のデータセットを提供する。 Pythonパッケージとして公開されており、コミュニティからのフィードバックとコントリビューションを奨励している。

Spatial confounding poses a significant challenge in scientific studies involving spatial data, where unobserved spatial variables can influence both treatment and outcome, possibly leading to spurious associations. To address this problem, we introduce SpaCE: The Spatial Confounding Environment, the first toolkit to provide realistic benchmark datasets and tools for systematically evaluating causal inference methods designed to alleviate spatial confounding. Each dataset includes training data, true counterfactuals, a spatial graph with coordinates, and smoothness and confounding scores characterizing the effect of a missing spatial confounder. It also includes realistic semi-synthetic outcomes and counterfactuals, generated using state-of-the-art machine learning ensembles, following best practices for causal inference benchmarks. The datasets cover real treatment and covariates from diverse domains, including climate, health and social sciences. SpaCE facilitates an automated end-to-end pipeline, simplifying data loading, experimental setup, and evaluating machine learning and causal inference models. The SpaCE project provides several dozens of datasets of diverse sizes and spatial complexity. It is publicly available as a Python package, encouraging community feedback and contributions.
翻訳日:2023-12-07 17:53:11 公開日:2023-12-06
# 放射線医学レポート作成における臨床医と専門的基礎モデルとのコンセンサス、不満、相乗効果

Consensus, dissensus and synergy between clinicians and specialist foundation models in radiology report generation ( http://arxiv.org/abs/2311.18260v2 )

ライセンス: Link先を確認
Ryutaro Tanno, David G.T. Barrett, Andrew Sellergren, Sumedh Ghaisas, Sumanth Dathathri, Abigail See, Johannes Welbl, Karan Singhal, Shekoofeh Azizi, Tao Tu, Mike Schaekermann, Rhys May, Roy Lee, SiWai Man, Zahra Ahmed, Sara Mahdavi, Danielle Belgrave, Vivek Natarajan, Shravya Shetty, Pushmeet Kohli, Po-Sen Huang, Alan Karthikesalingam, Ira Ktena(参考訳) 放射線医学報告は近代医学の道具的部分であり、診断や治療などの重要な臨床的決定を伝える。 しかし、世界中の放射線科医の不足は専門家のケアへのアクセスを制限し、重労働を課し、レポート配信のエラーや遅延を回避している。 視覚言語モデルによる自動レポート生成の最近の進歩は、状況を改善するための明確な可能性を秘めているが、実際の採用への道は、AIが生成するレポートの臨床的品質を評価することの難しさに悩まされている。 本研究では,胸部X線写真のための最新のレポート生成システムである「textit{Flamingo-CXR}」を構築し,放射線学データに基づく視覚基礎モデルの構築を行った。 AI生成レポートの品質を評価するため、16人の認定放射線学者のグループが、米国の集中治療施設とインドの入院施設から、AI生成およびヒトによる胸部X線レポートの詳細な評価を行っている。 少なくとも1人の放射線学者(1件あたり2件のうち)は、両方のデータセットの60$\%以上のケースで、AIレポートを真実レポートよりも好んだ。 エラーを含むAI生成レポートのサブセットの中で、最も頻繁に引用される理由は場所と発見に関するものであり、人間による報告では、ほとんどのミスは重大さと発見に関するものだった。 この不一致は、私たちのaiシステムと人間の専門家の潜在的な相補性を示唆し、その後臨床医によって修正された最初のドラフトレポートを生成するような補助的なシナリオの開発を促しました。 これは報告執筆のための臨床医とaiのコラボレーションの最初の実演であり、その結果として得られた報告は少なくとも1人の放射線科医が80$%$の患者と60$%の集中治療患者で専門家が書いた報告と同等か好んで評価した。

Radiology reports are an instrumental part of modern medicine, informing key clinical decisions such as diagnosis and treatment. The worldwide shortage of radiologists, however, restricts access to expert care and imposes heavy workloads, contributing to avoidable errors and delays in report delivery. While recent progress in automated report generation with vision-language models offer clear potential in ameliorating the situation, the path to real-world adoption has been stymied by the challenge of evaluating the clinical quality of AI-generated reports. In this study, we build a state-of-the-art report generation system for chest radiographs, \textit{Flamingo-CXR}, by fine-tuning a well-known vision-language foundation model on radiology data. To evaluate the quality of the AI-generated reports, a group of 16 certified radiologists provide detailed evaluations of AI-generated and human written reports for chest X-rays from an intensive care setting in the United States and an inpatient setting in India. At least one radiologist (out of two per case) preferred the AI report to the ground truth report in over 60$\%$ of cases for both datasets. Amongst the subset of AI-generated reports that contain errors, the most frequently cited reasons were related to the location and finding, whereas for human written reports, most mistakes were related to severity and finding. This disparity suggested potential complementarity between our AI system and human experts, prompting us to develop an assistive scenario in which \textit{Flamingo-CXR} generates a first-draft report, which is subsequently revised by a clinician. This is the first demonstration of clinician-AI collaboration for report writing, and the resultant reports are assessed to be equivalent or preferred by at least one radiologist to reports written by experts alone in 80$\%$ of in-patient cases and 60$\%$ of intensive care cases.
翻訳日:2023-12-07 17:52:51 公開日:2023-12-06
# dreampropeller:並列サンプリングによるsupercharge text-to-3d生成

DreamPropeller: Supercharge Text-to-3D Generation with Parallel Sampling ( http://arxiv.org/abs/2311.17082v2 )

ライセンス: Link先を確認
Linqi Zhou, Andy Shih, Chenlin Meng, Stefano Ermon(参考訳) テキスト3次元生成のための2次元拡散モデルを用いたスコア蒸留サンプリング(sds)や変分スコア蒸留(vsd)などの最近の手法は、優れた生成品質を示している。 しかし、そのようなアルゴリズムの長期化はユーザー体験を著しく劣化させる。 そこで,本稿では,既存のテキストから3dへの生成パイプラインをスコア蒸留に基づいてラップできる,ドロップイン・アクセラレーションアルゴリズムであるdreampropellerを提案する。 我々のフレームワークは、ODEパスを並列サンプリングする古典的なアルゴリズムであるPicard繰り返しを一般化し、モーメントベースの勾配更新や最適化プロセス中の寸法変化などの非ODEパスを3次元生成の場合と同様に考慮することができる。 アルゴリズムが並列計算をウォールクロック時間と交換し、テスト済みフレームワークの最大4.7倍のスピードアップを達成し、生成品質の低下を無視できることを示した。

Recent methods such as Score Distillation Sampling (SDS) and Variational Score Distillation (VSD) using 2D diffusion models for text-to-3D generation have demonstrated impressive generation quality. However, the long generation time of such algorithms significantly degrades the user experience. To tackle this problem, we propose DreamPropeller, a drop-in acceleration algorithm that can be wrapped around any existing text-to-3D generation pipeline based on score distillation. Our framework generalizes Picard iterations, a classical algorithm for parallel sampling an ODE path, and can account for non-ODE paths such as momentum-based gradient updates and changes in dimensions during the optimization process as in many cases of 3D generation. We show that our algorithm trades parallel compute for wallclock time and empirically achieves up to 4.7x speedup with a negligible drop in generation quality for all tested frameworks.
翻訳日:2023-12-07 17:52:16 公開日:2023-12-06
# これがあなたが探しているサブスペースか? サブスペース活性化パッチングの解釈可能性

Is This the Subspace You Are Looking for? An Interpretability Illusion for Subspace Activation Patching ( http://arxiv.org/abs/2311.17030v2 )

ライセンス: Link先を確認
Aleksandar Makelov, Georg Lange, Neel Nanda(参考訳) 機械的解釈可能性(Mechanistic interpretability)は、特定の解釈可能な特徴の観点からモデル行動を理解することを目的としており、しばしば活性化の低次元部分空間として表されると仮定される。 特に、最近の研究では、モデルの振る舞いを同時に操作し、その背後にある機能を与えられた部分空間に属性付ける方法として、サブスペース介入(アクティベーションパッチングなど)が研究されている。 本研究は,この2つが発散することを示し,解釈可能性の顕在化に繋がる可能性を示唆する。 逆に、仮にサブスペース介入がモデルの出力を機能の値が変更されたかのように振る舞うとしても、この効果はモデルの出力から因果的に切り離された別のサブスペースを活用する休眠平行経路を活性化することによって達成される。 本研究では,この現象を2つの実世界の領域(間接的物体識別タスクと事実的リコール)で蒸留した数学的例で示し,実際にその頻度を示す。 事実リコールの文脈では、さらにランク1事実編集へのリンクを示し、事実編集性能と事実ローカライゼーションの矛盾を観察する以前の作業の機械的な説明を提供する。 しかし、これはサブスペースのアクティベーションパッチが本質的に解釈可能性に適さないという意味ではない。 また,先行的な手作業による回路解析が特徴の場所の理解を知らせるタスク(間接的対象識別)において,成功事例がどのように見えるかを示す。 我々はパッチされた部分空間が忠実であると主張するのに必要な追加の証拠を調べる。

Mechanistic interpretability aims to understand model behaviors in terms of specific, interpretable features, often hypothesized to manifest as low-dimensional subspaces of activations. Specifically, recent studies have explored subspace interventions (such as activation patching) as a way to simultaneously manipulate model behavior and attribute the features behind it to given subspaces. In this work, we demonstrate that these two aims diverge, potentially leading to an illusory sense of interpretability. Counterintuitively, even if a subspace intervention makes the model's output behave as if the value of a feature was changed, this effect may be achieved by activating a dormant parallel pathway leveraging another subspace that is causally disconnected from model outputs. We demonstrate this phenomenon in a distilled mathematical example, in two real-world domains (the indirect object identification task and factual recall), and present evidence for its prevalence in practice. In the context of factual recall, we further show a link to rank-1 fact editing, providing a mechanistic explanation for previous work observing an inconsistency between fact editing performance and fact localization. However, this does not imply that activation patching of subspaces is intrinsically unfit for interpretability. To contextualize our findings, we also show what a success case looks like in a task (indirect object identification) where prior manual circuit analysis informs an understanding of the location of a feature. We explore the additional evidence needed to argue that a patched subspace is faithful.
翻訳日:2023-12-07 17:52:00 公開日:2023-12-06
# 学習推論スキルにおける長さ一般化条件

Conditions for Length Generalization in Learning Reasoning Skills ( http://arxiv.org/abs/2311.16173v2 )

ライセンス: Link先を確認
Changnan Xiao and Bing Liu(参考訳) 推論はAIエージェントの基本的な能力である。 近年,大規模言語モデル (LLM) は推論タスクの実行能力が著しく向上している。 しかし、LSMの推論能力に関する多くの評価もいくつかの制限を示している。 つまり、より小さい長さや大きさの推論問題を訓練すると、結果として得られるモデルはより大きなサイズや長さの問題に直面する。 これは推論スキルの学習における一般化の理論的限界を示す可能性がある。 これらの評価とその観察は、長さ一般化問題の理論的研究を動機づけた。 この研究は、マルコフ動的プロセス(MDP)や有向非巡回グラフ(DAG)として定式化できる推論タスクに焦点を当てている。 特定の表現における推論タスクに対して、長さ一般化問題を解くことができるかどうかを決定する条件を特定し、証明する。 理論的結果を検証する実験も行われている。

Reasoning is a fundamental capability of AI agents. Recently, large language models (LLMs) have shown remarkable abilities to perform reasoning tasks. However, numerous evaluations of the reasoning capabilities of LLMs have also showed some limitations. An outstanding limitation is length generalization, meaning that when trained on reasoning problems of smaller lengths or sizes, the resulting models struggle with problems of larger sizes or lengths. This potentially indicates some theoretical limitations of generalization in learning reasoning skills. These evaluations and their observations motivated us to perform a theoretical study of the length generalization problem. This work focuses on reasoning tasks that can be formulated as Markov dynamic processes (MDPs) and/or directed acyclic graphs (DAGs). It identifies and proves conditions that decide whether the length generalization problem can be solved or not for a reasoning task in a particular representation. Experiments are also conducted to verify the theoretical results.
翻訳日:2023-12-07 17:51:31 公開日:2023-12-06
# 多体散逸量子カオスの創発的トポロジー

Emergent Topology in Many-Body Dissipative Quantum Chaos ( http://arxiv.org/abs/2311.14640v2 )

ライセンス: Link先を確認
Antonio M. Garc\'ia-Garc\'ia, Lucas S\'a, Jacobus J. M. Verbaarschot, Can Yin(参考訳) トポロジカル特徴の同定、記述、分類は、物理学のいくつかの分野における発見と革新のエンジンである。 この研究は、凝縮物質中の整数および分数チャーン絶縁体から光学における複雑なフォトニック格子における保護状態、QCD真空の構造まで幅広いシステムを含む。 ここでは、Sachdev-Ye-Kitaevモデル(SYK)の散逸ダイナミクス、マルコフ浴に結合した強い$q$ボディ相互作用を持つ零次元の$N$フェルミオンを紹介する。 q = 4, 8, \ldots$ と $n$ とバース詳細の特定の選択に対して、擬エルミティシティを含む場合には、フェルミオン交換を実装するユニタリ作用素の異常なトレースの存在に直接関連するベクトル化されたリウビリアンの矩形ブロック表現を見つける。 この矩形化の結果、リウヴィリアンは浴槽へのいかなる結合に対しても純粋に実モードを持つ。 それらのいくつかは、スペクトルフローの明示的な計算によってトポロジカルであることが示され、対称性に依存したトポロジカル指数$\nu$となる。 トポロジカルな性質は普遍的特徴を持つ: 対称性が尊重されることでリウヴィリアンの変化に対して堅牢であり、SYKモデルが同じ対称性クラスにおける量子カオス的デファスリングスピン鎖に置き換えられた場合にも観察される。 さらに、トポロジカル対称性クラスは、対応するランダム行列アンサンブルのレベル統計によって頑健に特徴づけられる。 浴への弱いカップリングの限界において、トポロジカルモードは平衡へのアプローチを制御し、散逸性多体量子カオス系におけるトポロジの実験的な確認を可能にする。

The identification, description, and classification of topological features is an engine of discovery and innovation in several fields of physics. This research encompasses a broad variety of systems, from the integer and fractional Chern insulators in condensed matter, to protected states in complex photonic lattices in optics, and the structure of the QCD vacuum. Here, we introduce another playground for topology: the dissipative dynamics of the Sachdev-Ye-Kitaev (SYK) model, $N$ fermions in zero dimensions with strong $q$-body interactions coupled to a Markovian bath. For $q = 4, 8, \ldots$ and certain choices of $N$ and bath details, involving pseudo-Hermiticity, we find a rectangular block representation of the vectorized Liouvillian that is directly related to the existence of an anomalous trace of the unitary operator implementing fermionic exchange. As a consequence of this rectangularization, the Liouvillian has purely real modes for any coupling to the bath. Some of them are demonstrated to be topological by an explicit calculation of the spectral flow, leading to a symmetry-dependent topological index $\nu$. Topological properties have universal features: they are robust to changes in the Liouvillian provided that the symmetries are respected and they are also observed if the SYK model is replaced by a quantum chaotic dephasing spin chain in the same symmetry class. Moreover, the topological symmetry class can be robustly characterized by the level statistics of the corresponding random matrix ensemble. In the limit of weak coupling to the bath, topological modes govern the approach to equilibrium, which may enable a direct path for experimental confirmation of topology in dissipative many-body quantum chaotic systems.
翻訳日:2023-12-07 17:50:51 公開日:2023-12-06
# 自律性のための伝達可能なマルチモーダル知覚表現学習に向けて:NeRF-Supervised Masked AutoEncoder

Towards Transferable Multi-modal Perception Representation Learning for Autonomy: NeRF-Supervised Masked AutoEncoder ( http://arxiv.org/abs/2311.13750v2 )

ライセンス: Link先を確認
Xiaohao Xu(参考訳) 本研究では、NeRF(Near Radiance Field)におけるマスク付きマルチモーダル再構成(NeRF-Supervised Masked AutoEncoder, NS-MAE)による、伝達可能なマルチモーダル認識表現学習のための統合型事前学習フレームワークを提案する。 具体的には、特定の視点方向や位置に基づいて、破損したマルチモーダル入力信号、すなわちlidar点雲や画像から抽出されたマルチモーダル埋め込みを、ニューラルネットワークによる投影されたマルチモーダル特徴マップに描画する。 そして、元のマルチモーダル信号はレンダリングされたマルチモーダル特徴写像の再構成ターゲットとして機能し、自己教師付き表現学習を可能にする。 NS-MAEを用いて学習した表現は、多様な微調整ラベル付きデータを用いて、多様な3次元認識下流タスク(3Dオブジェクト検出およびBEVマップセグメンテーション)上の多モードおよび単モード(カメラのみおよびライダーのみ)知覚モデルに対する有望な伝達可能性を示す。 さらに、NS-MAEは、マスキングオートエンコーダとニューラルラディアンスフィールドの両方の機構の相乗効果を経験的に享受している。 この研究が、自律エージェントのためのより一般的なマルチモーダル表現学習の探求を促すことを願っている。

This work proposes a unified self-supervised pre-training framework for transferable multi-modal perception representation learning via masked multi-modal reconstruction in Neural Radiance Field (NeRF), namely NeRF-Supervised Masked AutoEncoder (NS-MAE). Specifically, conditioned on certain view directions and locations, multi-modal embeddings extracted from corrupted multi-modal input signals, i.e., Lidar point clouds and images, are rendered into projected multi-modal feature maps via neural rendering. Then, original multi-modal signals serve as reconstruction targets for the rendered multi-modal feature maps to enable self-supervised representation learning. Extensive experiments show that the representation learned via NS-MAE shows promising transferability for diverse multi-modal and single-modal (camera-only and Lidar-only) perception models on diverse 3D perception downstream tasks (3D object detection and BEV map segmentation) with diverse amounts of fine-tuning labeled data. Moreover, we empirically find that NS-MAE enjoys the synergy of both the mechanism of masked autoencoder and neural radiance field. We hope this study can inspire exploration of more general multi-modal representation learning for autonomous agents.
翻訳日:2023-12-07 17:50:18 公開日:2023-12-06
# デジタルツインの背後にあるバズワードのデミステレーション--新しい総合評価モデル

Demystifying the buzzword behind Digital Twin: a novel generic evaluation model ( http://arxiv.org/abs/2311.12961v3 )

ライセンス: Link先を確認
Zhengyu Liu, Sina Namaki Araghi, Arkopaul Sarkar, Mohamed Hedi Karray(参考訳) デジタルツイン(DT)開発の人気が高まっているにもかかわらず、DTの重要な概念に対する共通理解と定義が欠如している。 将来の作業の障害になる前に、DTの共通理解を構築することで、このギャップに対処する必要があります。 この課題の観点から,本研究の目的は,さまざまなドメインから既存のDTを共通的に評価し,実践前にDT開発者やステークホルダの知識と理解を統合することである。 この目的を達成するため,系統的な文献レビューを行い,25の論文を分析し,既存のDTの特徴を特定し,議論した。 このレビューはdtの評価において不整合とケース固有の次元の選択を示している。 そこで本稿では,デジタルモデルの特徴に着目して,異なる領域にわたるディジタル双生児の成熟度を評価するための4次元評価フレームワークを提案する。 このモデルで特定された4つの次元は、能力、協調性、カバレッジ、ライフサイクルである。 さらに、各次元の重要性を異なるアプリケーション要求に適応させるために、重み機構がモデル内に実装されます。 いくつかのケーススタディは、提案されたモデルを一般、工業、科学のケースで検証するために考案された。

Despite the growing popularity of digital twin (DT) developments, there is a lack of common understanding and definition for important concepts of DT. It is needed to address this gap by building a shared understanding of DT before it becomes an obstacle for future work. With this challenge in view, the objective of our study is to assess the existing DT from various domains on a common basis and to unify the knowledge and understanding of DT developers and stakeholders before practice. To achieve this goal, we conducted a systematic literature review and analyzed 25 selected papers to identify and discuss the characteristics of existing DT's. The review shows an inconsistency and case-specific choices of dimensions in assessing DT. Therefore, this article proposes a four-dimensional evaluation framework to assess the maturity of digital twins across different domains, focusing on the characteristics of digital models. The four identified dimensions in this model are Capability, Cooperability, Coverage, and Lifecycle. Additionally, a weight mechanism is implemented inside the model to adapt the importance of each dimension for different application requirements. Several case studies are devised to validate the proposed model in general, industrial and scientific cases.
翻訳日:2023-12-07 17:49:45 公開日:2023-12-06
# 画像レベル低減による画像キャプションシステムの変成試験

Metamorphic Testing of Image Captioning Systems via Image-Level Reduction ( http://arxiv.org/abs/2311.11791v2 )

ライセンス: Link先を確認
Xiaoyuan Xie, Xingpeng Li, Songqiang Chen(参考訳) Image Captioning (IC)技術は自然言語で画像を記述するために広く使われている。 近年,いくつかのICシステムテスト手法が提案されている。 しかし、これらのメソッドはまだ事前の情報を頼りにしているため、テストでoracleの問題を軽減することはできない。 さらに、オブジェクトを人工的に操作することで、テストケースとして非現実的な画像を生成できるため、意味の薄いテスト結果につながる可能性がある。 第3に,既存の手法ではソーステストケースの適性に関するさまざまな要件があるため,与えられたイメージを十分に活用してテストを行うことはできない。 本稿では,画像トリミングやストレッチといった画像レベルの縮小変換を施した,ICシステムの変成試験を行うREICを提案する。 プリアノテートされた情報に頼る代わりに、reicはキャプション内のオブジェクトを画像内の対応するオブジェクトにアライメントするためにローカライゼーションメソッドを使用し、変換後のキャプションで各オブジェクトが正しく記述されているか削除されているかをチェックする。 画像レベルの縮小変換では、REICは任意のオブジェクトを人工的に操作せず、非現実的な追従画像の生成を避けることができる。 さらに、変態変換プロセスにおけるソーステストケースの適性に関する要件を排除し、あいまいさを低減し、フォローアップテストケース間の多様性を高め、任意のテストイメージ上でテストを行うことを可能にし、より明確な有効違反を明らかにする。 私たちは5つの人気のあるICシステムをテストするためにREICを使用します。 その結果、REICは提供されたテストイメージを十分に活用して、良質な現実のフォローアップケースを生成し、事前のアノテート情報を必要とせずに、多数の異なる違反を効果的に検出できることを示した。

The Image Captioning (IC) technique is widely used to describe images in natural language. Recently, some IC system testing methods have been proposed. However, these methods still rely on pre-annotated information and hence cannot really alleviate the oracle problem in testing. Besides, their method artificially manipulates objects, which may generate unreal images as test cases and thus lead to less meaningful testing results. Thirdly, existing methods have various requirements on the eligibility of source test cases, and hence cannot fully utilize the given images to perform testing. To tackle these issues, in this paper, we propose REIC to perform metamorphic testing for IC systems with some image-level reduction transformations like image cropping and stretching. Instead of relying on the pre-annotated information, REIC uses a localization method to align objects in the caption with corresponding objects in the image, and checks whether each object is correctly described or deleted in the caption after transformation. With the image-level reduction transformations, REIC does not artificially manipulate any objects and hence can avoid generating unreal follow-up images. Besides, it eliminates the requirement on the eligibility of source test cases in the metamorphic transformation process, as well as decreases the ambiguity and boosts the diversity among the follow-up test cases, which consequently enables testing to be performed on any test image and reveals more distinct valid violations. We employ REIC to test five popular IC systems. The results demonstrate that REIC can sufficiently leverage the provided test images to generate follow-up cases of good reality, and effectively detect a great number of distinct violations, without the need for any pre-annotated information.
翻訳日:2023-12-07 17:49:27 公開日:2023-12-06
# マルチモーダル相互作用とプール注意によるrgb-d意味セグメンテーションの最適化

Optimizing rgb-d semantic segmentation through multi-modal interaction and pooling attention ( http://arxiv.org/abs/2311.11312v2 )

ライセンス: Link先を確認
Shuai Zhang, Minghong Xie(参考訳) RGB-D画像のセマンティックセグメンテーションは、シーン内の物体の外観や空間的関係を理解し、様々な要因を慎重に検討する必要がある。 しかし、屋内環境では、RGBと深度画像の単純な入力は、しばしば意味情報と空間情報の比較的限られた取得をもたらし、最適下分割の結果をもたらす。 そこで本研究では,rgbと奥行きモダリティの対話的な相乗効果を活かし,補完的情報の利用を最適化する新しい手法であるmipanetを提案する。 具体的には,Multi-modal Interaction Fusion Module (MIM) をネットワークの最も深い層に組み込む。 このモジュールはRGBと深度情報の融合を容易にするために設計されており、相互強化と修正が可能である。 さらに,エンコーダの様々な段階において,Pooling Attention Module (PAM)を導入する。 このモジュールは、ネットワークによって抽出された機能を増幅し、モジュールの出力をターゲットとしてデコーダに統合し、セマンティックセグメンテーションのパフォーマンスを大幅に改善する。 実験の結果、MIPANetは2つの屋内シーンデータセットであるNYUDv2とSUN-RGBDの既存手法よりも優れており、RGB-Dセマンティックセマンティックセマンティックセマンティクスの強化の有効性が示されている。

Semantic segmentation of RGB-D images involves understanding the appearance and spatial relationships of objects within a scene, which requires careful consideration of various factors. However, in indoor environments, the simple input of RGB and depth images often results in a relatively limited acquisition of semantic and spatial information, leading to suboptimal segmentation outcomes. To address this, we propose the Multi-modal Interaction and Pooling Attention Network (MIPANet), a novel approach designed to harness the interactive synergy between RGB and depth modalities, optimizing the utilization of complementary information. Specifically, we incorporate a Multi-modal Interaction Fusion Module (MIM) into the deepest layers of the network. This module is engineered to facilitate the fusion of RGB and depth information, allowing for mutual enhancement and correction. Additionally, we introduce a Pooling Attention Module (PAM) at various stages of the encoder. This module serves to amplify the features extracted by the network and integrates the module's output into the decoder in a targeted manner, significantly improving semantic segmentation performance. Our experimental results demonstrate that MIPANet outperforms existing methods on two indoor scene datasets, NYUDv2 and SUN-RGBD, underscoring its effectiveness in enhancing RGB-D semantic segmentation.
翻訳日:2023-12-07 17:48:39 公開日:2023-12-06
# sdsra:効率的な政策学習のためのスキル駆動スキル組換えアルゴリズム

SDSRA: A Skill-Driven Skill-Recombination Algorithm for Efficient Policy Learning ( http://arxiv.org/abs/2312.03216v1 )

ライセンス: Link先を確認
Eric H. Jiang and Andrew Lizarraga(参考訳) 本稿では,SDSRA(Skill-Driven Skill Recombination Algorithm)という,強化学習タスクにおける最大エントロピーの効率を大幅に向上する,新しいアルゴリズムを提案する。 SDSRAは従来のSoft Actor-Critic(SAC)アルゴリズムよりも高速な収束を実現し、改善されたポリシーを生成する。 堅牢なアクタ-クリティックフレームワークにスキルベースの戦略を統合することで、sdsraは、幅広い複雑で多様なベンチマークで顕著な適応性とパフォーマンスを示している。

In this paper, we introduce a novel algorithm - the Skill-Driven Skill Recombination Algorithm (SDSRA) - an innovative framework that significantly enhances the efficiency of achieving maximum entropy in reinforcement learning tasks. We find that SDSRA achieves faster convergence compared to the traditional Soft Actor-Critic (SAC) algorithm and produces improved policies. By integrating skill-based strategies within the robust Actor-Critic framework, SDSRA demonstrates remarkable adaptability and performance across a wide array of complex and diverse benchmarks.
翻訳日:2023-12-07 16:30:40 公開日:2023-12-06
# 独自の変数をブートストラップする

Bootstrap Your Own Variance ( http://arxiv.org/abs/2312.03213v1 )

ライセンス: Link先を確認
Polina Turishcheva, Jason Ramapuram, Sinead Williamson, Dan Busbridge, Eeshan Dhekane, Russ Webb(参考訳) モデルの不確実性を理解することは、多くのアプリケーションにとって重要である。 本稿では,Bootstrap Your Own Variance (BYOV) と,非負の自己監視学習(SSL)アルゴリズムであるBootstrap Your Own Latent (BYOL) と,モデル後部を推定するBayes by Backprop (BBB) を組み合わせたベイズ的手法を提案する。 BYOV対教師付きBBBモデルの学習予測はガウス分布によってよく捉えられ、学習パラメータ後部がラベルのない不確実性推定に有用であることを示す予備的な証拠を提供する。 BYOVは、決定論的BYOLベースライン(+2.83%のテストECE、+1.03%のテストBrier)を改善し、様々な拡張(+2.4%のテストECE、+1.2%のテストBrier for Salt & Pepperノイズ)でテストすると、キャリブレーションと信頼性が向上する。

Understanding model uncertainty is important for many applications. We propose Bootstrap Your Own Variance (BYOV), combining Bootstrap Your Own Latent (BYOL), a negative-free Self-Supervised Learning (SSL) algorithm, with Bayes by Backprop (BBB), a Bayesian method for estimating model posteriors. We find that the learned predictive std of BYOV vs. a supervised BBB model is well captured by a Gaussian distribution, providing preliminary evidence that the learned parameter posterior is useful for label free uncertainty estimation. BYOV improves upon the deterministic BYOL baseline (+2.83% test ECE, +1.03% test Brier) and presents better calibration and reliability when tested with various augmentations (eg: +2.4% test ECE, +1.2% test Brier for Salt & Pepper noise).
翻訳日:2023-12-07 16:30:30 公開日:2023-12-06
# 部分観測による制約付きベイズ最適化:バランス改善と予測収束

Constrained Bayesian Optimization Under Partial Observations: Balanced Improvements and Provable Convergence ( http://arxiv.org/abs/2312.03212v1 )

ライセンス: Link先を確認
Shengbo Wang and Ke Li(参考訳) 部分的に観測可能な制約付き最適化問題(POCOP)は、POCOPの実用不可能なソリューションが目的と制約に関する情報をほとんど提供できないため、データ駆動最適化技術を妨げる。 我々は、制約付きベイズ最適化の枠組みの下で、高価なPOCOPの効率的かつ証明可能な手法を設計する。 本手法は2つの主成分からなる。 まず,最適化時のバランスの取れた探索を取り入れた取得関数の設計を改良した。 本設計の収束特性を厳密に研究し,その有効性を実証する。 次に,部分可観測制約に対するサロゲートモデルとして,異なる可能性を埋め込むガウス過程を提案する。 このモデルは、従来の分類に基づくモデルと比較して、実現可能な領域のより正確な表現につながる。 提案手法は合成問題と実世界問題の両方について実験的に研究されている。 以上の結果から,POCOPの解法における競合性を実証した。

The partially observable constrained optimization problems (POCOPs) impede data-driven optimization techniques since an infeasible solution of POCOPs can provide little information about the objective as well as the constraints. We endeavor to design an efficient and provable method for expensive POCOPs under the framework of constrained Bayesian optimization. Our method consists of two key components. Firstly, we present an improved design of the acquisition functions that introduces balanced exploration during optimization. We rigorously study the convergence properties of this design to demonstrate its effectiveness. Secondly, we propose a Gaussian process embedding different likelihoods as the surrogate model for a partially observable constraint. This model leads to a more accurate representation of the feasible regions compared to traditional classification-based models. Our proposed method is empirically studied on both synthetic and real-world problems. The results demonstrate the competitiveness of our method for solving POCOPs.
翻訳日:2023-12-07 16:30:08 公開日:2023-12-06
# キャッシュ 可能ならば: ブロックキャッシングによる拡散モデルの高速化

Cache Me if You Can: Accelerating Diffusion Models through Block Caching ( http://arxiv.org/abs/2312.03209v1 )

ライセンス: Link先を確認
Felix Wimbauer, Bichen Wu, Edgar Schoenfeld, Xiaoliang Dai, Ji Hou, Zijian He, Artsiom Sanakoyeu, Peizhao Zhang, Sam Tsai, Jonas Kohler, Christian Rupprecht, Daniel Cremers, Peter Vajda, Jialiang Wang(参考訳) 拡散モデルは最近、フォトリアリスティックな画像を生成する能力によって画像合成の分野に革命をもたらした。 しかしながら、拡散モデルの主な欠点の一つは、画像生成プロセスがコストがかかることである。 ランダムノイズから画像を反復的に洗練するために、大規模な画像対画像ネットワークを何度も適用する必要がある。 近年の多くの研究は必要なステップ数を減らす手法を提案しているが、一般に根底にある認知ネットワークをブラックボックスとして扱う。 本研究では,ネットワーク内のレイヤの挙動を調査し,それを検出する。 1) レイヤの出力は時間とともにスムーズに変化する。 2) 層は変化の異なるパターンを示し、 3) ステップからステップへの変更は、しばしば非常に小さい。 我々はデノナイジングネットワークにおける多くの層計算が冗長であると仮定する。 これを活用して、従来のステップのレイヤブロックからの出力を再利用して推論を高速化するブロックキャッシュを導入します。 さらに,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。 実験では,FID,人体評価,定性解析により,Block Cachingは,同じ計算コストで高画質の画像を生成することができることを示した。 我々は、異なる最先端モデル(LDMとEMU)と解法(DDIMとDPM)に対してこれを実証する。

Diffusion models have recently revolutionized the field of image synthesis due to their ability to generate photorealistic images. However, one of the major drawbacks of diffusion models is that the image generation process is costly. A large image-to-image network has to be applied many times to iteratively refine an image from random noise. While many recent works propose techniques to reduce the number of required steps, they generally treat the underlying denoising network as a black box. In this work, we investigate the behavior of the layers within the network and find that 1) the layers' output changes smoothly over time, 2) the layers show distinct patterns of change, and 3) the change from step to step is often very small. We hypothesize that many layer computations in the denoising network are redundant. Leveraging this, we introduce block caching, in which we reuse outputs from layer blocks of previous steps to speed up inference. Furthermore, we propose a technique to automatically determine caching schedules based on each block's changes over timesteps. In our experiments, we show through FID, human evaluation and qualitative analysis that Block Caching allows to generate images with higher visual quality at the same computational cost. We demonstrate this for different state-of-the-art models (LDM and EMU) and solvers (DDIM and DPM).
翻訳日:2023-12-07 16:29:55 公開日:2023-12-06
# 衛星画像とAI: 研究から展開と影響まで, 海洋保全の新しい時代

Satellite Imagery and AI: A New Era in Ocean Conservation, from Research to Deployment and Impact ( http://arxiv.org/abs/2312.03207v1 )

ライセンス: Link先を確認
Patrick Beukema and Favyen Bastani and Piper Wolters and Henry Herzog and Joe Ferdinando(参考訳) イルガル、非報告、および非規制漁業(IUU)は、海洋生物にとって世界的脅威となる。 NASAと欧州宇宙機関(ESA)が公開している衛星データは、この活動を活発に監視する機会を提供する。 衛星データを海洋保全に効果的に活用するには、低レイテンシでグローバルに運用される、信頼性の高い機械学習モデルが必要である。 本稿では,合成開口レーダ(Sentinel-1),光学画像(Sentinel-2),夜間光(Suomi-NPP/NOAA-20)の3種類の特殊なコンピュータビジョンモデルを提案する。 また、保存のためのリアルタイムコンピュータビジョンサービスの開発と提供のためのベストプラクティスも提示している。 これらのモデルは、リアルタイム海洋監視プラットフォームであるSkylightにデプロイされ、世界中のユーザに無償で提供される。

Illegal, unreported, and unregulated (IUU) fishing poses a global threat to ocean habitats. Publicly available satellite data offered by NASA and the European Space Agency (ESA) provide an opportunity to actively monitor this activity. Effectively leveraging satellite data for maritime conservation requires highly reliable machine learning models operating globally with minimal latency. This paper introduces three specialized computer vision models designed for synthetic aperture radar (Sentinel-1), optical imagery (Sentinel-2), and nighttime lights (Suomi-NPP/NOAA-20). It also presents best practices for developing and delivering real-time computer vision services for conservation. These models have been deployed in Skylight, a real time maritime monitoring platform, which is provided at no cost to users worldwide.
翻訳日:2023-12-07 16:29:35 公開日:2023-12-06
# feature 3dgs: 3d gaussian splattingによる蒸留機能フィールドの実現

Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields ( http://arxiv.org/abs/2312.03203v1 )

ライセンス: Link先を確認
Shijie Zhou, Haoran Chang, Sicheng Jiang, Zhiwen Fan, Zehao Zhu, Dejia Xu, Pradyumna Chari, Suya You, Zhangyang Wang, Achuta Kadambi(参考訳) 近年、3dシーンの表現は大いに人気を集めている。 ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。 近年,2次元基礎モデルからの3次元特徴場蒸留を用いた編集やセグメンテーションなどのセグメンテーションを意味的に認識する作業において,NeRFの機能の拡張を目指す研究が出現している。 しかし、これらの方法には2つの大きな制限がある。 (a)nrfパイプラインのレンダリング速度によって制限される。 b) 暗黙的に表される特徴フィールドは、特徴品質を低下させる連続性アーティファクトに悩まされる。 近年, 3D Gaussian Splatting は実時間ラディアンス場レンダリングにおける最先端の性能を示した。 本研究では, 放射場レンダリングに加えて, 2次元基礎モデル蒸留による任意の次元意味的特徴の3次元ガウススプラッティングを可能にする。 この翻訳は単純ではない: 3dgs フレームワークに素直に機能フィールドを組み込むことは warp レベルの分岐につながる。 この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。 提案手法は汎用的であり,本実験ではSAMやCLIP-LSegといった最先端2D基盤モデルから,新しいビューセマンティックセグメンテーション,言語誘導編集,セグメンテーションを学習する。 実験全体では, 蒸留法は同等あるいはより良い結果が得られる一方で, 電車やレンダリングよりもはるかに高速である。 さらに、我々の知る限りでは、私たちはsamモデルを利用して、ラミアンスフィールド操作のためのポイントおよびバウンディングボックスプロンプトを有効にする最初の方法です。 プロジェクトウェブサイト at: https://feature-3dgs.github.io/

3D scene representations have gained immense popularity in recent years. Methods that use Neural Radiance fields are versatile for traditional tasks such as novel view synthesis. In recent times, some work has emerged that aims to extend the functionality of NeRF beyond view synthesis, for semantically aware tasks such as editing and segmentation using 3D feature field distillation from 2D foundation models. However, these methods have two major limitations: (a) they are limited by the rendering speed of NeRF pipelines, and (b) implicitly represented feature fields suffer from continuity artifacts reducing feature quality. Recently, 3D Gaussian Splatting has shown state-of-the-art performance on real-time radiance field rendering. In this work, we go one step further: in addition to radiance field rendering, we enable 3D Gaussian splatting on arbitrary-dimension semantic features via 2D foundation model distillation. This translation is not straightforward: naively incorporating feature fields in the 3DGS framework leads to warp-level divergence. We propose architectural and training changes to efficiently avert this problem. Our proposed method is general, and our experiments showcase novel view semantic segmentation, language-guided editing and segment anything through learning feature fields from state-of-the-art 2D foundation models such as SAM and CLIP-LSeg. Across experiments, our distillation method is able to provide comparable or better results, while being significantly faster to both train and render. Additionally, to the best of our knowledge, we are the first method to enable point and bounding-box prompting for radiance field manipulation, by leveraging the SAM model. Project website at: https://feature-3dgs.github.io/
翻訳日:2023-12-07 16:29:21 公開日:2023-12-06
# 自動睡眠ステージングのためのドメイン不変表現学習と睡眠ダイナミクスモデリング

Domain Invariant Representation Learning and Sleep Dynamics Modeling for Automatic Sleep Staging ( http://arxiv.org/abs/2312.03196v1 )

ライセンス: Link先を確認
Seungyeon Lee, Thai-Hoang Pham, Zhao Cheng, Ping Zhang(参考訳) 睡眠ステージングは睡眠障害の診断と治療において重要な課題となっている。 大規模な公衆睡眠データベースの急速な増加と機械学習の進歩により、自動睡眠ステージングに向けた大きな進歩があった。 しかし、以前の研究では、被験者の生理的信号の不均一性、ラベルのない睡眠信号データから有意な情報を抽出できないことによる予測性能の向上、睡眠段階間の相関のモデル化の難しさ、予測の不確実性を定量化する効果的なメカニズムの欠如など、睡眠研究においていくつかの重要な問題に直面していた。 本研究では,ニューラルネットワークを用いた自動睡眠ステージングモデルDREAMを提案し,生理的信号とモデル睡眠ダイナミクスから領域一般化表現を学習する。 DREAMは、様々な被験者の睡眠信号セグメントから睡眠関連および被写体不変表現を学び、シーケンシャル信号セグメントと睡眠ステージ間の相互作用を捉えて睡眠ダイナミクスをモデル化する。 実験では、DREAMが3つのデータセット上で既存の睡眠ステージ法より優れていることを示した。 ケーススタディでは,テスト対象とトレーニング対象との違いがある場合,新しい被験者に対して優れた予測性能をもたらす一般化決定関数を学習できることが示されている。 ラベルなしデータの使用は、ラベルなしのEEGデータを活用する利点を示している。 さらに不確実性定量化は、ドリームが予測の不確実性を提供し、モデルを信頼性を持たせ、現実世界のアプリケーションで睡眠の専門家を助けることを証明している。

Sleep staging has become a critical task in diagnosing and treating sleep disorders to prevent sleep related diseases. With rapidly growing large scale public sleep databases and advances in machine learning, significant progress has been made toward automatic sleep staging. However, previous studies face some critical problems in sleep studies; the heterogeneity of subjects' physiological signals, the inability to extract meaningful information from unlabeled sleep signal data to improve predictive performances, the difficulty in modeling correlations between sleep stages, and the lack of an effective mechanism to quantify predictive uncertainty. In this study, we propose a neural network based automatic sleep staging model, named DREAM, to learn domain generalized representations from physiological signals and models sleep dynamics. DREAM learns sleep related and subject invariant representations from diverse subjects' sleep signal segments and models sleep dynamics by capturing interactions between sequential signal segments and between sleep stages. In the experiments, we demonstrate that DREAM outperforms the existing sleep staging methods on three datasets. The case study demonstrates that our model can learn the generalized decision function resulting in good prediction performances for the new subjects, especially in case there are differences between testing and training subjects. The usage of unlabeled data shows the benefit of leveraging unlabeled EEG data. Further, uncertainty quantification demonstrates that DREAM provides prediction uncertainty, making the model reliable and helping sleep experts in real world applications.
翻訳日:2023-12-07 16:28:48 公開日:2023-12-06
# 二重チャネル構造によるテキスト情報のみによる噂の精度検出

Detecting Rumor Veracity with Only Textual Information by Double-Channel Structure ( http://arxiv.org/abs/2312.03195v1 )

ライセンス: Link先を確認
Alex Kim and Sangwon Yoon(参考訳) カイル (1985) は2つの種類の噂を提案している: いくつかの個人的な情報に基づくインフォームド噂と、いかなる情報(すなわちブラッフィング)にもとづかない未発表の噂。 また、以前の研究では、人々が信頼できる情報ソースを持っている場合、噂の普及にもっと自信のあるテキストトーンを使う可能性が高いことが判明した。 これらの理論的な知見に動機づけられ,ソーシャルメディア上での噂の有効性を判断するための二重チャネル構造を提案する。 究極の目標は、各噂を真、偽、または検証不能のカテゴリーに分類することだ。 まず、各テキストを特定の(偽の噂)または不確実な(偽の噂)カテゴリに割り当てる。 次に, 噂に嘘検出アルゴリズムを適用し, 未発表の噂にスレッドリプライアグリー検出アルゴリズムを適用する。 semeval 2019タスク7のデータセットは、ソーシャルメディアの噂の3倍の分類(true、false、unverable)を必要とする。このモデルでは、マクロf1スコアが0.4027となり、すべてのベースラインモデルと2位勝者を上回っている(gorrell et al., 2019)。 さらに,ダブルチャネル構造が全ポストに対してリー検出あるいはアグリーメント検出アルゴリズムを使用する単一チャネル構造よりも優れていることを実証的に検証した。

Kyle (1985) proposes two types of rumors: informed rumors which are based on some private information and uninformed rumors which are not based on any information (i.e. bluffing). Also, prior studies find that when people have credible source of information, they are likely to use a more confident textual tone in their spreading of rumors. Motivated by these theoretical findings, we propose a double-channel structure to determine the ex-ante veracity of rumors on social media. Our ultimate goal is to classify each rumor into true, false, or unverifiable category. We first assign each text into either certain (informed rumor) or uncertain (uninformed rumor) category. Then, we apply lie detection algorithm to informed rumors and thread-reply agreement detection algorithm to uninformed rumors. Using the dataset of SemEval 2019 Task 7, which requires ex-ante threefold classification (true, false, or unverifiable) of social media rumors, our model yields a macro-F1 score of 0.4027, outperforming all the baseline models and the second-place winner (Gorrell et al., 2019). Furthermore, we empirically validate that the double-channel structure outperforms single-channel structures which use either lie detection or agreement detection algorithm to all posts.
翻訳日:2023-12-07 16:28:19 公開日:2023-12-06
# ドメイン適応BERTによる企業破産予測

Corporate Bankruptcy Prediction with Domain-Adapted BERT ( http://arxiv.org/abs/2312.03194v1 )

ライセンス: Link先を確認
Alex Kim and Sangwon Yoon(参考訳) 本研究は,企業情報開示データを用いて,企業倒産を予測するための言語モデルであるBERTに基づく分析を行う。 破産予測に関する先行文献は、金融変数を用いたより洗練された予測手法の開発に重点を置いている。 しかし,本研究では,入力データセットの品質向上に重点を置いている。 具体的には、MD&A開示における感情分析を行うためにBERTモデルを用いる。 bert は,ロジスティック回帰,k-nearest neighbor (knn-5), linear kernel support vector machine (svm) において,辞書に基づく予測や word2vec に基づく予測よりも優れていた。 さらに、BERTモデルをゼロから事前学習する代わりに、信頼度に基づくフィルタリングによる自己学習を企業開示データ(10-K)に適用する。 精度は91.56%であり,予測精度が大幅に向上したことを示す。

This study performs BERT-based analysis, which is a representative contextualized language model, on corporate disclosure data to predict impending bankruptcies. Prior literature on bankruptcy prediction mainly focuses on developing more sophisticated prediction methodologies with financial variables. However, in our study, we focus on improving the quality of input dataset. Specifically, we employ BERT model to perform sentiment analysis on MD&A disclosures. We show that BERT outperforms dictionary-based predictions and Word2Vec-based predictions in terms of adjusted R-square in logistic regression, k-nearest neighbor (kNN-5), and linear kernel support vector machine (SVM). Further, instead of pre-training the BERT model from scratch, we apply self-learning with confidence-based filtering to corporate disclosure data (10-K). We achieve the accuracy rate of 91.56% and demonstrate that the domain adaptation procedure brings a significant improvement in prediction accuracy.
翻訳日:2023-12-07 16:27:55 公開日:2023-12-06
# 相対性理論の促進による低コストな高出力メンバーシップ推定

Low-Cost High-Power Membership Inference by Boosting Relativity ( http://arxiv.org/abs/2312.03262v1 )

ライセンス: Link先を確認
Sajjad Zarifzadeh, Philippe Liu, Reza Shokri(参考訳) 本稿では, 基準モデルと基準データの両方を有効活用することにより, 人口データと目標モデルのトレーニングデータとの区別を増幅するロバストなメンバシップ推論攻撃(RMIA)を提案する。 提案アルゴリズムは, 偽陽性誤り率が極端に低い場合でも, 従来手法と比較して優れたテストパワー(真陽性率)を示す。 また, 計算制約下では, 限定的な参照モデル(数1程度)しか利用できないが, このようなシナリオでランダムな推測に近づいたいくつかの攻撃とは異なり, この手法は極めてよく機能する。 提案手法は,機械学習アルゴリズムのコスト効率,実用性,かつ強力で堅牢なプライバシーリスク分析の基盤となる。

We present a robust membership inference attack (RMIA) that amplifies the distinction between population data and the training data on any target model, by effectively leveraging both reference models and reference data in our likelihood ratio test. Our algorithm exhibits superior test power (true-positive rate) when compared to prior methods, even at extremely low false-positive error rates (as low as 0). Also, under computation constraints, where only a limited number of reference models (as few as 1) are available, our method performs exceptionally well, unlike some prior attacks that approach random guessing in such scenarios. Our method lays the groundwork for cost-effective and practical yet powerful and robust privacy risk analysis of machine learning algorithms.
翻訳日:2023-12-07 16:20:17 公開日:2023-12-06
# f-FERM:ロバスト公正な経験的リスク最小化のためのスケーラブルなフレームワーク

f-FERM: A Scalable Framework for Robust Fair Empirical Risk Minimization ( http://arxiv.org/abs/2312.03259v1 )

ライセンス: Link先を確認
Sina Baharlouei, Shivam Patel, Meisam Razaviyayn(参考訳) 保護されたグループの公平性基準を満たす機械学習モデルのトレーニングとデプロイは、現代の人工知能において基本的なものだ。 機械学習タスクの公平性を促進するために、多くの制約と正規化条件が文献で提案されているが、これらの手法の多くは制約と正規化子の複雑な非線形構造のために確率最適化には適していない。 ここで、"stochastic"という用語は、小さなミニバッチデータを扱うアルゴリズムの能力を指す。 本稿では,f-divergence measures(f-FERM)に基づく,公正な経験的リスク最小化のための統一確率最適化フレームワークを提案する。 提案アルゴリズムは理論的収束を保証する。 さらに,本実験では,f-fermによるほぼすべてのバッチサイズ(フルバッチからバッチサイズまで)に対する公正なトレードオフの優位性を実証する。 さらに,本フレームワークは,トレーニングからテストデータへの分散シフトがある場合に拡張可能であることを示す。 我々の拡張は、不確実集合として$L_p$ノルムの下で f-FERM 目的の分布的に堅牢な最適化の再構成に基づいている。 この分布的ロバストな設定では、f-fermは理論的な収束保証を享受するだけでなく、分布シフトを含むタスクの文献における他のベースラインよりも優れている。 f$-FERMの効率的な確率的実装が公開されている。

Training and deploying machine learning models that meet fairness criteria for protected groups are fundamental in modern artificial intelligence. While numerous constraints and regularization terms have been proposed in the literature to promote fairness in machine learning tasks, most of these methods are not amenable to stochastic optimization due to the complex and nonlinear structure of constraints and regularizers. Here, the term "stochastic" refers to the ability of the algorithm to work with small mini-batches of data. Motivated by the limitation of existing literature, this paper presents a unified stochastic optimization framework for fair empirical risk minimization based on f-divergence measures (f-FERM). The proposed stochastic algorithm enjoys theoretical convergence guarantees. In addition, our experiments demonstrate the superiority of fairness-accuracy tradeoffs offered by f-FERM for almost all batch sizes (ranging from full-batch to batch size of one). Moreover, we show that our framework can be extended to the case where there is a distribution shift from training to the test data. Our extension is based on a distributionally robust optimization reformulation of f-FERM objective under $L_p$ norms as uncertainty sets. Again, in this distributionally robust setting, f-FERM not only enjoys theoretical convergence guarantees but also outperforms other baselines in the literature in the tasks involving distribution shifts. An efficient stochastic implementation of $f$-FERM is publicly available.
翻訳日:2023-12-07 16:20:02 公開日:2023-12-06
# CAFE: 大規模レコメンデーションモデルのためのコンパクトで適応的で高速な埋め込みを目指して

CAFE: Towards Compact, Adaptive, and Fast Embedding for Large-scale Recommendation Models ( http://arxiv.org/abs/2312.03256v1 )

ライセンス: Link先を確認
Hailin Zhang, Zirui Liu, Boxuan Chen, Yikai Zhao, Tong Zhao, Tong Yang, Bin Cui(参考訳) 近年、DLRM(Deep Learning Recommendation Models)にテーブルを埋め込むことによるメモリ需要の増加が、モデルトレーニングとデプロイメントに大きな課題をもたらしています。 既存の埋め込み圧縮ソリューションは、メモリ効率、低レイテンシ、動的データ分散への適応性の3つの重要な設計要件を同時に満たすことはできない。 本稿では,上記の要件に対応するコンパクトで適応的で高速な組込み圧縮フレームワークであるcafeを提案する。 CAFEの設計哲学は、重要な機能(ホット機能と呼ばれる)により多くのメモリリソースを動的に割り当て、重要でない機能にメモリを割り当てることである。 cafeでは,機能の重要性を捉え,リアルタイムに特徴を報告するために,高速で軽量なスケッチデータ構造hotsketchを提案する。 報告されたホットな機能ごとに、ユニークな埋め込みを割り当てます。 非ホットな機能については、ハッシュ埋め込み技術を使って複数の機能がひとつの埋め込みを共有できるようにします。 設計哲学に導かれ、非ホットな機能の埋め込みテーブルを最適化するマルチレベルハッシュ埋め込みフレームワークも提案する。 理論上,ホットエッチングの精度を解析し,偏差に対するモデル収束を解析した。 大規模な実験により、CAFEは既存の埋め込み圧縮法を著しく上回り、Criteo KaggleデータセットとCriteoTBデータセットで10000倍の圧縮比でAUCを3.92%と3.68%上回った。 CAFEのソースコードはGitHubで入手できる。

Recently, the growing memory demands of embedding tables in Deep Learning Recommendation Models (DLRMs) pose great challenges for model training and deployment. Existing embedding compression solutions cannot simultaneously meet three key design requirements: memory efficiency, low latency, and adaptability to dynamic data distribution. This paper presents CAFE, a Compact, Adaptive, and Fast Embedding compression framework that addresses the above requirements. The design philosophy of CAFE is to dynamically allocate more memory resources to important features (called hot features), and allocate less memory to unimportant ones. In CAFE, we propose a fast and lightweight sketch data structure, named HotSketch, to capture feature importance and report hot features in real time. For each reported hot feature, we assign it a unique embedding. For the non-hot features, we allow multiple features to share one embedding by using hash embedding technique. Guided by our design philosophy, we further propose a multi-level hash embedding framework to optimize the embedding tables of non-hot features. We theoretically analyze the accuracy of HotSketch, and analyze the model convergence against deviation. Extensive experiments show that CAFE significantly outperforms existing embedding compression methods, yielding 3.92% and 3.68% superior testing AUC on Criteo Kaggle dataset and CriteoTB dataset at a compression ratio of 10000x. The source codes of CAFE are available at GitHub.
翻訳日:2023-12-07 16:19:39 公開日:2023-12-06
# オンラインマーケットプレイスにおける販売側アウトカムフェアネス

Seller-side Outcome Fairness in Online Marketplaces ( http://arxiv.org/abs/2312.03253v1 )

ライセンス: Link先を確認
Zikun Ye, Reza Yousefi Maragheh, Lalitesh Morishetti, Shanu Vashishtha, Jason Cho, Kaushiki Nag, Sushant Kumar, Kannan Achan(参考訳) 本論文は,eコマースプラットフォームにおいて,多くの販売者と商品が十分に顧客に公開されていないオンラインマーケットプレースにおける売り手側の公正性を調査し,達成することを目的とする。 この現象は、露出の少ないアイテムと市場の多様性の低下に関連する収益の潜在的な損失に関する懸念を引き起こす。 我々は,売り手側の成果公平性の概念を導入し,収集した推薦報酬と公平度指標のバランスをとる最適化モデルを構築した。 次に,双対性とバンドイット理論に基づく勾配に基づくデータ駆動アルゴリズムを提案する。 実際のeコマースデータセットに関する数値実験では,収集したGross Merchandise Value(GMV)や総購入数といった指標を損なうことなく,販売者の公正度を測ることのできるアルゴリズムが示されている。

This paper aims to investigate and achieve seller-side fairness within online marketplaces, where many sellers and their items are not sufficiently exposed to customers in an e-commerce platform. This phenomenon raises concerns regarding the potential loss of revenue associated with less exposed items as well as less marketplace diversity. We introduce the notion of seller-side outcome fairness and build an optimization model to balance collected recommendation rewards and the fairness metric. We then propose a gradient-based data-driven algorithm based on the duality and bandit theory. Our numerical experiments on real e-commerce data sets show that our algorithm can lift seller fairness measures while not hurting metrics like collected Gross Merchandise Value (GMV) and total purchases.
翻訳日:2023-12-07 16:19:13 公開日:2023-12-06
# 「より詳細な設定」:インストール指示の変更の分類

"Add more config detail": A Taxonomy of Installation Instruction Changes ( http://arxiv.org/abs/2312.03250v1 )

ライセンス: Link先を確認
Haoyu Gao, Christoph Treude, Mansooreh Zahedi(参考訳) READMEファイルはソフトウェアユーザーにインストール関連の指示を提供する上で重要な役割を果たし、GitHubなどのプラットフォーム上のオープンソースソフトウェアシステムで広く利用されている。 しかし、これらのファイルは、しばしば様々なドキュメントの問題に悩まされ、コンテンツの理解と潜在的なエラーを引き起こす。 その重要性にもかかわらず、READMEファイル、特にユーザーがソフトウェアプロジェクトを始めるのに不可欠であるインストール関連命令の文脈において、READMEファイルに費やされたドキュメントの取り組みに関する体系的な理解が欠如している。 調査ギャップを埋めるため,400のgithubリポジトリを対象に,インストール関連の更新に注目した1,163のreadmeコミットによる質的研究を実施した。 本研究は,READMEコミットの変更点として,プリインストール指示,インストール指示,ポストインストール指示,ヘルプ情報更新,ドキュメント提示,外部リソース管理の6つのカテゴリを明らかにした。 さらに、修正行動に関する詳細な洞察を提供し、これらの更新の例を示します。 本研究は,READMEファイルの保存と今後の研究方向性のモチベーションについて,実践者に推奨するものである。 これらの勧告と研究の方向性は、完全性、正確性、最新性、情報提示の考慮を含む。 提案する研究の方向性は,ドキュメント利用者のニーズの理解を深めるための,自動文書作成ツールや実証研究の開発にまたがる。 さらに,ドキュメントメンテナのインストール関連セクションをカバーするために調整された包括的なreadmeテンプレートを提供し,その取り組みの出発点として活用する。

README files play an important role in providing installation-related instructions to software users and are widely used in open source software systems on platforms such as GitHub. However, these files often suffer from various documentation issues, leading to challenges in comprehension and potential errors in content. Despite their significance, there is a lack of systematic understanding regarding the documentation efforts invested in README files, especially in the context of installation-related instructions, which are crucial for users to start with a software project. To fill the research gap, we conducted a qualitative study, investigating 400 GitHub repositories with 1,163 README commits that focused on updates in installation-related sections. Our research revealed six major categories of changes in the README commits, namely pre-installation instructions, installation instructions, post-installation instructions, help information updates, document presentation, and external resource management. We further provide detailed insights into modification behaviours and offer examples of these updates. Based on our findings, we provide recommendations to practitioners for maintaining their README files, as well as motivations for future research directions. These recommendations and research directions encompass completeness, correctness and up-to-dateness, and information presentation consideration. The proposed research directions span the development of automated documentation tools and empirical studies to enhance comprehension of the needs of documentation users. Furthermore, we provide a comprehensive README template tailored to cover the installation-related sections for document maintainers, serving as a practical starting point for their efforts.
翻訳日:2023-12-07 16:19:00 公開日:2023-12-06
# マルチタスク学習のためのパラメータ効率モジュールのカスタマイズ

Customizable Combination of Parameter-Efficient Modules for Multi-Task Learning ( http://arxiv.org/abs/2312.03248v1 )

ライセンス: Link先を確認
Haowen Wang, Tao Sun, Cong Fan, Jinjie Gu(参考訳) モジュラーでコンポーザブルな転送学習は、ニューラルネットワークが知識の様々な側面をよりよく整理できるため、パラメーター効率の優れた微調整の分野における新たな方向性であり、クロスタスク一般化の改善に繋がる。 本稿では,タスク共通スキルとタスク固有スキルを組み合わせた新しい手法であるpolytropon c-polyを提案する。 各タスクは、カスタマイズ可能な専門的なスキルと、ピアタスクと共有するスキルの恩恵を受ける。 スキル割り当て行列を共同で学習する。 提案手法を評価するため,我々はSuper-Natural InstructionsとSuperGLUEベンチマークについて広範な実験を行った。 以上の結果から,c-polyは,マルチタスク学習シナリオにおけるサンプル効率を著しく向上させるため,完全共有,タスク固有,スキル識別不能のベースラインよりも優れていることが示された。

Modular and composable transfer learning is an emerging direction in the field of Parameter Efficient Fine-Tuning, as it enables neural networks to better organize various aspects of knowledge, leading to improved cross-task generalization. In this paper, we introduce a novel approach Customized Polytropon C-Poly that combines task-common skills and task-specific skills, while the skill parameters being highly parameterized using low-rank techniques. Each task is associated with a customizable number of exclusive specialized skills and also benefits from skills shared with peer tasks. A skill assignment matrix is jointly learned. To evaluate our approach, we conducted extensive experiments on the Super-NaturalInstructions and the SuperGLUE benchmarks. Our findings demonstrate that C-Poly outperforms fully-shared, task-specific, and skill-indistinguishable baselines, significantly enhancing the sample efficiency in multi-task learning scenarios.
翻訳日:2023-12-07 16:18:33 公開日:2023-12-06
# 深層学習による侵入検知システムの逆ロバスト性を高めるための簡易フレームワーク

A Simple Framework to Enhance the Adversarial Robustness of Deep Learning-based Intrusion Detection System ( http://arxiv.org/abs/2312.03245v1 )

ライセンス: Link先を確認
Xinwei Yuan, Shu Han, Wei Huang, Hongliang Ye, Xianglong Kong and Fan Zhang(参考訳) 深層学習に基づく侵入検知システム(DLベースのIDS)は、様々なネットワーク侵入攻撃に対するセキュリティソリューションを提供するための最良の選択肢の1つである。 しかし,敵対的深層学習技術の出現と発展により,idsへのdlモデルの導入が困難になる。 本稿では、従来の機械学習(ML)モデルとディープラーニングモデルを組み合わせることで、敵攻撃に対するIDSの堅牢性を高める新しいIDSアーキテクチャを提案する。 提案したDLL-IDSは、DLベースのIDS、AE検出器、MLベースのIDSの3つのコンポーネントから構成される。 まず,局所固有次元(LID)に基づく新しいAE検出器を開発した。 そこで我々は, DLモデルとMLモデル間の低攻撃伝達性を利用して, AEsの悪質性判定を支援する堅牢なMLモデルを求める。 入力トラフィックがAEとして検出されると、MLベースのIDSは入力トラフィックの悪意を予測する。 融合機構は,DLモデルの高い予測精度と,DLモデルとMLモデル間の攻撃伝達率の低下を利用して,システム全体の堅牢性を向上させる。 実験では,攻撃時のidsの予測性能が大幅に向上し,リソース消費量の少ない高精度化が達成された。

Deep learning based intrusion detection systems (DL-based IDS) have emerged as one of the best choices for providing security solutions against various network intrusion attacks. However, due to the emergence and development of adversarial deep learning technologies, it becomes challenging for the adoption of DL models into IDS. In this paper, we propose a novel IDS architecture that can enhance the robustness of IDS against adversarial attacks by combining conventional machine learning (ML) models and Deep Learning models. The proposed DLL-IDS consists of three components: DL-based IDS, adversarial example (AE) detector, and ML-based IDS. We first develop a novel AE detector based on the local intrinsic dimensionality (LID). Then, we exploit the low attack transferability between DL models and ML models to find a robust ML model that can assist us in determining the maliciousness of AEs. If the input traffic is detected as an AE, the ML-based IDS will predict the maliciousness of input traffic, otherwise the DL-based IDS will work for the prediction. The fusion mechanism can leverage the high prediction accuracy of DL models and low attack transferability between DL models and ML models to improve the robustness of the whole system. In our experiments, we observe a significant improvement in the prediction performance of the IDS when subjected to adversarial attack, achieving high accuracy with low resource consumption.
翻訳日:2023-12-07 16:18:12 公開日:2023-12-06
# ボールドウィン進化による一般化型神経物理学解法

Generalizable Neural Physics Solvers by Baldwinian Evolution ( http://arxiv.org/abs/2312.03243v1 )

ライセンス: Link先を確認
Jian Cheng Wong, Chin Chun Ooi, Abhishek Gupta, Pao-Hsiung Chiu, Joshua Shao Zheng Low, My Ha Dao, Yew-Soon Ong(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、科学機械学習の最前線にあり、物理的法則を認識し、それらを正確にシミュレートできるマシンインテリジェンスの作成を可能にする。 本稿では,Baldwin効果の生物学的レンズを用いて,物理学的なタスクのファミリー全体を一般化するPINNを発見する可能性を初めて研究した。 学習し、予測し、環境に素早く反応するために進化した前皮質生物の神経発達から着想を得て、物理学の効率的な学習に向けて強いバイアスを誘発する接続強度を持つピンを想定する。 この目的のために、進化的選択圧力(一連のタスクの習熟度によって誘導される)は、生涯学習(これらのタスクの小さなサブセットを専門化する)と結合され、実験的な問題インスタンスの範囲で高速で物理に準拠する予測能力を実証するPINNを生成する。 ボードウィニアンの手法は、勾配勾配勾配によってメタ学習されたPINNによる最先端の計算結果と比較して、計算コストのごく一部で予測精度が大幅に向上する。 本稿では,ピンを一般化可能な物理解法としてメタラーニングの進歩を示す。

Physics-informed neural networks (PINNs) are at the forefront of scientific machine learning, making possible the creation of machine intelligence that is cognizant of physical laws and able to accurately simulate them. In this paper, the potential of discovering PINNs that generalize over an entire family of physics tasks is studied, for the first time, through a biological lens of the Baldwin effect. Drawing inspiration from the neurodevelopment of precocial species that have evolved to learn, predict and react quickly to their environment, we envision PINNs that are pre-wired with connection strengths inducing strong biases towards efficient learning of physics. To this end, evolutionary selection pressure (guided by proficiency over a family of tasks) is coupled with lifetime learning (to specialize on a smaller subset of those tasks) to produce PINNs that demonstrate fast and physics-compliant prediction capabilities across a range of empirically challenging problem instances. The Baldwinian approach achieves an order of magnitude improvement in prediction accuracy at a fraction of the computation cost compared to state-of-the-art results with PINNs meta-learned by gradient descent. This paper marks a leap forward in the meta-learning of PINNs as generalizable physics solvers.
翻訳日:2023-12-07 16:17:50 公開日:2023-12-06
# 強力な宝くじ券を持つマルチコートおよび折り畳み型グラフニューラルネットワーク

Multicoated and Folded Graph Neural Networks with Strong Lottery Tickets ( http://arxiv.org/abs/2312.03236v1 )

ライセンス: Link先を確認
Jiale Yan, Hiroaki Ito, \'Angel L\'opez Garc\'ia-Arias, Yasuyuki Okoshi, Hikari Otsuka, Kazushi Kawamura, Thiem Van Chu, Masato Motomura(参考訳) strong lottery ticket hypothesis (slth) は、無作為初期化モデル内で高パフォーマンスサブネットワークの存在を示し、重みトレーニングなしで畳み込みニューラルネットワーク(cnn)をprunすることで発見できる。 Untrained GNNs Tickets (UGT)と呼ばれる最近の研究は、SLTHをCNNから浅いグラフニューラルネットワーク(GNN)に拡張した。 しかし、ベースラインモデルと学習された密度重みを比較する際には相違が続く。 さらに、より深いGNNにSLTHを適用する際の未調査領域も残っており、追加のレイヤで精度が向上したにもかかわらず、過剰なメモリ要求に悩まされている。 これらの課題に対処するために、スカラープルーニングマスク法であるMulticoated Supermasks (M-Sup)を用いて、プルーニング閾値を適応的に設定する戦略を提案し、GNNに実装する。 ディープgnnの文脈では、この研究はトレーニング済みのフィードフォワードと同等のパフォーマンスを示す、訓練されていないリカレントネットワークの存在を明らかにする。 また,マルチステージ折り畳み法と非共有マスク法を導入して,検索空間をアーキテクチャとパラメータの両方の観点から拡張する。 Open Graph Benchmark (OGB) を含む様々なデータセットの評価を通じて、この研究は、SLTHベースのGNNの3倍のシナリオを確立している。

The Strong Lottery Ticket Hypothesis (SLTH) demonstrates the existence of high-performing subnetworks within a randomly initialized model, discoverable through pruning a convolutional neural network (CNN) without any weight training. A recent study, called Untrained GNNs Tickets (UGT), expanded SLTH from CNNs to shallow graph neural networks (GNNs). However, discrepancies persist when comparing baseline models with learned dense weights. Additionally, there remains an unexplored area in applying SLTH to deeper GNNs, which, despite delivering improved accuracy with additional layers, suffer from excessive memory requirements. To address these challenges, this work utilizes Multicoated Supermasks (M-Sup), a scalar pruning mask method, and implements it in GNNs by proposing a strategy for setting its pruning thresholds adaptively. In the context of deep GNNs, this research uncovers the existence of untrained recurrent networks, which exhibit performance on par with their trained feed-forward counterparts. This paper also introduces the Multi-Stage Folding and Unshared Masks methods to expand the search space in terms of both architecture and parameters. Through the evaluation of various datasets, including the Open Graph Benchmark (OGB), this work establishes a triple-win scenario for SLTH-based GNNs: by achieving high sparsity, competitive performance, and high memory efficiency with up to 98.7\% reduction, it demonstrates suitability for energy-efficient graph processing.
翻訳日:2023-12-07 16:17:28 公開日:2023-12-06
# 外科的フィードバック分類のためのdeep multimodal fusion

Deep Multimodal Fusion for Surgical Feedback Classification ( http://arxiv.org/abs/2312.03231v1 )

ライセンス: Link先を確認
Rafal Kocielnik, Elyssa Y. Wong, Timothy N. Chu, Lydia Lin, De-An Huang, Jiayun Wang, Anima Anandkumar, Andrew J. Hung(参考訳) 経験豊富な外科医が手術中の研修生に送った実時間非公式フィードバックの定量化は,手術訓練のスキル向上に重要である。 実際の手術室でのこのようなフィードバックは本質的にマルチモーダルであり、言語会話(例えば、質問と回答)と非言語的要素(例えば、解剖学的要素を指し示すような視覚的な手がかりを通して)で構成される。 本研究では,外科的フィードバックの「解剖学的」「技術的」「手続き的」「プレーズ」「視覚補助」の5つのカテゴリーを臨床的に評価した。 次に, テキスト, 音声, 映像の入力から術中フィードバックの5つのカテゴリを分類するマルチラベル機械学習モデルを開発した。 我々の研究の最終的な目標は、リアルタイムな文脈的外科的フィードバックのアノテーションを大規模に自動化することである。 術中フィードバックの自動分類は71.5から77.6までのaucsを達成し,融合性能は3.1%向上した。 また,AUCを76.5から96.2に改良したフィードバック音声の高品質な手書き書き起こしが,今後の改善に向けた明確な道筋を示すことを示す。 経験的に、まず各モードを個別に事前訓練し、その後共同でトレーニングするステージドトレーニング戦略は、異なるモダリティを完全にトレーニングするよりも効果的であることがわかった。 また,異なるフィードバックカテゴリに対するモダリティの重要性に関する直感的な知見も提示する。 本研究は,テキスト,音声,ビデオのモダリティに基づく実世界のライブフィードバックの自動分類の実現可能性について,第一に考察する。

Quantification of real-time informal feedback delivered by an experienced surgeon to a trainee during surgery is important for skill improvements in surgical training. Such feedback in the live operating room is inherently multimodal, consisting of verbal conversations (e.g., questions and answers) as well as non-verbal elements (e.g., through visual cues like pointing to anatomic elements). In this work, we leverage a clinically-validated five-category classification of surgical feedback: "Anatomic", "Technical", "Procedural", "Praise" and "Visual Aid". We then develop a multi-label machine learning model to classify these five categories of surgical feedback from inputs of text, audio, and video modalities. The ultimate goal of our work is to help automate the annotation of real-time contextual surgical feedback at scale. Our automated classification of surgical feedback achieves AUCs ranging from 71.5 to 77.6 with the fusion improving performance by 3.1%. We also show that high-quality manual transcriptions of feedback audio from experts improve AUCs to between 76.5 and 96.2, which demonstrates a clear path toward future improvements. Empirically, we find that the Staged training strategy, with first pre-training each modality separately and then training them jointly, is more effective than training different modalities altogether. We also present intuitive findings on the importance of modalities for different feedback categories. This work offers an important first look at the feasibility of automated classification of real-world live surgical feedback based on text, audio, and video modalities.
翻訳日:2023-12-07 16:16:58 公開日:2023-12-06
# 形状とポーズパラメータを用いた人体モデルに基づくid

Human Body Model based ID using Shape and Pose Parameters ( http://arxiv.org/abs/2312.03227v1 )

ライセンス: Link先を確認
Aravind Sundaresan and Brian Burns and Indranil Sur and Yi Yao and Xiao Lin and Sujeong Kim(参考訳) 本稿では,人体モデルに基づく識別システム(HMID)について述べる。 hmid は human mesh recovery (hmr) ネットワークに基づき, ポーズと形状の出力を維持しつつ形状推定と生体認証を改善し, 安定化するための追加損失を提案する。 我々は,HMIDネットワークに付加的な形状と損失を付加してトレーニングすると,そのような損失を使用しない同一モデルと比較して生体認証性能が著しく向上したことを示す。 HMIDモデルはシルエットの代わりに原画像を使用し、多くの人文的特性が衣服、ビュー、レンジと合理的に不変であるため、範囲と高度で収集された画像に対して堅牢な認識を行うことができる。 我々は,usfデータセットとbriarデータセットに,衣服とビュー変更の両方のプローブを含む結果を示す。 提案手法は,BRIAR評価データセットにおいて,Ran 20の精度と真精度を著しく向上させるものである。

We present a Human Body model based IDentification system (HMID) system that is jointly trained for shape, pose and biometric identification. HMID is based on the Human Mesh Recovery (HMR) network and we propose additional losses to improve and stabilize shape estimation and biometric identification while maintaining the pose and shape output. We show that when our HMID network is trained using additional shape and pose losses, it shows a significant improvement in biometric identification performance when compared to an identical model that does not use such losses. The HMID model uses raw images instead of silhouettes and is able to perform robust recognition on images collected at range and altitude as many anthropometric properties are reasonably invariant to clothing, view and range. We show results on the USF dataset as well as the BRIAR dataset which includes probes with both clothing and view changes. Our approach (using body model losses) shows a significant improvement in Rank20 accuracy and True Accuracy Rate on the BRIAR evaluation dataset.
翻訳日:2023-12-07 16:16:31 公開日:2023-12-06
# object saliency rankingの再検討: 新たなフロー処理パラダイム

Rethinking Object Saliency Ranking: A Novel Whole-flow Processing Paradigm ( http://arxiv.org/abs/2312.03226v1 )

ライセンス: Link先を確認
Mengke Song, Linfeng Li, Dunquan Wu, Wenfeng Song, Chenglizhao Chen(参考訳) 既存のサルエント物体検出法は、視覚的にサルエント領域を強調するバイナリマップを予測することができる。 しかし、これらの手法は、複数のオブジェクトの相対的重要性とそれらの関係を区別する能力に限られており、複数のオブジェクトの相対的重要性に依存する下流タスクにおいて、エラーや精度の低下につながる可能性がある。 そこで本研究では,その「重要順」によって,有能な物体のランク付けに完全に焦点を合わせることを目的とした,有能度ランキングの新しいパラダイムを提案する。 以前の作品は有望な性能を示したが、未だに不適切な問題に直面している。 まず、正しいランク付け順序が正しく定義されていないため、正当性ランキング基底真理(GT)順序生成法は理にかなわないため、誤報となる。 第二に、ほとんどの給与ランク付け手法がマルチタスクパラダイムに従っており、異なるタスク間の競合やトレードオフにつながるため、ランク付けモデルのトレーニングは依然として困難である。 第三に、既存の回帰型サリエンシーランキング手法は、例のマスクベースのサリエンシーランキング順序に依存するため、サリエンシーランキングモデルにとって複雑である。 これらの方法は、正確に実行するには大量のデータを必要とし、効果的に実装することは困難である。 これらの問題を解決するため,本研究では,GTデータ生成,ネットワーク構造設計,トレーニングプロトコルの観点から,原因の詳細な分析を行い,サリエンシランキングタスクの全体フロー処理パラダイムを提案する。 提案手法は, 公正かつ合理的な比較実験により実証された, 広く使用されているSALICONの既存の最先端手法よりも優れている。 サラレンシーランキングタスクはまだ初期段階であり、我々の提案した統合フレームワークは、将来の作業の指針となる基本的な戦略として機能する。

Existing salient object detection methods are capable of predicting binary maps that highlight visually salient regions. However, these methods are limited in their ability to differentiate the relative importance of multiple objects and the relationships among them, which can lead to errors and reduced accuracy in downstream tasks that depend on the relative importance of multiple objects. To conquer, this paper proposes a new paradigm for saliency ranking, which aims to completely focus on ranking salient objects by their "importance order". While previous works have shown promising performance, they still face ill-posed problems. First, the saliency ranking ground truth (GT) orders generation methods are unreasonable since determining the correct ranking order is not well-defined, resulting in false alarms. Second, training a ranking model remains challenging because most saliency ranking methods follow the multi-task paradigm, leading to conflicts and trade-offs among different tasks. Third, existing regression-based saliency ranking methods are complex for saliency ranking models due to their reliance on instance mask-based saliency ranking orders. These methods require a significant amount of data to perform accurately and can be challenging to implement effectively. To solve these problems, this paper conducts an in-depth analysis of the causes and proposes a whole-flow processing paradigm of saliency ranking task from the perspective of "GT data generation", "network structure design" and "training protocol". The proposed approach outperforms existing state-of-the-art methods on the widely-used SALICON set, as demonstrated by extensive experiments with fair and reasonable comparisons. The saliency ranking task is still in its infancy, and our proposed unified framework can serve as a fundamental strategy to guide future work.
翻訳日:2023-12-07 16:16:13 公開日:2023-12-06
# 総合スコアラベルから学習した各種美的属性集合のスコア予測

Predicting Scores of Various Aesthetic Attribute Sets by Learning from Overall Score Labels ( http://arxiv.org/abs/2312.03222v1 )

ライセンス: Link先を確認
Heng Huang, Xin Jin, Yaqi Liu, Hao Lou, Chaoen Xiao, Shuai Cui, Xinning Li, Dongqing Zou(参考訳) 現在、多くの携帯電話は写真の評価や指導のためにディープラーニングモデルを組み込んでいる。 これらのモデルは、対応する美的属性データに乏しいため、人間のポーズスコアやシーンカラースコアなどの詳細な結果を提供することができない。 しかし、画像美的属性スコアのアノテーションは経験豊富なアーティストやプロの写真家を必要とし、大規模な完全注釈付きデータセットの収集を妨げる。 本稿では,画像属性ラベルを特徴抽出器に置き換えることを提案する。 まず,属性特徴に基づく新規な美的属性評価フレームワークを提案し,属性スコアと全体スコアを予測する。 これをF2S(属性スコアの属性)モデルと呼ぶ。 異なるタスクのネットワークを使用して、F2Sモデルに属性機能を提供する。 次に、画像全体における美的属性の役割を記述するための美的属性コントリビューションを定義し、その属性スコアと総合スコアを用いてF2Sモデルをトレーニングする。 公開されているデータセットに対する十分な実験により、私たちのF2Sモデルは、完全に注釈付けされた美的属性スコアラベルでトレーニングされたデータセットと同等のパフォーマンスを達成しています。 本手法は, 各種の美的属性セットに対して, 総合的な美的スコアのみを用いて有意な属性スコアを学習できるようにする。

Now many mobile phones embed deep-learning models for evaluation or guidance on photography. These models cannot provide detailed results like human pose scores or scene color scores because of the rare of corresponding aesthetic attribute data. However, the annotation of image aesthetic attribute scores requires experienced artists and professional photographers, which hinders the collection of large-scale fully-annotated datasets. In this paper, we propose to replace image attribute labels with feature extractors. First, a novel aesthetic attribute evaluation framework based on attribute features is proposed to predict attribute scores and overall scores. We call it the F2S (attribute features to attribute scores) model. We use networks from different tasks to provide attribute features to our F2S models. Then, we define an aesthetic attribute contribution to describe the role of aesthetic attributes throughout an image and use it with the attribute scores and the overall scores to train our F2S model. Sufficient experiments on publicly available datasets demonstrate that our F2S model achieves comparable performance with those trained on the datasets with fully-annotated aesthetic attribute score labels. Our method makes it feasible to learn meaningful attribute scores for various aesthetic attribute sets in different types of images with only overall aesthetic scores.
翻訳日:2023-12-07 16:15:43 公開日:2023-12-06
# 適応部分空間探索によるインスタンス・ファスター最適化の高速化

Accelerated Gradient Algorithms with Adaptive Subspace Search for Instance-Faster Optimization ( http://arxiv.org/abs/2312.03218v1 )

ライセンス: Link先を確認
Yuanshi Liu, Hanzhen Zhao, Yang Xu, Pengyun Yue, Cong Fang(参考訳) 勾配に基づくミニマックス最適アルゴリズムは、連続最適化と機械学習の開発を大いに促進してきた。 yurii nesterov [nes83a] による独創的な研究により、$l$-smooth $\mu$-strongly convex の目的を最小化するために$\tilde{\mathcal{o}}(\sqrt{l/\mu})$gradient complexity が確立された。 しかし、理想的なアルゴリズムは、特定の目的関数の明示的な複雑さに適応し、より単純な問題に対してより速いレートを発生させ、既存の最適化モデリングと解析の2つの敗北を再考する。 (i)最悪のケースの最適性は、インスタンスの最適性でもそのようなものでもない。 (ii)従来のl$-smoothness条件は、現代の実用的な問題の主要な抽象化/キャラクタリゼーションではないかもしれない。 本稿では,線形回帰などを含む機械学習を直接応用した勾配に基づくアルゴリズムの設計と解析を行う新しい手法を公開する。 我々は、ヘッセンの特異値がしばしば急降下する観察に基づいて最適化問題の退化条件の記述を洗練させるために、2つの因子$(\alpha, \tau_{\alpha})$を導入する。 我々は、勾配の低下やoracleアクセスの類似した知識なしで、より単純な問題を解決する適応アルゴリズムを設計します。 このアルゴリズムはまた、機械学習におけるいくつかの問題に対する最先端の複雑さを改善し、既知の複雑さの低い境界を考慮してより高速なアルゴリズムを設計する方法というオープンな問題を解決する。 特に、$\tilde{\mathcal{O}(1)$-核ノルムを有界にすると、線形回帰に対して最適な$\tilde{\mathcal{O}}(\mu^{-1/3})$ (v.s.$\tilde{\mathcal{O}}(\mu^{-1/2})$)勾配複雑性が得られる。 この研究が、最適化における現代の問題の難しさを理解するための再考を呼び起こせることを願っている。

Gradient-based minimax optimal algorithms have greatly promoted the development of continuous optimization and machine learning. One seminal work due to Yurii Nesterov [Nes83a] established $\tilde{\mathcal{O}}(\sqrt{L/\mu})$ gradient complexity for minimizing an $L$-smooth $\mu$-strongly convex objective. However, an ideal algorithm would adapt to the explicit complexity of a particular objective function and incur faster rates for simpler problems, triggering our reconsideration of two defeats of existing optimization modeling and analysis. (i) The worst-case optimality is neither the instance optimality nor such one in reality. (ii) Traditional $L$-smoothness condition may not be the primary abstraction/characterization for modern practical problems. In this paper, we open up a new way to design and analyze gradient-based algorithms with direct applications in machine learning, including linear regression and beyond. We introduce two factors $(\alpha, \tau_{\alpha})$ to refine the description of the degenerated condition of the optimization problems based on the observation that the singular values of Hessian often drop sharply. We design adaptive algorithms that solve simpler problems without pre-known knowledge with reduced gradient or analogous oracle accesses. The algorithms also improve the state-of-art complexities for several problems in machine learning, thereby solving the open problem of how to design faster algorithms in light of the known complexity lower bounds. Specially, with the $\mathcal{O}(1)$-nuclear norm bounded, we achieve an optimal $\tilde{\mathcal{O}}(\mu^{-1/3})$ (v.s. $\tilde{\mathcal{O}}(\mu^{-1/2})$) gradient complexity for linear regression. We hope this work could invoke the rethinking for understanding the difficulty of modern problems in optimization.
翻訳日:2023-12-07 16:15:28 公開日:2023-12-06
# 電子商取引検索の再考

Rethinking E-Commerce Search ( http://arxiv.org/abs/2312.03217v1 )

ライセンス: Link先を確認
Haixun Wang, Taesik Na(参考訳) eコマース検索とレコメンデーションは通常、製品カタログや分類法などの構造化データに基づいて行われる。 しかし、より良い検索とレコメンデーションシステムを作成するには、web上の顧客レビューや記事を含む、多くの非構造化データが必要である。 従来、このソリューションは、非構造化データを情報抽出を通じて構造化データに変換し、構造化データの検索を実行してきた。 しかし、これはしばしば品質が低いコストのかかるアプローチです。 本稿では,正反対の解を想定する。 非構造化データ(webページ、顧客レビューなど)を構造化データに変換する代わりに、構造化データ(製品インベントリ、カタログ、分類学など)をテキストデータに変換することで、llmをトレーニングするテキストコーパスに容易に統合することができます。 そして、構造化データ上の従来の情報検索手法の代わりに、LLMを介してQ/A機構を介して検索と推薦を行う。

E-commerce search and recommendation usually operate on structured data such as product catalogs and taxonomies. However, creating better search and recommendation systems often requires a large variety of unstructured data including customer reviews and articles on the web. Traditionally, the solution has always been converting unstructured data into structured data through information extraction, and conducting search over the structured data. However, this is a costly approach that often has low quality. In this paper, we envision a solution that does entirely the opposite. Instead of converting unstructured data (web pages, customer reviews, etc) to structured data, we instead convert structured data (product inventory, catalogs, taxonomies, etc) into textual data, which can be easily integrated into the text corpus that trains LLMs. Then, search and recommendation can be performed through a Q/A mechanism through an LLM instead of using traditional information retrieval methods over structured data.
翻訳日:2023-12-07 16:14:57 公開日:2023-12-06
# 咬合下での協調確率的軌道予測

Cooperative Probabilistic Trajectory Forecasting under Occlusion ( http://arxiv.org/abs/2312.03296v1 )

ライセンス: Link先を確認
Anshul Nayak, Azim Eskandarian(参考訳) 咬合下の知覚と計画が安全クリティカルな課題に不可欠である。 隠蔽対象の情報を安全なナビゲーションのためにエゴエージェントに伝達する必要があることが多い。 しかし、通信損失や帯域幅の限られる状況下では、リッチセンサ情報を通信することは必ずしも不可能である。 さらに、GPSが否定する環境や屋内ナビゲーションでは、隠蔽物体の局所化と共有は困難である。 これを解決するために、共通視野を共有する連結エージェント間の相対的なポーズ推定は、周囲のオブジェクトに関する情報を伝えるのに有効な方法である。 本稿では,egoエージェントの基準フレームにおける閉塞歩行者の現況を協調的に推定し,安全保証により軌道予測を行うエンド・ツー・エンドネットワークを設計する。 実験により,エゴ剤による閉塞歩行者の不確実性を考慮した軌跡予測は,閉塞を前提とした地上の真実軌跡とほぼ同様であることがわかった。 本研究は、咬合下の複数の連結エージェント間の不確実性認識ナビゲーションを約束している。

Perception and planning under occlusion is essential for safety-critical tasks. Occlusion-aware planning often requires communicating the information of the occluded object to the ego agent for safe navigation. However, communicating rich sensor information under adverse conditions during communication loss and limited bandwidth may not be always feasible. Further, in GPS denied environments and indoor navigation, localizing and sharing of occluded objects can be challenging. To overcome this, relative pose estimation between connected agents sharing a common field of view can be a computationally effective way of communicating information about surrounding objects. In this paper, we design an end-to-end network that cooperatively estimates the current states of occluded pedestrian in the reference frame of ego agent and then predicts the trajectory with safety guarantees. Experimentally, we show that the uncertainty-aware trajectory prediction of occluded pedestrian by the ego agent is almost similar to the ground truth trajectory assuming no occlusion. The current research holds promise for uncertainty-aware navigation among multiple connected agents under occlusion.
翻訳日:2023-12-07 16:08:19 公開日:2023-12-06
# データプラットフォームのセキュリティ - b2bエンタープライズデータのプライバシとセキュリティのための戦略的マスク技術

Securing Data Platforms: Strategic Masking Techniques for Privacy and Security for B2B Enterprise Data ( http://arxiv.org/abs/2312.03293v1 )

ライセンス: Link先を確認
Mandar Khoje(参考訳) 今日のデジタル時代には、機密情報を扱うビジネス・ツー・ビジネス(B2B)企業にとって、データプライバシとセキュリティを保護する義務が最重要課題である。 これらの企業は、効率的な管理、処理、ストレージ、データ分析のために設計されたテクノロジソリューションの統合スイートであるデータプラットフォームを構築しつつある。 特にログファイルやテキストドキュメントなどの構造化されていないデータタイプを保護するという複雑さに直面するため、これらのデータプラットフォームを本質的にデータプライバシとセキュリティをサポートするメカニズムで設計することが重要になっている。 このコンテキストにおいて、データマスキングはデータプラットフォームアーキテクチャの重要な特徴である。 機密性の高い要素を積極的に隠蔽し、データプライバシを確保しながら、ビジネスオペレーションや分析に情報の価値を保護します。 第一に、隠蔽を必要とする機密データを正確に特定し、第二に、データプラットフォームインフラ内でデータを効果的に偽装するための洗練された方法を適用する。 本研究は,高度データマスキング手法をデータプラットフォームに組み込むニュアンスと,異なる識別・匿名化手法を探求することによって,企業が効果的なデータマスキング実装への包括的アプローチをどのように採用できるかを深く探究するものである。

In today's digital age, the imperative to protect data privacy and security is a paramount concern, especially for business-to-business (B2B) enterprises that handle sensitive information. These enterprises are increasingly constructing data platforms, which are integrated suites of technology solutions architected for the efficient management, processing, storage, and data analysis. It has become critical to design these data platforms with mechanisms that inherently support data privacy and security, particularly as they encounter the added complexity of safeguarding unstructured data types such as log files and text documents. Within this context, data masking stands out as a vital feature of data platform architecture. It proactively conceals sensitive elements, ensuring data privacy while preserving the information's value for business operations and analytics. This protective measure entails a strategic two-fold process: firstly, accurately pinpointing the sensitive data that necessitates concealment, and secondly, applying sophisticated methods to disguise that data effectively within the data platform infrastructure. This research delves into the nuances of embedding advanced data masking techniques within the very fabric of data platforms and an in-depth exploration of how enterprises can adopt a comprehensive approach toward effective data masking implementation by exploring different identification and anonymization techniques.
翻訳日:2023-12-07 16:08:02 公開日:2023-12-06
# 共同研究者の混合による分子特性予測の促進

Enhancing Molecular Property Prediction via Mixture of Collaborative Experts ( http://arxiv.org/abs/2312.03292v1 )

ライセンス: Link先を確認
Xu Yao, Shuang Liang, Songqiao Han and Hailiang Huang(参考訳) 分子特性予測(英語版)(MPP)タスクは、分子グラフ構造などの分子的特徴に基づいて生化学的性質を予測し、医薬品開発における鉛化合物の発見に寄与する。 MPPにおけるデータの不足と不均衡に対処するために、分子グラフから共通性を抽出するエンコーダとしてグラフニューラルネットワーク(GNN)を採用している研究もある。 しかし、これらの手法は各タスクに別々の予測器を使用し、異なるタスクに対応する予測器間の共有特性を無視する。 この制限に対応するため、GNN-MoCEアーキテクチャを導入する。 専門家プールにおける均質性の問題と専門家グループ内の決定優位性ジレンマに直面する一方で、タスクの共通点を活用する。 専門家間のコラボレーションにおける専門家の多様性を高めるため,エキスパート・スペクティブ・プロジェクション法を提案し,各専門家に独自のプロジェクション・パースペクティブを割り当てる。 エキスパートグループ内のコラボレーションに対する意思決定の影響のバランスをとるために、より公平なトレーニングのために、個々の専門家の損失をグループの重み付けされた意思決定損失に統合するために専門家固有の損失が提示される。 専門家作成、動的専門家グループ形成、専門家のコラボレーションにおけるMoCEの強化から、我々のモデルは24MPPデータセット、特に限られたデータや高い不均衡のタスクにおいて、従来の手法よりも優れたパフォーマンスを示す。

Molecular Property Prediction (MPP) task involves predicting biochemical properties based on molecular features, such as molecular graph structures, contributing to the discovery of lead compounds in drug development. To address data scarcity and imbalance in MPP, some studies have adopted Graph Neural Networks (GNN) as an encoder to extract commonalities from molecular graphs. However, these approaches often use a separate predictor for each task, neglecting the shared characteristics among predictors corresponding to different tasks. In response to this limitation, we introduce the GNN-MoCE architecture. It employs the Mixture of Collaborative Experts (MoCE) as predictors, exploiting task commonalities while confronting the homogeneity issue in the expert pool and the decision dominance dilemma within the expert group. To enhance expert diversity for collaboration among all experts, the Expert-Specific Projection method is proposed to assign a unique projection perspective to each expert. To balance decision-making influence for collaboration within the expert group, the Expert-Specific Loss is presented to integrate individual expert loss into the weighted decision loss of the group for more equitable training. Benefiting from the enhancements of MoCE in expert creation, dynamic expert group formation, and experts' collaboration, our model demonstrates superior performance over traditional methods on 24 MPP datasets, especially in tasks with limited data or high imbalance.
翻訳日:2023-12-07 16:07:40 公開日:2023-12-06
# OMNIINPUT:出力分布によるモデル中心評価フレームワーク

OMNIINPUT: A Model-centric Evaluation Framework through Output Distribution ( http://arxiv.org/abs/2312.03291v1 )

ライセンス: Link先を確認
Weitang Liu, Ying Wai Li, Tianle Wang, Yi-Zhuang You, Jingbo Shang(参考訳) 我々は,AIの安全性と信頼性に欠かせないすべての入力(人間の認識できない入力を含む)に対して,AI/MLモデルの予測品質を評価するために,新しいモデル中心評価フレームワークOmniInputを提案する。 事前定義されたテストセットに基づく従来のデータ中心評価とは異なり、OmniInputのテストセットはモデル自身で自己構築され、その出力分布を調査してモデル品質を評価する。 本研究では,モデルの精度を推定し,異なる出力値と包括的精度・リコール曲線を再現するために,訓練モデルの出力分布と代表入力を得る効率的なサンプリング器を用いる。 我々の実験は、OmniInputがモデル間のよりきめ細かい比較を可能にし、特に事前定義されたデータセットでパフォーマンスがほぼ同じである場合、より堅牢で一般化可能なモデルのトレーニング方法に関する新たな発見と洞察をもたらすことを実証している。

We propose a novel model-centric evaluation framework, OmniInput, to evaluate the quality of an AI/ML model's predictions on all possible inputs (including human-unrecognizable ones), which is crucial for AI safety and reliability. Unlike traditional data-centric evaluation based on pre-defined test sets, the test set in OmniInput is self-constructed by the model itself and the model quality is evaluated by investigating its output distribution. We employ an efficient sampler to obtain representative inputs and the output distribution of the trained model, which, after selective annotation, can be used to estimate the model's precision and recall at different output values and a comprehensive precision-recall curve. Our experiments demonstrate that OmniInput enables a more fine-grained comparison between models, especially when their performance is almost the same on pre-defined datasets, leading to new findings and insights for how to train more robust, generalizable models.
翻訳日:2023-12-07 16:07:15 公開日:2023-12-06
# PPOに代わる言語エージェントは可能か? オープンアイ体育館に関する予備的実証研究

Can language agents be alternatives to PPO? A Preliminary Empirical Study On OpenAI Gym ( http://arxiv.org/abs/2312.03290v1 )

ライセンス: Link先を確認
Junjie Sheng, Zixiao Huang, Chuyun Shen, Wenhao Li, Yun Hua, Bo Jin, Hongyuan Zha, Xiangfeng Wang(参考訳) 言語エージェントにおけるゼロまたは少数ショットの意思決定能力は、説得力のある質問を提起する。 言語エージェントは、伝統的なシーケンシャルな意思決定タスクにおいて、PPOエージェントの代替となることができるか? そこで我々はまず,OpenAI Gymで収集した環境をテストベッドとして,TextGymシミュレータを構成するテキスト環境に接地する。 これにより、OpenAI Gymが広く採用されていることから、PPOエージェントと言語エージェントの単純かつ効率的な比較が可能になる。 公平かつ効果的なベンチマークを実現するため、正確なドメイン知識制御のための5ドルのシナリオと言語エージェントのための統一RLインスパイアされたフレームワークを導入する。 さらに,TextGym内の課題を解決するために,探索探索誘導言語(EXE)エージェントを提案する。 数値実験とアブレーション研究を通じて,言語エージェントの意思決定能力に関する貴重な知見を抽出し,古典的順序決定問題におけるPPOの代替となる可能性について予備評価する。 本稿では,言語エージェントの性能に光を当て,このエキサイティング領域における今後の研究の道を開く。 私たちのコードは、~\url{https://github.com/mail-ecnu/Text-Gym-Agents}で公開されています。

The formidable capacity for zero- or few-shot decision-making in language agents encourages us to pose a compelling question: Can language agents be alternatives to PPO agents in traditional sequential decision-making tasks? To investigate this, we first take environments collected in OpenAI Gym as our testbeds and ground them to textual environments that construct the TextGym simulator. This allows for straightforward and efficient comparisons between PPO agents and language agents, given the widespread adoption of OpenAI Gym. To ensure a fair and effective benchmarking, we introduce $5$ levels of scenario for accurate domain-knowledge controlling and a unified RL-inspired framework for language agents. Additionally, we propose an innovative explore-exploit-guided language (EXE) agent to solve tasks within TextGym. Through numerical experiments and ablation studies, we extract valuable insights into the decision-making capabilities of language agents and make a preliminary evaluation of their potential to be alternatives to PPO in classical sequential decision-making problems. This paper sheds light on the performance of language agents and paves the way for future research in this exciting domain. Our code is publicly available at~\url{https://github.com/mail-ecnu/Text-Gym-Agents}.
翻訳日:2023-12-07 16:06:57 公開日:2023-12-06
# 対人ロバストネスのためのクラスインクリメンタルラーニング

Class Incremental Learning for Adversarial Robustness ( http://arxiv.org/abs/2312.03289v1 )

ライセンス: Link先を確認
Seungju Cho, Hongshin Lee, Changick Kim(参考訳) 敵の訓練は、モデルトレーニング中の敵の例を統合し、堅牢性を高める。 しかし、固定データセット設定でのアプリケーションは、データが漸進的に蓄積される実世界のダイナミクスとは異なる。 本研究では,逆ロバスト性とインクリメンタル学習を組み合わせた手法であるarcil(adversarially robust class incremental learning)について検討する。 逐次学習とナイーブな敵対的トレーニングを組み合わせると、ロバスト性が失われやすいことが観察される。 これは、敵の訓練の特徴である損失関数の平坦性が失われることによるものであることが判明した。 この問題に対処するため,本研究では,逆例と清浄例の出力差を生かした平坦性保存蒸留(fpd)損失を提案する。 さらに,ロジット調整蒸留(LAD)の損失も導入し,新しいタスクにうまく対応できるようにモデル知識を適応させる。 実験の結果,既存のインクリメンタルラーニング手法に逆学習を適用するアプローチよりも,本手法の方が優れていることが示された。 分割したCIFAR-10, CIFAR-100, Tiny ImageNetのベースラインよりも平均5.99\%p, 5.27\%p, 3.90\%pのAutoAttack精度を実現する。 コードは利用可能になります。

Adversarial training integrates adversarial examples during model training to enhance robustness. However, its application in fixed dataset settings differs from real-world dynamics, where data accumulates incrementally. In this study, we investigate Adversarially Robust Class Incremental Learning (ARCIL), a method that combines adversarial robustness with incremental learning. We observe that combining incremental learning with naive adversarial training easily leads to a loss of robustness. We discover that this is attributed to the disappearance of the flatness of the loss function, a characteristic of adversarial training. To address this issue, we propose the Flatness Preserving Distillation (FPD) loss that leverages the output difference between adversarial and clean examples. Additionally, we introduce the Logit Adjustment Distillation (LAD) loss, which adapts the model's knowledge to perform well on new tasks. Experimental results demonstrate the superiority of our method over approaches that apply adversarial training to existing incremental learning methods, which provides a strong baseline for incremental learning on adversarial robustness in the future. Our method achieves AutoAttack accuracy that is 5.99\%p, 5.27\%p, and 3.90\%p higher on average than the baseline on split CIFAR-10, CIFAR-100, and Tiny ImageNet, respectively. The code will be made available.
翻訳日:2023-12-07 16:06:37 公開日:2023-12-06
# STEP CATFormer:スケルトンに基づく行動認識のための時空間有効ボディ部分クロスアテンショントランス

STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention Transformer for Skeleton-based Action Recognition ( http://arxiv.org/abs/2312.03288v1 )

ライセンス: Link先を確認
Nguyen Huu Bao Long(参考訳) グラフ畳み込みネットワーク(GCN)は広く使われ、骨格に基づく行動認識において顕著な成果を上げている。 骨格に基づく行動認識の鍵はフレームにぶら下がっているスケルトンであり、グラフ畳み込み畳み込みネットワークがどのように異なるトポロジを学習し、グローバルな時間的および局所的な時間的共同機能を効果的に集約するかに焦点を当てる。 本研究では,CTR-GCN (Channel-wise Topology Refinement Graph Convolution) に基づく3つのチャネルワイドトロイグラフ畳み込みを提案する。 CTR-GCNと2つの関節横断モジュールを組み合わせることで、上半身部分と手足関係の骨格の特徴を捉えることができる。 その後、フレームで変化する人間の骨格の特徴を捉えるために、時間的注意トランスフォーマーを設計して、効果的に骨格を抽出する。 テンポラルアテンショントランスフォーマーは人間の骨格配列の時間的特徴を学習することができる。 最後に、時間的特徴出力尺度をMLPと分類で融合する。 我々は,NTU RGB+D, NTU RGB+D 120データセット上での高性能な空間時間有効ボディアテンション変換器という,強力なグラフ畳み込みネットワークを開発した。 私たちのコードとモデルはhttps://github.com/maclong01/STEP-CATFormerで利用可能です。

Graph convolutional networks (GCNs) have been widely used and achieved remarkable results in skeleton-based action recognition. We think the key to skeleton-based action recognition is a skeleton hanging in frames, so we focus on how the Graph Convolutional Convolution networks learn different topologies and effectively aggregate joint features in the global temporal and local temporal. In this work, we propose three Channel-wise Tolopogy Graph Convolution based on Channel-wise Topology Refinement Graph Convolution (CTR-GCN). Combining CTR-GCN with two joint cross-attention modules can capture the upper-lower body part and hand-foot relationship skeleton features. After that, to capture features of human skeletons changing in frames we design the Temporal Attention Transformers to extract skeletons effectively. The Temporal Attention Transformers can learn the temporal features of human skeleton sequences. Finally, we fuse the temporal features output scale with MLP and classification. We develop a powerful graph convolutional network named Spatial Temporal Effective Body-part Cross Attention Transformer which notably high-performance on the NTU RGB+D, NTU RGB+D 120 datasets. Our code and models are available at https://github.com/maclong01/STEP-CATFormer
翻訳日:2023-12-07 16:06:16 公開日:2023-12-06
# 逆ロバスト蒸留のための間接勾配マッチング

Indirect Gradient Matching for Adversarial Robust Distillation ( http://arxiv.org/abs/2312.03286v1 )

ライセンス: Link先を確認
Hongsin Lee, Seungju Cho, Changick Kim(参考訳) 敵意トレーニングは、敵意の強固さを大幅に改善するが、優れた性能は主に大きなモデルで達成される。 この小さなモデルの性能ギャップは、その差を緩和するために敵対蒸留(AD)の研究を活発に進めている。 既存のADメソッドは教師のログをガイドとして活用する。 これらのアプローチとは対照的に、我々は教師から別の知識、すなわち入力勾配を移すことを目指している。 本稿では,間接勾配蒸留モジュール(igdm)と呼ばれる,生徒の入力勾配と教師のそれと間接的に一致する蒸留モジュールを提案する。 生徒は入力勾配に合致して教師の知識を身につけることができると仮定する。 逆訓練が入力空間上で局所的に線形なモデルを生成するという観測を生かして,直接計算することなく,テイラー近似を用いて勾配を効果的に整列する。 実験の結果,IGDMは既存のADメソッドとシームレスに統合され,すべてのADメソッドの性能が著しく向上した。 特に、CIFAR-100データセットでのIGDMの利用は、ResNet-18モデルでAutoAttackの精度を28.06%から30.32%に改善し、追加データ拡張なしでSOTAメソッドに統合されたときにMobileNetV2モデルで26.18%から29.52%に改善した。 コードは利用可能になります。

Adversarial training significantly improves adversarial robustness, but superior performance is primarily attained with large models. This substantial performance gap for smaller models has spurred active research into adversarial distillation (AD) to mitigate the difference. Existing AD methods leverage the teacher's logits as a guide. In contrast to these approaches, we aim to transfer another piece of knowledge from the teacher, the input gradient. In this paper, we propose a distillation module termed Indirect Gradient Distillation Module (IGDM) that indirectly matches the student's input gradient with that of the teacher. We hypothesize that students can better acquire the teacher's knowledge by matching the input gradient. Leveraging the observation that adversarial training renders the model locally linear on the input space, we employ Taylor approximation to effectively align gradients without directly calculating them. Experimental results show that IGDM seamlessly integrates with existing AD methods, significantly enhancing the performance of all AD methods. Particularly, utilizing IGDM on the CIFAR-100 dataset improves the AutoAttack accuracy from 28.06% to 30.32% with the ResNet-18 model and from 26.18% to 29.52% with the MobileNetV2 model when integrated into the SOTA method without additional data augmentation. The code will be made available.
翻訳日:2023-12-07 16:05:55 公開日:2023-12-06
# マルチユーザ絡み合いスワップによる独立ネットワークの量子融合

Quantum Fusion of Independent Networks Based on Multi-user Entanglement Swapping ( http://arxiv.org/abs/2312.03279v1 )

ライセンス: Link先を確認
Yiwen Huang, Yilin Yang, Hao Li, Jing Qiu, Zhantong Qi, Jiayu Wang, Yuting Zhang, Yuanhua Li, Yuanlin Zheng, and Xianfeng Chen(参考訳) 量子科学の発展に伴い、大規模量子ネットワークの構築は将来の量子情報技術のホットな領域となっている。 将来の量子ネットワークは、多くの素晴らしいアプリケーションを可能にすることを約束し、情報セキュリティと大規模計算の基本的な新しい技術を開放する。 将来の量子インターネットは、量子情報プロセッサを接続してシークレット通信の非並列性を実現し、地球上の任意の2点間の量子通信を可能にするために必要である。 しかし、既存の量子ネットワークは基本的に、エンドユーザ間の通信を実現するために構築されている。 独立したネットワークを橋渡しして、完全に接続された量子インターネットを作る方法は、未来のネットワークにとって大きな課題となる。 本稿では,マルチユーザ絡み込みスワッピングに基づく2つの独立ネットワークの量子融合を初めて実証し,2つの10ユーザネットワークを大きなネットワークにマージし,18人のユーザを量子相関層に配置した。 隣り合う2つのノード間でベル状態測定を行うことで、異なるネットワークのユーザは絡み合いを確立し、最終的に18人のユーザのペアは交換された状態を使って互いに通信することができる。 提案手法は,異なるネットワークにおける遠隔ノード間の量子絡み合いを確立するための魅力的な機会を開き,汎用的な量子情報相互接続を容易にし,大規模都市間量子通信ネットワークの構築に有効である。

With the advance development in quantum science, constructing a large-scale quantum network has become a hot area of future quantum information technology. Future quantum networks promise to enable many fantastic applications and will unlock fundamentally new technologies in information security and large-scale computation. The future quantum internet is required to connect quantum information processors to achieve unparalleled capabilities in secret communication and enable quantum communication between any two points on Earth. However, the existing quantum networks are basically constructed to realize the communication between the end users in their own networks. How to bridge different independent networks to form a fully-connected quantum internet becomes a pressing challenge for future networks. Here, we demonstrate the quantum fusion of two independent networks for the first time based on multiuser entanglement swapping, to merge two 10-user networks into a larger network with 18 users in quantum correlation layer. By performing the Bell state measurement between two nonneighboring nodes, the users from different networks can establish entanglement and ultimately every pair of the 18 users are able to communicate with each other using the swapped states. Our approach opens attractive opportunities for the establishment of quantum entanglement between remote nodes in different networks, which facilitates versatile quantum information interconnects and has great application in constructing large-scale intercity quantum communication networks.
翻訳日:2023-12-07 16:05:30 公開日:2023-12-06
# 強化学習に基づくRAN最適化におけるスケーラブルタスク群の自動検出

Anomaly Detection for Scalable Task Grouping in Reinforcement Learning-based RAN Optimization ( http://arxiv.org/abs/2312.03277v1 )

ライセンス: Link先を確認
Jimmy Li, Igor Kozlov, Di Wu, Xue Liu, Gregory Dudek(参考訳) 近年,細胞無線アクセスネットワーク(RAN)を最適化するための学習に基づく手法が注目されている。 これは、セルネットワークトラフィックの劇的な増加によって、世界中の細胞サイトが急速に増加したことと一致している。 多数のセルサイトにわたってうまく機能する学習モデルのトレーニングとメンテナンスは、関連する問題となっている。 本稿では,トラフィックパターンの異なる多数のセルサイトに対して,実行時の最適化が可能な強化学習ポリシバンクを構築するためのスケーラブルなフレームワークを提案する。 我々のフレームワークの中心は、サイト(タスク)と政策銀行の整合性を評価するための異常検出技術の新しい応用である。 これにより、私たちのフレームワークは、タスクのためにポリシーをいつ再利用できるか、新しいポリシーをトレーニングし、ポリシーバンクに追加する必要があるのかをインテリジェントに識別できます。 提案手法は, 実世界の制約下で, 全タスクを徹底的に訓練することなく, 実行政策銀行を構築することで, 計算資源の効率的な活用につながることを示す。

The use of learning-based methods for optimizing cellular radio access networks (RAN) has received increasing attention in recent years. This coincides with a rapid increase in the number of cell sites worldwide, driven largely by dramatic growth in cellular network traffic. Training and maintaining learned models that work well across a large number of cell sites has thus become a pertinent problem. This paper proposes a scalable framework for constructing a reinforcement learning policy bank that can perform RAN optimization across a large number of cell sites with varying traffic patterns. Central to our framework is a novel application of anomaly detection techniques to assess the compatibility between sites (tasks) and the policy bank. This allows our framework to intelligently identify when a policy can be reused for a task, and when a new policy needs to be trained and added to the policy bank. Our results show that our approach to compatibility assessment leads to an efficient use of computational resources, by allowing us to construct a performant policy bank without exhaustively training on all tasks, which makes it applicable under real-world constraints.
翻訳日:2023-12-07 16:05:06 公開日:2023-12-06
# 量子テレポーテーションとスーパーデンス符号化のインバータチェーンリンク実装

An inverter-chain link implementation of quantum teleportation and superdense coding ( http://arxiv.org/abs/2312.03276v1 )

ライセンス: Link先を確認
Felix A. Buot and Roland E.S. Otadoy(参考訳) 量子絡み合いのインバータチェーンリンク(ICL)ダイアグラムの新しい視点は、量子テレポーテーションと超密度符号化の基本的な概念を忠実に捉えている。 本稿では,量子テレポーテーションとスーパーデンス符号化の資源として,離散位相空間とICL解析を用いる。 量子重ね合わせの原理とアダマール変換を1キュービットの局所演算で評価する。 EPRが提起する基本的な問題に関して、我々の結果は量子絡み合いの幾何学的性質を支持するものと思われる。 結論として、一般相対性理論と量子力学、すなわち ER=EPR を統一することを目的とした物理学における大胆な予想について論じる。

A new perspective in terms of inverter-chain link (ICL) diagrams of quantum entanglement faithfully captures the fundamental concept of quantum teleportation and superdense coding. Here, we employ discrete phase space and ICL analyses of quantum entanglement as a resource for quantum teleportation and superdense coding. We underscore the quantum superposition principle and Hadamard transformation under a single qubit local operations. On the fundamental question posed by EPR, our result seems to lend support to the geometric nature of quantum entanglement. In concluding remarks, we discuss very briefly a bold conjecture in physics aiming to unify general relativity with quantum mechanics, namely, ER=EPR.
翻訳日:2023-12-07 16:04:48 公開日:2023-12-06
# VLFM:ゼロショットセマンティックナビゲーションのための視覚言語フロンティアマップ

VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation ( http://arxiv.org/abs/2312.03275v1 )

ライセンス: Link先を確認
Naoki Yokoyama, Sehoon Ha, Dhruv Batra, Jiuguang Wang, Bernadette Bucher(参考訳) 人間のような探索行動が可能なロボットを開発する上で,人間はセマンティックな知識を活用して,未知の環境をナビゲートし,次に探索する場所を決定することが重要である。 ゼロショットナビゲーションアプローチであるVLFM(Vision-Language Frontier Maps)を導入し、人間の推論にインスパイアされ、新しい環境における見えないセマンティックオブジェクトへのナビゲートを意図した。 VLFMは、深度観測から占有マップを構築してフロンティアを特定し、RGB観測と事前学習された視覚言語モデルを活用して、言語基底値マップを生成する。 vlfmはこのマップを使って最も有望なフロンティアを特定し、与えられた対象オブジェクトカテゴリのインスタンスを見つけるために探索する。 我々は,ギブソン,ハビタット・マテルポート3D (HM3D) およびマターポート3D (MP3D) のシミュレータを用いて,写真実写環境における VLFM の評価を行った。 注目すべきことに、VLFMは、Object Goal Navigationタスクのパス長(SPL)で重み付けされた成功によって測定された3つのデータセットすべてに対して、最先端の結果を達成する。 さらに,vlfmのゼロショット特性により,boston dynamics spotモバイル操作プラットフォームのような実世界のロボットに容易にデプロイできることを示した。 我々は、VLFMをSpot上にデプロイし、環境に関する事前の知識なしに、実世界のオフィスビル内のターゲットオブジェクトに効率的にナビゲートできることを実証する。 VLFMの成果は、セマンティックナビゲーションの分野を前進させるビジョン言語モデルの可能性を強調している。 実世界の展開のビデオはnaoki.io/vlfmで見ることができる。

Understanding how humans leverage semantic knowledge to navigate unfamiliar environments and decide where to explore next is pivotal for developing robots capable of human-like search behaviors. We introduce a zero-shot navigation approach, Vision-Language Frontier Maps (VLFM), which is inspired by human reasoning and designed to navigate towards unseen semantic objects in novel environments. VLFM builds occupancy maps from depth observations to identify frontiers, and leverages RGB observations and a pre-trained vision-language model to generate a language-grounded value map. VLFM then uses this map to identify the most promising frontier to explore for finding an instance of a given target object category. We evaluate VLFM in photo-realistic environments from the Gibson, Habitat-Matterport 3D (HM3D), and Matterport 3D (MP3D) datasets within the Habitat simulator. Remarkably, VLFM achieves state-of-the-art results on all three datasets as measured by success weighted by path length (SPL) for the Object Goal Navigation task. Furthermore, we show that VLFM's zero-shot nature enables it to be readily deployed on real-world robots such as the Boston Dynamics Spot mobile manipulation platform. We deploy VLFM on Spot and demonstrate its capability to efficiently navigate to target objects within an office building in the real world, without any prior knowledge of the environment. The accomplishments of VLFM underscore the promising potential of vision-language models in advancing the field of semantic navigation. Videos of real-world deployment can be viewed at naoki.io/vlfm.
翻訳日:2023-12-07 16:04:37 公開日:2023-12-06
# 経験的ベイズ共分散分解とスパースPCAにおける多重チューニング問題の解法

Empirical Bayes Covariance Decomposition, and a solution to the Multiple Tuning Problem in Sparse PCA ( http://arxiv.org/abs/2312.03274v1 )

ライセンス: Link先を確認
Joonsuk Kang, Matthew Stephens(参考訳) スパース主成分分析(PCA)は,PCAの解釈可能性と信頼性を両立させる手法として提案されている。 しかし、実際にはスパースpcaの使用は、異なるpcのスパース性を制御する複数のハイパーパラメータのチューニングの困難さ("multiple tuning problem, mtp")によって妨げられている。 本稿では経験的ベイズ法を用いてmtpの解法を提案する。 まず、データ行列$\mathbf{X}$のペナル化PCAの一般的な定式化を導入する。 この定式化はまた、共分散(あるいはグラマー)行列のペナル化分解($\mathbf{X}^T\mathbf{X}$)をもたらす。 本研究では,これらのペナルティを,クロスバリデーションよりもデータから推定される事前分布によって決定する実験的なベイズ版を導入する。 結果として生じる「経験的ベイズ共分散分解」は、スパースPCAにおけるMPPの原理的かつ効率的な解であり、他の構造的仮定(例えば非負のPCA)を組み込むように即座に拡張できる。 シミュレーションデータと実データの両方において,この手法の有効性を示す。

Sparse Principal Components Analysis (PCA) has been proposed as a way to improve both interpretability and reliability of PCA. However, use of sparse PCA in practice is hindered by the difficulty of tuning the multiple hyperparameters that control the sparsity of different PCs (the "multiple tuning problem", MTP). Here we present a solution to the MTP using Empirical Bayes methods. We first introduce a general formulation for penalized PCA of a data matrix $\mathbf{X}$, which includes some existing sparse PCA methods as special cases. We show that this formulation also leads to a penalized decomposition of the covariance (or Gram) matrix, $\mathbf{X}^T\mathbf{X}$. We introduce empirical Bayes versions of these penalized problems, in which the penalties are determined by prior distributions that are estimated from the data by maximum likelihood rather than cross-validation. The resulting "Empirical Bayes Covariance Decomposition" provides a principled and efficient solution to the MTP in sparse PCA, and one that can be immediately extended to incorporate other structural assumptions (e.g. non-negative PCA). We illustrate the effectiveness of this approach on both simulated and real data examples.
翻訳日:2023-12-07 16:04:05 公開日:2023-12-06
# SO-NeRF:Surrogate Objectivesを用いたNeRFのアクティブビュープランニング

SO-NeRF: Active View Planning for NeRF using Surrogate Objectives ( http://arxiv.org/abs/2312.03266v1 )

ライセンス: Link先を確認
Keifer Lee, Shubham Gupta, Sunglyoung Kim, Bhargav Makwana, Chao Chen, Chen Feng(参考訳) ニューラル・ラジアンス・フィールド(nerf)の成功にもかかわらず、データの収集プロセスはあいまいであり、サンプリングの一般的な規則は可能な限り高密度である。 NeRFの優れたビューを構成するものに対する理解の欠如は、最大限の再構築品質をもたらす一連のビューを積極的に計画することを困難にしている。 本研究では,幾何学的および測光的視覚的手がかり(表面被覆,幾何学的複雑度,テクスチャ的複雑度,線多様性)を用いてビューの良否を評価可能な関数の集合である,アクティブ・ラミアンス・フィールド(soar)のためのサロゲート・目標を提案する。 さらに、深いネットワークであるSOARNetからSOARのスコアを推測することで、候補となるすべてのビューを事前に訪問したり、そのような計画中に放射界を訓練する必要なしに、数時間ではなくほんの数秒でビューを効果的に選択できます。 我々の実験では、SOARNetは、より良いあるいは同等の再構築品質を達成しつつ、$\sim$80倍のスピードアップでベースラインを上回ります。 soarはモデルに依存しないため、完全なニューラルネットワークから完全に明示的なアプローチへと一般化する。

Despite the great success of Neural Radiance Fields (NeRF), its data-gathering process remains vague with only a general rule of thumb of sampling as densely as possible. The lack of understanding of what actually constitutes good views for NeRF makes it difficult to actively plan a sequence of views that yield the maximal reconstruction quality. We propose Surrogate Objectives for Active Radiance Fields (SOAR), which is a set of interpretable functions that evaluates the goodness of views using geometric and photometric visual cues - surface coverage, geometric complexity, textural complexity, and ray diversity. Moreover, by learning to infer the SOAR scores from a deep network, SOARNet, we are able to effectively select views in mere seconds instead of hours, without the need for prior visits to all the candidate views or training any radiance field during such planning. Our experiments show SOARNet outperforms the baselines with $\sim$80x speed-up while achieving better or comparable reconstruction qualities. We finally show that SOAR is model-agnostic, thus it generalizes across fully neural-implicit to fully explicit approaches.
翻訳日:2023-12-07 16:03:44 公開日:2023-12-06
# 風化が続く不確実性:時間変化のある部分観測可能な環境での学習と計画

Weathering Ongoing Uncertainty: Learning and Planning in a Time-Varying Partially Observable Environment ( http://arxiv.org/abs/2312.03263v1 )

ライセンス: Link先を確認
Gokul Puthumanaillam, Xiangyu Liu, Negar Mehr and Melkior Ornik(参考訳) 最適な意思決定は、不確実で確率的、時間的な環境で動作する自律システムにとって大きな課題となる。 時間による環境変動は、ミッション完了のための最適な意思決定戦略に大きな影響を与える。 このような環境をモデル化するために,従来のTVMDP(Time-Varying Markov Decision Process)の概念と部分的可観測性を組み合わせて,TV-POMDP(Time-Varying partially Observable Markov Decision Process)を導入している。 我々は,TV-POMDP内の正確な推定と計画を行うための2つのアプローチを提案する。 1)より正確な時間変化遷移推定を提供するために重み付けメモリを利用するメモリ優先状態推定(MPSE) 2)時間制約を考慮した長期報酬を最適化したmpse統合計画戦略。 提案するフレームワークとアルゴリズムをシミュレーションとハードウェアを用いて検証し,部分的に観測可能な時間変動環境を探索する。 本結果は,標準手法よりも優れた性能を示し,確率的かつ不確実な時間変化領域におけるフレームワークの有効性を強調した。

Optimal decision-making presents a significant challenge for autonomous systems operating in uncertain, stochastic and time-varying environments. Environmental variability over time can significantly impact the system's optimal decision making strategy for mission completion. To model such environments, our work combines the previous notion of Time-Varying Markov Decision Processes (TVMDP) with partial observability and introduces Time-Varying Partially Observable Markov Decision Processes (TV-POMDP). We propose a two-pronged approach to accurately estimate and plan within the TV-POMDP: 1) Memory Prioritized State Estimation (MPSE), which leverages weighted memory to provide more accurate time-varying transition estimates; and 2) an MPSE-integrated planning strategy that optimizes long-term rewards while accounting for temporal constraint. We validate the proposed framework and algorithms using simulations and hardware, with robots exploring a partially observable, time-varying environments. Our results demonstrate superior performance over standard methods, highlighting the framework's effectiveness in stochastic, uncertain, time-varying domains.
翻訳日:2023-12-07 16:03:20 公開日:2023-12-06
# 部分的ソース仮定による量子乱数生成

Quantum Random Number Generation with Partial Source Assumptions ( http://arxiv.org/abs/2312.03333v1 )

ライセンス: Link先を確認
Xing Lin, Rong Wang(参考訳) 量子乱数生成器は量子力学の力を利用して真の乱数を生成し、様々な科学的応用に有用である。 しかし、現実世界のデバイスは、しばしば、生成されたランダム性の完全性とプライバシーを損なう欠陥に悩まされる。 この問題に対処するために,新しい量子乱数生成器を提案し,実験的に実証する。 提案手法は, 量子側チャネルが存在する場合でも, 測定装置の徹底的なキャラクタリゼーションの必要性を回避できる。 さらに、音源の詳細な特徴付けも必要とせず、代わりに寸法や雑音の制約を符号化する合理的な仮定に依存する。 市販の全ファイバーデバイスを活用することで、ランダムネス生成速度は40kbpsに達する。

Quantum random number generator harnesses the power of quantum mechanics to generate true random numbers, making it valuable for various scientific applications. However, real-world devices often suffer from imperfections that can undermine the integrity and privacy of generated randomness. To combat this issue, we present a novel quantum random number generator and experimentally demonstrate it. Our approach circumvents the need for exhaustive characterization of measurement devices, even in the presence of a quantum side channel. Additionally, we also do not require detailed characterization of the source, relying instead on reasonable assumptions about encoding dimension and noise constraints. Leveraging commercially available all-fiber devices, we achieve a randomness generation rate of 40 kbps.
翻訳日:2023-12-07 15:56:44 公開日:2023-12-06
# 自然言語生成におけるミソジニーの測定:2つのRedditコミュニティを事例として

Measuring Misogyny in Natural Language Generation: Preliminary Results from a Case Study on two Reddit Communities ( http://arxiv.org/abs/2312.03330v1 )

ライセンス: Link先を確認
Aaron J. Snoswell, Lucinda Nelson, Hao Xue, Flora D. Salim, Nicolas Suzor and Jean Burgess(参考訳) ジェネリックな「毒性」分類器は、その欠点の証拠を積み重ねながらも、自然言語生成における有害性を評価するために使われ続けている。 我々は,自然言語生成におけるミソジニー測定の課題を考察し,一般の「毒性」分類器は,この課題には不十分であると主張する。 2つの言語モデルを微調整するために使用する2つのトレーニングコーパスを構築するのに、主に誤字の程度が異なるRedditの2つの有名な‘Incel’コミュニティのデータを使用します。 オープンソースの「毒性」分類器は、これらのモデルと世代間で有意に区別できないことを示す。 私たちは、フェミニストの主題マッターの専門家が最近提案したミソジニー特有のレキシコンとは対照的に、単純なレキシコンベースのアプローチの制限にもかかわらず、これはミソジニーの言語モデルを評価するベンチマークとして約束されていることを示し、これらのredditコミュニティで既知の違いを明らかにするには十分敏感であることを示している。 予備的な知見は、害を評価するための一般的なアプローチの限界を強調し、さらに、自然言語評価における慎重なベンチマーク設計と選択の必要性を強調した。

Generic `toxicity' classifiers continue to be used for evaluating the potential for harm in natural language generation, despite mounting evidence of their shortcomings. We consider the challenge of measuring misogyny in natural language generation, and argue that generic `toxicity' classifiers are inadequate for this task. We use data from two well-characterised `Incel' communities on Reddit that differ primarily in their degrees of misogyny to construct a pair of training corpora which we use to fine-tune two language models. We show that an open source `toxicity' classifier is unable to distinguish meaningfully between generations from these models. We contrast this with a misogyny-specific lexicon recently proposed by feminist subject-matter experts, demonstrating that, despite the limitations of simple lexicon-based approaches, this shows promise as a benchmark to evaluate language models for misogyny, and that it is sensitive enough to reveal the known differences in these Reddit communities. Our preliminary findings highlight the limitations of a generic approach to evaluating harms, and further emphasise the need for careful benchmark design and selection in natural language evaluation.
翻訳日:2023-12-07 15:56:24 公開日:2023-12-06
# クープマンに基づく動的運動プリミティブの深層学習

Deep Learning for Koopman-based Dynamic Movement Primitives ( http://arxiv.org/abs/2312.03328v1 )

ライセンス: Link先を確認
Tyler Han and Carl Glen Henshaw(参考訳) ロボットに、少数のデモから巧妙な操作、ダイナミックな移動、体全体を操作させることを教えるという課題は、ロボットコミュニティ全体から関心を集めてきた重要な研究分野である。 本研究では,クープマン演算子と動的運動プリミティブの理論をデモから学ぶことによって,新しいアプローチを提案する。 このアプローチは \gls{admd} と呼ばれ、非線形力学系を線形潜在空間に投影し、解が所望の複素運動を再現する。 提案手法では,線形システムに対する制約が解釈可能であるのに対して,オートエンコーダは一般化性と拡張性を実現する。 その結果,lasaハンドライティングデータセットにおける拡張動的モード分解に匹敵するものの,文字のごく一部しかトレーニングしていない。

The challenge of teaching robots to perform dexterous manipulation, dynamic locomotion, or whole--body manipulation from a small number of demonstrations is an important research field that has attracted interest from across the robotics community. In this work, we propose a novel approach by joining the theories of Koopman Operators and Dynamic Movement Primitives to Learning from Demonstration. Our approach, named \gls{admd}, projects nonlinear dynamical systems into linear latent spaces such that a solution reproduces the desired complex motion. Use of an autoencoder in our approach enables generalizability and scalability, while the constraint to a linear system attains interpretability. Our results are comparable to the Extended Dynamic Mode Decomposition on the LASA Handwriting dataset but with training on only a small fractions of the letters.
翻訳日:2023-12-07 15:55:45 公開日:2023-12-06
# 視覚ナビゲーションのための空間的および時間的注意を伴うカテゴリグラフ表現の構築

Building Category Graphs Representation with Spatial and Temporal Attention for Visual Navigation ( http://arxiv.org/abs/2312.03327v1 )

ライセンス: Link先を確認
Xiaobo Hu, Youfang Lin, HeHe Fan, Shuo Wang, Zhihao Wu, Kai Lv(参考訳) 視覚ナビゲーションは、興味のある対象が与えられたとき、部分的な観察の順序に基づいて物体の位置に到達することを目的としている。 この目的のためには エージェントは 1)訓練中の世界における対象カテゴリーの関係に関する特定の知識を学習し、 2)現在目に見えない環境において,事前学習対象カテゴリー関係とその移動軌跡に基づいて対象対象物を探す。 本稿では,オブジェクトのカテゴリ配置関係の知識を学習するカテゴリ関係グラフ (crg) と,ナビゲーション支援対象の長期的空間的・時間的依存関係を知覚する時間空間的アテンションアーキテクチャ (tsr) を提案する。 我々は、オブジェクトレイアウトの事前知識を学び、特定のオブジェクトの位置を推測するカテゴリ関係グラフを確立する。 その後, 観測軌道内の時間的, 空間的, 領域における物体の関係を捉えるためにTSRを導入した。 具体的には,過去の移動や軌道情報を暗黙的にエンコードする観測シーケンスの時間的構造をモデル化する時間的注意モジュール(t)を提案する。 次に、カテゴリ関係グラフと過去の観測に基づいて、現在の観測対象の空間的文脈を明らかにするために空間的注意モジュール(s)を用いる。 最後に、領域注意モジュール(R)は、対象領域に注意を移す。 本手法によって抽出された視覚的表現に基づき,エージェントは環境をよりよく認識し,優れたナビゲーションポリシーを容易に学習することができる。 ai2-thorの実験では、crg-tsr法が有効性と効率の両面で既存の方法を大幅に上回っています。 コードは補足資料に含まれており、一般公開される予定である。

Given an object of interest, visual navigation aims to reach the object's location based on a sequence of partial observations. To this end, an agent needs to 1) learn a piece of certain knowledge about the relations of object categories in the world during training and 2) look for the target object based on the pre-learned object category relations and its moving trajectory in the current unseen environment. In this paper, we propose a Category Relation Graph (CRG) to learn the knowledge of object category layout relations and a Temporal-Spatial-Region (TSR) attention architecture to perceive the long-term spatial-temporal dependencies of objects helping the navigation. We learn prior knowledge of object layout, establishing a category relationship graph to deduce the positions of specific objects. Subsequently, we introduced TSR to capture the relationships of objects in temporal, spatial, and regions within the observation trajectories. Specifically, we propose a Temporal attention module (T) to model the temporal structure of the observation sequence, which implicitly encodes the historical moving or trajectory information. Then, a Spatial attention module (S) is used to uncover the spatial context of the current observation objects based on the category relation graph and past observations. Last, a Region attention module (R) shifts the attention to the target-relevant region. Based on the visual representation extracted by our method, the agent can better perceive the environment and easily learn superior navigation policy. Experiments on AI2-THOR demonstrate our CRG-TSR method significantly outperforms existing methods regarding both effectiveness and efficiency. The code has been included in the supplementary material and will be publicly available.
翻訳日:2023-12-07 15:55:10 公開日:2023-12-06
# GCFA:形状空間理論による測地曲線の特徴増強

GCFA:Geodesic Curve Feature Augmentation via Shape Space Theory ( http://arxiv.org/abs/2312.03325v1 )

ライセンス: Link先を確認
Yuexing Han, Guanxin Wan and Bing Wang(参考訳) 深層学習は様々な領域で顕著な結果をもたらした。 しかし、大規模なラベル付きサンプルを必要とするという課題は、いまだにディープラーニングにおいて持続している。 このように、ディープラーニングモデルをトレーニングするための重要な戦略として、データ拡張が導入されている。 しかし、データ拡張は小さなサンプル環境での情報損失と性能の低下に苦しむ。 これらの欠点を克服するために, 形状空間理論に基づく特徴拡張法, 即ち, 測地曲線特徴拡張法, gcfa in brevityを提案する。 まず,ニューラルネットワークモデルを用いて画像から特徴を抽出する。 そして、複数の画像特徴を特徴として事前形状空間に投影する。 プレシェイプ空間では、特徴に合うようにジオデシック曲線が構築される。 最後に、Geodesic曲線上に生成された多くの特徴は、様々な機械学習モデルをトレーニングするために使用される。 GCFAモジュールは、ほとんどの機械学習メソッドとシームレスに統合できる。 提案手法は,小サンプルデータセットに対して単純で効果的で無感である。 いくつかの例では、GCFA法は小さなサンプル環境でのデータ前処理モデルの性能を大幅に改善できることを示している。

Deep learning has yielded remarkable outcomes in various domains. However, the challenge of requiring large-scale labeled samples still persists in deep learning. Thus, data augmentation has been introduced as a critical strategy to train deep learning models. However, data augmentation suffers from information loss and poor performance in small sample environments. To overcome these drawbacks, we propose a feature augmentation method based on shape space theory, i.e., Geodesic curve feature augmentation, called GCFA in brevity. First, we extract features from the image with the neural network model. Then, the multiple image features are projected into a pre-shape space as features. In the pre-shape space, a Geodesic curve is built to fit the features. Finally, the many generated features on the Geodesic curve are used to train the various machine learning models. The GCFA module can be seamlessly integrated with most machine learning methods. And the proposed method is simple, effective and insensitive for the small sample datasets. Several examples demonstrate that the GCFA method can greatly improve the performance of the data preprocessing model in a small sample environment.
翻訳日:2023-12-07 15:54:39 公開日:2023-12-06
# ファウショットセグメンテーションのための背景クラスタリング事前学習

Background Clustering Pre-training for Few-shot Segmentation ( http://arxiv.org/abs/2312.03322v1 )

ライセンス: Link先を確認
Zhimiao Yu, Tiancheng Lin, Yi Xu(参考訳) 最近のいくつかのショットセグメンテーション (FSS) 法では, メタトレーニングの前に, より強力なバックボーンを得るために, 追加の事前訓練段階を導入している。 基礎クラスのみが前景としてラベル付けされており、新しいクラスと実際のバックグラウンドを区別することは困難である。 本稿では,バックグラウンドクラスタリング事前学習(BCPT)と呼ばれる,新しいクラスをバックグラウンドから切り離し,FSSのための新しい事前学習手法を提案する。 具体的には、統合された背景のピクセル埋め込みにオンラインクラスタリングを適用し、基礎となる意味構造を調べ、事前トレーニングと新しいクラスへの適応のギャップを埋める。 クラスタリング結果から,バックグラウンドマイニング損失を更に提案し,ベースクラスを活用してクラスタリングプロセスを指導し,クラスタリング結果の品質と安定性を向上させる。 PASCAL-5iとCOCO-20iの実験では、BCPTは高度な性能を示す。 コードは利用可能だ。

Recent few-shot segmentation (FSS) methods introduce an extra pre-training stage before meta-training to obtain a stronger backbone, which has become a standard step in few-shot learning. Despite the effectiveness, current pre-training scheme suffers from the merged background problem: only base classes are labelled as foregrounds, making it hard to distinguish between novel classes and actual background. In this paper, we propose a new pre-training scheme for FSS via decoupling the novel classes from background, called Background Clustering Pre-Training (BCPT). Specifically, we adopt online clustering to the pixel embeddings of merged background to explore the underlying semantic structures, bridging the gap between pre-training and adaptation to novel classes. Given the clustering results, we further propose the background mining loss and leverage base classes to guide the clustering process, improving the quality and stability of clustering results. Experiments on PASCAL-5i and COCO-20i show that BCPT yields advanced performance. Code will be available.
翻訳日:2023-12-07 15:54:12 公開日:2023-12-06
# 単一モード圧縮真空状態の蒸留における確率的非ガウス演算の利点

Advantage of probabilistic non-Gaussian operations in the distillation of single mode squeezed vacuum state ( http://arxiv.org/abs/2312.03320v1 )

ライセンス: Link先を確認
Chandan Kumar(参考訳) 我々は,光子サブトラクション(PS),光子付加(PA),光子触媒(PC)の3つの異なる確率的非ガウス演算を用いて,単一モード圧縮真空状態でのスクイーズ蒸留を検討した。 これを達成するために、これらの非ガウス的操作を実装し、結果の非ガウス状態のウィグナー特性関数を導出する実用的なモデルを考える。 その結果,ps と pc の操作はスクイーズを蒸留できるが,pa 操作はできないことがわかった。 さらに,これらの非ガウス操作に伴う成功確率を考察し,スクイーズ蒸留の最適パラメータを同定した。 現在の分析は, スクイーズ蒸留に関する実験的な取り組みに大きく関係している。

We consider the distillation of squeezing in single mode squeezed vacuum state using three different probabilistic non-Gaussian operations: photon subtraction (PS), photon addition (PA) and photon catalysis (PC). To accomplish this, we consider a practical model to implement these non-Gaussian operations and derive the Wigner characteristic function of the resulting non-Gaussian states. Our result shows that while PS and PC operations can distill squeezing, PA operations cannot. Furthermore, we delve into the success probabilities associated with these non-Gaussian operations and identify optimal parameters for the distillation of squeezing. Our current analysis holds significant relevance for experimental endeavors concerned with squeezing distillation.
翻訳日:2023-12-07 15:53:54 公開日:2023-12-06
# 分布シフト下におけるコントラスト学習と自己学習の相補的効果

Complementary Benefits of Contrastive Learning and Self-Training Under Distribution Shift ( http://arxiv.org/abs/2312.03318v1 )

ライセンス: Link先を確認
Saurabh Garg, Amrith Setlur, Zachary Chase Lipton, Sivaraman Balakrishnan, Virginia Smith, Aditi Raghunathan(参考訳) 自己学習と対比学習は、分布シフト(教師なしドメイン適応)と欠落(教師なし学習)の両方において、ラベルなしデータを取り込むための主要な技術として登場している。 しかしながら、これらの技法の人気と互換性にもかかわらず、それらの組み合わせの有効性は未定である。 本稿では,この組み合わせの系統的実証調査を行い,その有効性について考察する。 (i)ドメイン適応設定において、自己学習と対照学習は相補的な利益をもたらす。 (ii) 半教師付き学習環境では, 驚くべきことに, 利点は相乗的ではない。 8つの分布シフトデータセット(例えば、BREEDs, WILDS)にわたって、組み合わせた手法は、どちらのアプローチよりも3-8%高い精度が得られることを示した。 そして、これらの手法を簡易な分散シフトモデルで理論的に解析し、対照的な学習によって得られる特徴が利得をさらに増幅し最適な性能を達成するための自己学習に優れた初期化をもたらすシナリオを示す。

Self-training and contrastive learning have emerged as leading techniques for incorporating unlabeled data, both under distribution shift (unsupervised domain adaptation) and when it is absent (semi-supervised learning). However, despite the popularity and compatibility of these techniques, their efficacy in combination remains unexplored. In this paper, we undertake a systematic empirical investigation of this combination, finding that (i) in domain adaptation settings, self-training and contrastive learning offer significant complementary gains; and (ii) in semi-supervised learning settings, surprisingly, the benefits are not synergistic. Across eight distribution shift datasets (e.g., BREEDs, WILDS), we demonstrate that the combined method obtains 3--8% higher accuracy than either approach independently. We then theoretically analyze these techniques in a simplified model of distribution shift, demonstrating scenarios under which the features produced by contrastive learning can yield a good initialization for self-training to further amplify gains and achieve optimal performance, even when either method alone would fail.
翻訳日:2023-12-07 15:53:40 公開日:2023-12-06
# 双方向言語間変換学習の最適化:音素認識と音素翻訳

Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition and Phoneme to Grapheme Translation ( http://arxiv.org/abs/2312.03312v1 )

ライセンス: Link先を確認
Wonjun Lee, Gary Geunbae Lee, Yunsu Kim(参考訳) 本研究は,音素認識と音素から音素への翻訳モデルを強化することにより,低リソース言語における2パスクロスリンガルトランスファー学習を最適化する。 この2つの段階を最適化し,言語間の音声認識を改善する。 共有調音特性に基づいて音素を融合させることにより,音素語彙のカバレッジを最適化し,認識精度を向上させる。 さらに,音素からグラニュムへのトレーニング中にリアルなasrノイズを生成するグローバル音素ノイズ生成器を導入し,誤り伝搬を低減する。 CommonVoice 12.0データセットの実験では、低リソース言語に対するWord Error Rate(WER)が大幅に削減され、我々のアプローチの有効性が強調された。 この研究は、低リソース言語における2パスasrシステムの進歩に寄与し、言語間転送学習の改善の可能性を提供する。

This research optimizes two-pass cross-lingual transfer learning in low-resource languages by enhancing phoneme recognition and phoneme-to-grapheme translation models. Our approach optimizes these two stages to improve speech recognition across languages. We optimize phoneme vocabulary coverage by merging phonemes based on shared articulatory characteristics, thus improving recognition accuracy. Additionally, we introduce a global phoneme noise generator for realistic ASR noise during phoneme-to-grapheme training to reduce error propagation. Experiments on the CommonVoice 12.0 dataset show significant reductions in Word Error Rate (WER) for low-resource languages, highlighting the effectiveness of our approach. This research contributes to the advancements of two-pass ASR systems in low-resource languages, offering the potential for improved cross-lingual transfer learning.
翻訳日:2023-12-07 15:53:23 公開日:2023-12-06
# カーネルマシンのプレコンディショニングにおけるNystrom近似について

On the Nystrom Approximation for Preconditioning in Kernel Machines ( http://arxiv.org/abs/2312.03311v1 )

ライセンス: Link先を確認
Amirhesam Abedsoltan, Mikhail Belkin, Parthe Pandit, Luis Rademacher(参考訳) カーネル法は機械学習における非線形予測モデルの一般的なクラスである。 カーネルモデルを学習するためのスケーラブルなアルゴリズムは、本質的に反復的である必要があるが、コンバージェンスは条件の悪いため遅くなる可能性がある。 スペクトルプレコンディショニングは、カーネルモデルをトレーニングするための反復アルゴリズムの収束を高速化する重要なツールである。 しかし、スペクトルプリコンディショナーの計算と保存はコストがかかり、大規模な計算とストレージのオーバーヘッドが発生し、大規模なデータセットの問題に対するカーネルメソッドの適用が妨げられる可能性がある。 スペクトルプレコンディショナーのナイストロム近似は、しばしば計算と保存に安価であり、実用的な応用で成功している。 本稿では,このような近似プリコンディショナーの使用のトレードオフを分析する。 具体的には、対数サイズのサンプル(データセットの大きさの関数として)によって、nystromベースの近似プリコンディショナーは、正確なプリコンディショナーと同様に勾配降下を加速できると同時に、計算とストレージのオーバーヘッドも削減できることを示す。

Kernel methods are a popular class of nonlinear predictive models in machine learning. Scalable algorithms for learning kernel models need to be iterative in nature, but convergence can be slow due to poor conditioning. Spectral preconditioning is an important tool to speed-up the convergence of such iterative algorithms for training kernel models. However computing and storing a spectral preconditioner can be expensive which can lead to large computational and storage overheads, precluding the application of kernel methods to problems with large datasets. A Nystrom approximation of the spectral preconditioner is often cheaper to compute and store, and has demonstrated success in practical applications. In this paper we analyze the trade-offs of using such an approximated preconditioner. Specifically, we show that a sample of logarithmic size (as a function of the size of the dataset) enables the Nystrom-based approximated preconditioner to accelerate gradient descent nearly as well as the exact preconditioner, while also reducing the computational and storage overheads.
翻訳日:2023-12-07 15:53:08 公開日:2023-12-06
# 認知的視点による連続学習のベンチマーク

Benchmarking Continual Learning from Cognitive Perspectives ( http://arxiv.org/abs/2312.03309v1 )

ライセンス: Link先を確認
Xiaoqian Liu, Junge Zhang, Mingyi Zhang, Peipei Yang(参考訳) 継続的学習は、古い概念を破滅的に忘れずに知識を継続的に獲得し、伝達する問題に対処する。 人間は様々な神経認知機構を通じて連続学習を実現するが、認知特性と連続学習モデルの評価方法にはミスマッチがある。 まず、連続学習モデルの計測は、主にマイクロレベルの評価指標に依存し、モデルの認知能力を特徴づけることができない。 第二に、測定方法はメソッド固有であり、ある面においてモデル強度を強調し、他の面では潜在的な弱点を隠蔽する。 そこで本研究では,モデル認知能力と評価指標を統一評価パラダイムに統合することを提案する。 まず,人間の連続学習を支援する認知特性からデシダラタを導出したモデル容量を特徴付ける。 デシデレータは(1)タスクシーケンスの長さの異なる適応性、(2)動的タスク変動に対する感度、(3)メモリ使用率とトレーニング時間消費の効率性に関するものである。 次に,近年の連続学習モデルの認知能力を評価するために,各デシデラタムの評価プロトコルを設計する。 実験の結果,すべてのデシデラタを満足させる方法が得られず,真に継続的な学習を実現するには程遠いことがわかった。 ある程度の適応性と効率性を示す手法もあるが、動的タスクの変動に遭遇する際のタスク関係を識別したり、タスク間の類似性や相違点の学習においてトレードオフを達成できる手法はない。 これらの結果から,これらのデシダータにおけるモデル性能に影響を与える可能性のある要因について考察し,継続学習モデルの改善のためのガイダンスを提供する。

Continual learning addresses the problem of continuously acquiring and transferring knowledge without catastrophic forgetting of old concepts. While humans achieve continual learning via diverse neurocognitive mechanisms, there is a mismatch between cognitive properties and evaluation methods of continual learning models. First, the measurement of continual learning models mostly relies on evaluation metrics at a micro-level, which cannot characterize cognitive capacities of the model. Second, the measurement is method-specific, emphasizing model strengths in one aspect while obscuring potential weaknesses in other respects. To address these issues, we propose to integrate model cognitive capacities and evaluation metrics into a unified evaluation paradigm. We first characterize model capacities via desiderata derived from cognitive properties supporting human continual learning. The desiderata concern (1) adaptability in varying lengths of task sequence; (2) sensitivity to dynamic task variations; and (3) efficiency in memory usage and training time consumption. Then we design evaluation protocols for each desideratum to assess cognitive capacities of recent continual learning models. Experimental results show that no method we consider has satisfied all the desiderata and is still far away from realizing truly continual learning. Although some methods exhibit some degree of adaptability and efficiency, no method is able to identify task relationships when encountering dynamic task variations, or achieve a trade-off in learning similarities and differences between tasks. Inspired by these results, we discuss possible factors that influence model performance in these desiderata and provide guidance for the improvement of continual learning models.
翻訳日:2023-12-07 15:52:48 公開日:2023-12-06
# Mixture Cramer-Wold Distance を用いたバランス・マルジナル・ジョイント分散学習

Balanced Marginal and Joint Distributional Learning via Mixture Cramer-Wold Distance ( http://arxiv.org/abs/2312.03307v1 )

ライセンス: Link先を確認
Seunghwan An, Sungchul Hong, Jong-June Jeon(参考訳) 生成モデルの訓練の過程では、観測されたデータセットの生成分布と地上構造分布の2つの高次元確率分布の差を測定することが不可欠となる。 近年,高次元分布をスライスするアプローチへの関心が高まっており,クレーマー-ウォルド距離が期待できる方法として浮上している。 しかし,クレーマー・ウォルド距離は主に共同分布学習に焦点が当てられているのに対し,限界分布パターンの理解は効果的な合成データ生成に不可欠である。 本稿では,クレーマー-ウォルド混合距離という異種性の新たな尺度を紹介する。 この測度は、標準基底ベクトル上に点質量と混合測度を組み込むので、辺分布情報とジョイント分布情報の両方を同時に捉えることができる。 本研究では,cwdae(cramer-wold distributional autoencoder)と呼ばれる新しい生成モデルを提案する。 さらに、私たちのモデルはデータプライバシのレベルを容易に調整する柔軟性を提供します。

In the process of training a generative model, it becomes essential to measure the discrepancy between two high-dimensional probability distributions: the generative distribution and the ground-truth distribution of the observed dataset. Recently, there has been growing interest in an approach that involves slicing high-dimensional distributions, with the Cramer-Wold distance emerging as a promising method. However, we have identified that the Cramer-Wold distance primarily focuses on joint distributional learning, whereas understanding marginal distributional patterns is crucial for effective synthetic data generation. In this paper, we introduce a novel measure of dissimilarity, the mixture Cramer-Wold distance. This measure enables us to capture both marginal and joint distributional information simultaneously, as it incorporates a mixture measure with point masses on standard basis vectors. Building upon the mixture Cramer-Wold distance, we propose a new generative model called CWDAE (Cramer-Wold Distributional AutoEncoder), which shows remarkable performance in generating synthetic data when applied to real tabular datasets. Furthermore, our model offers the flexibility to adjust the level of data privacy with ease.
翻訳日:2023-12-07 15:52:21 公開日:2023-12-06
# Dyport: 動的重要度に基づく仮説生成ベンチマーク技術

Dyport: Dynamic Importance-based Hypothesis Generation Benchmarking Technique ( http://arxiv.org/abs/2312.03303v1 )

ライセンス: Link先を確認
Ilya Tyagin, Ilya Safro(参考訳) 本稿では,バイオメディカル仮説生成システムを評価するためのベンチマークフレームワークDyportを提案する。 収集したデータセットを利用して,現実の条件下でシステムをテストすることにより,評価の妥当性を高める。 キュレートされたデータベースからの知識を動的グラフに統合し,発見の重要性を定量化する手法を付加する。 これは仮説の精度を評価するだけでなく、従来のリンク予測ベンチマークを大幅に拡張したバイオメディカル研究における潜在的な影響も評価する。 バイオメディカル意味知識グラフに適用したいくつかのリンク予測システムにおいて,ベンチマーク手法の適用性が実証された。 フレキシブルなベンチマークシステムは,生物医学研究コミュニティにおける科学的発見の範囲を広げることを目的として,仮説生成品質検証の幅広い適用を目的として設計されている。 可用性と実装: Dyportフレームワークは完全にオープンソースである。 すべてのコードとデータセットは、https://github.com/IlyaTyagin/Dyportで入手できる。

This paper presents a novel benchmarking framework Dyport for evaluating biomedical hypothesis generation systems. Utilizing curated datasets, our approach tests these systems under realistic conditions, enhancing the relevance of our evaluations. We integrate knowledge from the curated databases into a dynamic graph, accompanied by a method to quantify discovery importance. This not only assesses hypothesis accuracy but also their potential impact in biomedical research which significantly extends traditional link prediction benchmarks. Applicability of our benchmarking process is demonstrated on several link prediction systems applied on biomedical semantic knowledge graphs. Being flexible, our benchmarking system is designed for broad application in hypothesis generation quality verification, aiming to expand the scope of scientific discovery within the biomedical research community. Availability and implementation: Dyport framework is fully open-source. All code and datasets are available at: https://github.com/IlyaTyagin/Dyport
翻訳日:2023-12-07 15:52:03 公開日:2023-12-06
# diffpmae:ポイントクラウド再構築のための拡散マスクオートエンコーダ

DiffPMAE: Diffusion Masked Autoencoders for Point Cloud Reconstruction ( http://arxiv.org/abs/2312.03298v1 )

ライセンス: Link先を確認
Yanlong Li and Chamara Madarasingha and Kanchana Thilakarathna(参考訳) ポイントクラウドストリーミングは、インタラクティブなサービスデリバリと将来のMetaverseの標準へと進化し、ますます人気が高まっている。 しかし、ポイントクラウドに関連する大量のデータは、特に高帯域消費と大容量ストレージ容量の観点から、多くの課題を呈している。 これまでに提案された様々なソリューションは、ポイントクラウド圧縮、アップサンプリング、および完了に重点を置いているが、これらの再構成関連手法は、高忠実度ポイントクラウド出力の提供において不足している。 解決策として、DiffPMAEでは、効率的なポイントクラウド再構築アーキテクチャを提案する。 自己教師付き学習の概念に触発されて,マスク付き自動エンコーディングと拡散モデル機構を組み合わせることで,ポイントクラウドデータを遠隔再構成する。 この再構成プロセスの性質により、DiffPMAEはポイントクラウド圧縮、アップサンプリング、完了を含む多くの関連する下流タスクに拡張できる。 6万以上のオブジェクトでShapeNet-55およびModelNetデータセットを活用することで、DiffPMAEの性能が、検討された自動エンコーディングおよびダウンストリームタスクの短期的な多くの最先端メソッドを上回ることを検証する。

Point cloud streaming is increasingly getting popular, evolving into the norm for interactive service delivery and the future Metaverse. However, the substantial volume of data associated with point clouds presents numerous challenges, particularly in terms of high bandwidth consumption and large storage capacity. Despite various solutions proposed thus far, with a focus on point cloud compression, upsampling, and completion, these reconstruction-related methods continue to fall short in delivering high fidelity point cloud output. As a solution, in DiffPMAE, we propose an effective point cloud reconstruction architecture. Inspired by self-supervised learning concepts, we combine Masked Auto-Encoding and Diffusion Model mechanism to remotely reconstruct point cloud data. By the nature of this reconstruction process, DiffPMAE can be extended to many related downstream tasks including point cloud compression, upsampling and completion. Leveraging ShapeNet-55 and ModelNet datasets with over 60000 objects, we validate the performance of DiffPMAE exceeding many state-of-the-art methods in-terms of auto-encoding and downstream tasks considered.
翻訳日:2023-12-07 15:51:51 公開日:2023-12-06
# ソフトMAC:予測型接触モデルと人工剛体と衣服の双方向結合によるソフトボディシミュレーション

SoftMAC: Differentiable Soft Body Simulation with Forecast-based Contact Model and Two-way Coupling with Articulated Rigid Bodies and Clothes ( http://arxiv.org/abs/2312.03297v1 )

ライセンス: Link先を確認
Min Liu, Gang Yang, Siyuan Luo, Chen Yu, Lin Shao(参考訳) 微分物理学シミュレーションは、勾配に基づく最適化を通じて、これまで難解だった課題に対処する方法を提供し、ロボット関連問題の解決の効率を大幅に改善する。 多様なロボット操作シナリオに微分可能シミュレーションを適用するためには、様々な材料を統一されたフレームワークに統合することが課題である。 我々は,柔らかい体と硬い体と衣服を結合させた微分可能なシミュレーションフレームワークであるSoftMACを提案する。 ソフトMACは連続力学に基づくマテリアルポイント法(MPM)で軟体をシミュレートする。 我々は,MPMの予測ベースの接触モデルを提供し,侵入や不自然なリバウンドといったアーティファクトを大幅に削減する。 変形性および非体積性の衣服メッシュとMPM粒子を結合するために,局所領域の符号付き距離場を再構成する浸透追跡アルゴリズムを提案する。 各モーダリティのシミュレータと接触モデルに基づいて,ソフトボディと他の2種類の材料との相互作用をシミュレートする微分可能なカップリング機構を開発した。 下流ロボット操作アプリケーションにおいて,提案する微分可能パイプラインの有効性と精度を検証するため,包括的な実験を行った。 補足資料とビデオは、プロジェクトのwebサイトhttps://sites.google.com/view/softmacで閲覧できます。

Differentiable physics simulation provides an avenue for tackling previously intractable challenges through gradient-based optimization, thereby greatly improving the efficiency of solving robotics-related problems. To apply differentiable simulation in diverse robotic manipulation scenarios, a key challenge is to integrate various materials in a unified framework. We present SoftMAC, a differentiable simulation framework coupling soft bodies with articulated rigid bodies and clothes. SoftMAC simulates soft bodies with the continuum-mechanics-based Material Point Method (MPM). We provide a forecast-based contact model for MPM, which greatly reduces artifacts like penetration and unnatural rebound. To couple MPM particles with deformable and non-volumetric clothes meshes, we also propose a penetration tracing algorithm that reconstructs the signed distance field in local area. Based on simulators for each modality and the contact model, we develop a differentiable coupling mechanism to simulate the interactions between soft bodies and the other two types of materials. Comprehensive experiments are conducted to validate the effectiveness and accuracy of the proposed differentiable pipeline in downstream robotic manipulation applications. Supplementary materials and videos are available on our project website at https://sites.google.com/view/softmac.
翻訳日:2023-12-07 15:51:28 公開日:2023-12-06
# 胸部X線用カテーテルのボトムアップインスタンスセグメンテーション

Bottom-Up Instance Segmentation of Catheters for Chest X-Rays ( http://arxiv.org/abs/2312.03368v1 )

ライセンス: Link先を確認
Francesca Boccardi, Axel Saalbach, Heinrich Schulz, Samuele Salti, Ilyas Sirazitdinov(参考訳) 胸部X線(CXR)は、中央線や管の適切な配置を検証し、関連する合併症を除外するために、救急部や集中治療室で頻繁に使用される。 x線読取プロセスの自動化は、非専門技術者にとって貴重なサポートツールとなり、専門家の非使用性による報告遅延を最小限に抑えることができる。 自動カテーテルセグメンテーションと誤配置検出のための既存のソリューションは有望な結果を示しているが、特にX線投影において複数のデバイスが重畳される複雑な場合において、個々のカテーテルの絡み合いは未解決の課題である。 さらに、従来のトップダウンのインスタンスセグメンテーション手法は、画像全体を通して拡張されるような細長いデバイスでは効果がない。 本稿では,これらの制約を克服し,デバイス交叉を効果的に扱うことができる,カテーテルインスタンス分割のための連想埋め込みに基づくディープラーニングアプローチを提案する。

Chest X-ray (CXR) is frequently employed in emergency departments and intensive care units to verify the proper placement of central lines and tubes and to rule out related complications. The automation of the X-ray reading process can be a valuable support tool for non-specialist technicians and minimize reporting delays due to non-availability of experts. While existing solutions for automated catheter segmentation and malposition detection show promising results, the disentanglement of individual catheters remains an open challenge, especially in complex cases where multiple devices appear superimposed in the X-ray projection. Moreover, conventional top-down instance segmentation methods are ineffective on such thin and long devices, that often extend through the entire image. In this paper, we propose a deep learning approach based on associative embeddings for catheter instance segmentation, able to overcome those limitations and effectively handle device intersections.
翻訳日:2023-12-07 15:34:47 公開日:2023-12-06
# lazy-k:制約付きトークン分類のためのデコード

Lazy-k: Decoding for Constrained Token Classification ( http://arxiv.org/abs/2312.03367v1 )

ライセンス: Link先を確認
Arthur Hemmer, Micka\"el Coustaty, Nicola Bartolo, J\'er\^ome Brachat, Jean-Marc Ogier(参考訳) 構造予測における確率モデルの改善の可能性を検討する。 具体的には,情報抽出のためのトークン分類の文脈において,制約付き復号手法とモデルを組み合わせる。 復号法は,全確率を最大化しながら,制約を満たすラベル割り当てを探索する。 そこで我々は,いくつかの既存手法を評価し,Lazy-$k$という新しい復号法を提案する。 以上の結果から,制約付き復号化手法はモデルの性能を著しく向上させる可能性が示唆された。 lazy-$k$アプローチは、デコーディング時間と精度の間の柔軟性を高める。 Lazy-$k$デコードを使用するコードは、https://github.com/ArthurDevNL/lazyk.comで参照できる。

We explore the possibility of improving probabilistic models in structured prediction. Specifically, we combine the models with constrained decoding approaches in the context of token classification for information extraction. The decoding methods search for constraint-satisfying label-assignments while maximizing the total probability. To do this, we evaluate several existing approaches, as well as propose a novel decoding method called Lazy-$k$. Our findings demonstrate that constrained decoding approaches can significantly improve the models' performances, especially when using smaller models. The Lazy-$k$ approach allows for more flexibility between decoding time and accuracy. The code for using Lazy-$k$ decoding can be found here: https://github.com/ArthurDevNL/lazyk.
翻訳日:2023-12-07 15:34:30 公開日:2023-12-06
# 住宅の暖房に対する需要応答:物理インフォームドニューラルネットワークに基づく効率的なモンテカルロ木探索制御

Demand response for residential building heating: Effective Monte Carlo Tree Search control based on physics-informed neural networks ( http://arxiv.org/abs/2312.03365v1 )

ライセンス: Link先を確認
Fabio Pavirani, Gargya Gokhale, Bert Claessens, Chris Develder(参考訳) 需要応答(DR)による建物内のエネルギー消費の制御は、世界的な二酸化炭素排出量の削減と気候変動の抑制のためにますます重要になっている。 本稿では,利用者の快適さを尊重しつつ,エネルギー消費を最適化するために,住宅の暖房システムの制御に特に焦点をあてる。 この分野の最近の研究は、モデルベース制御(例えば、モデル予測制御(MPC)や、実用的なDRアルゴリズムを実装するためのモデルフリー強化学習(RL)に重点を置いている。 最近、ボードゲーム(ゴー、チェス)のようなドメインで顕著な成功を収めた特定のRLメソッドは、Monte Carlo Tree Search (MCTS)である。 しかし、建物の管理については未調査のままである。 そこで,本研究では,建築需要応答のためのMCTSについて検討する。 その自然な構造は、(例えば従来のRLソリューションとは対照的に)外因性制約を暗黙的に統合する柔軟な最適化を可能にし、MCTSはDR制御問題の候補となる。 従来の純粋データ駆動型Black-Boxアプローチとは対照的に,物理インフォームドニューラルネットワーク(PiNN)モデルを基礎となる熱状態予測に組み込むことで,MCTS制御性能を向上させる方法を示す。 pinnモデルに適合したmcts実装では、得られた報酬の3%増分をルールベースのコントローラと比較して得ることができ、人工価格プロファイルに適用すると10%のコスト削減と35%の温度差の削減が可能となる。 我々はさらに、より最適なノードを通る木探索を導くニューラルネットワークを用いて、モンテカルロ木探索手法にディープラーニング層を実装した。 次に、この追加をVanillaバージョンと比較し、計算コストの改善を示しました。

Controlling energy consumption in buildings through demand response (DR) has become increasingly important to reduce global carbon emissions and limit climate change. In this paper, we specifically focus on controlling the heating system of a residential building to optimize its energy consumption while respecting user's thermal comfort. Recent works in this area have mainly focused on either model-based control, e.g., model predictive control (MPC), or model-free reinforcement learning (RL) to implement practical DR algorithms. A specific RL method that recently has achieved impressive success in domains such as board games (go, chess) is Monte Carlo Tree Search (MCTS). Yet, for building control it has remained largely unexplored. Thus, we study MCTS specifically for building demand response. Its natural structure allows a flexible optimization that implicitly integrate exogenous constraints (as opposed, for example, to conventional RL solutions), making MCTS a promising candidate for DR control problems. We demonstrate how to improve MCTS control performance by incorporating a Physics-informed Neural Network (PiNN) model for its underlying thermal state prediction, as opposed to traditional purely data-driven Black-Box approaches. Our MCTS implementation aligned with a PiNN model is able to obtain a 3% increment of the obtained reward compared to a rule-based controller; leading to a 10% cost reduction and 35% reduction on temperature difference with the desired one when applied to an artificial price profile. We further implemented a Deep Learning layer into the Monte Carlo Tree Search technique using a neural network that leads the tree search through more optimal nodes. We then compared this addition with its Vanilla version, showing the improvement in computational cost required.
翻訳日:2023-12-07 15:34:21 公開日:2023-12-06
# khabarchin:ペルシア語における重要なニュースの自動検出

KhabarChin: Automatic Detection of Important News in the Persian Language ( http://arxiv.org/abs/2312.03361v1 )

ライセンス: Link先を確認
Hamed Hematian Hemati (1), Arash Lagzian (1), Moein Salimi Sartakhti (1), Hamid Beigy (1), Ehsaneddin Asgari (2) ((1) AI Group, Computer Engineering Department, Sharif University of Technology, (2) AI Innovation, Data:Lab Munich, Volkswagen AG)(参考訳) 重要なニュースに気付くことは、情報を提供し、適切に調整された決定を効率的に行うために重要である。 自然言語処理(NLP)アプローチはこのプロセスを大幅に自動化することができる。 本稿では,未調査領域における重要なニュースの検出について紹介し,ペルシャ語の重要ニュースを検出するための新しいベンチマークデータセット(Khabarchin)を提案する。 我々は、重要なニュース記事を、社会のかなりの部分において重要なものとして定義し、その考え方や意思決定に影響を与えることができる。 ニュース記事は7つの著名なペルシャのニュース機関から入手され、7,869のサンプルの注釈とデータセットの作成に繋がる。 クラス間の不一致と不均衡の2つの課題に直面し、それらに対する解決策が提供された。 また,本課題に取り組むために,従来の機械学習から最先端トランスフォーマーモデルまで,いくつかの学習モデルを提案する。 さらに,ニュース記事における重要文検出の2つ目の課題について紹介する。 我々はこれらの文を弱教師付きで識別する。

Being aware of important news is crucial for staying informed and making well-informed decisions efficiently. Natural Language Processing (NLP) approaches can significantly automate this process. This paper introduces the detection of important news, in a previously unexplored area, and presents a new benchmarking dataset (Khabarchin) for detecting important news in the Persian language. We define important news articles as those deemed significant for a considerable portion of society, capable of influencing their mindset or decision-making. The news articles are obtained from seven different prominent Persian news agencies, resulting in the annotation of 7,869 samples and the creation of the dataset. Two challenges of high disagreement and imbalance between classes were faced, and solutions were provided for them. We also propose several learning-based models, ranging from conventional machine learning to state-of-the-art transformer models, to tackle this task. Furthermore, we introduce the second task of important sentence detection in news articles, as they often come with a significant contextual length that makes it challenging for readers to identify important information. We identify these sentences in a weakly supervised manner.
翻訳日:2023-12-07 15:33:48 公開日:2023-12-06
# 追加学習による大規模言語モデルへの特定科学知識の教育

Teaching Specific Scientific Knowledge into Large Language Models through Additional Training ( http://arxiv.org/abs/2312.03360v1 )

ライセンス: Link先を確認
Kan Hatakeyama-Sato, Yasuhiko Igarashi, Shun Katakami, Yuta Nabae, Teruaki Hayakawa(参考訳) 追加トレーニングを通じて,Llama 2 Large Language Model (LLM) に専門的な科学知識を組み込む方法について検討する。 鍵となる発見は、効果的な知識の統合は、複数の観点、特に指導形式からテキストを読む必要があるということである。 スタイル変換や翻訳を含む特殊テキストの不足に対処するために,テキスト拡張を利用する。 ハイパーパラメータ最適化は重要であり、異なるサイズモデル(7b、13b、70b)が追加の訓練を受けている。 提案手法を検証し,65,000論文のデータセットを構築した。 我々は知識を部分的に埋め込むことに成功したが、この研究は特殊情報をLSMに組み込むことの複雑さと限界を強調し、さらなる改善を示唆している。

Through additional training, we explore embedding specialized scientific knowledge into the Llama 2 Large Language Model (LLM). Key findings reveal that effective knowledge integration requires reading texts from multiple perspectives, especially in instructional formats. We utilize text augmentation to tackle the scarcity of specialized texts, including style conversions and translations. Hyperparameter optimization proves crucial, with different size models (7b, 13b, and 70b) reasonably undergoing additional training. Validating our methods, we construct a dataset of 65,000 scientific papers. Although we have succeeded in partially embedding knowledge, the study highlights the complexities and limitations of incorporating specialized information into LLMs, suggesting areas for further improvement.
翻訳日:2023-12-07 15:33:26 公開日:2023-12-06
# RING-NeRF: 残留インシデントニューラルネットワークに基づく多面的アーキテクチャ

RING-NeRF: A Versatile Architecture based on Residual Implicit Neural Grids ( http://arxiv.org/abs/2312.03357v1 )

ライセンス: Link先を確認
Doriand Petit, Steve Bourgeois, Dumitru Pavel, Vincent Gay-Bellile, Florian Chabot and Loic Barthe(参考訳) 導入以来、ニューラルフィールドは3次元再構成と新しいビュー合成に非常に人気がある。 近年の研究は、観察距離の変動に対するロバスト性の向上や、監視された視点の数の制限などにも焦点をあてている。 しかし、これらのアプローチはしばしば簡単に組み合わせられない専用ソリューションへと導かれる。 この問題に取り組むため、我々は、シーンと潜在空間間のマッピング関数の詳細レベルを制御するために、残留暗黙的ニューラルネットワークに基づくring-nerfと呼ばれる新しいシンプルで効率的なアーキテクチャを導入する。 距離対応のフォワードマッピング機構と連続的粗大化再構成プロセスに関連して,本アーキテクチャは,(1)アンチエイリアスレンダリング,(2)教師あり視点の少ない再構成品質,(3)SDFベースのNeRFのシーン特異的初期化の欠如による堅牢性,という観点から,高速トレーニングと最先端パフォーマンスの両方を実証する。 また,我々のアーキテクチャが動的にグリッドを追加して,再構成の詳細を増加させ,適応的再構築への道を開くことを実証した。

Since their introduction, Neural Fields have become very popular for 3D reconstruction and new view synthesis. Recent researches focused on accelerating the process, as well as improving the robustness to variation of the observation distance and limited number of supervised viewpoints. However, those approaches often led to dedicated solutions that cannot be easily combined. To tackle this issue, we introduce a new simple but efficient architecture named RING-NeRF, based on Residual Implicit Neural Grids, that provides a control on the level of detail of the mapping function between the scene and the latent spaces. Associated with a distance-aware forward mapping mechanism and a continuous coarse-to-fine reconstruction process, our versatile architecture demonstrates both fast training and state-of-the-art performances in terms of: (1) anti-aliased rendering, (2) reconstruction quality from few supervised viewpoints, and (3) robustness in the absence of appropriate scene-specific initialization for SDF-based NeRFs. We also demonstrate that our architecture can dynamically add grids to increase the details of the reconstruction, opening the way to adaptive reconstruction.
翻訳日:2023-12-07 15:33:13 公開日:2023-12-06
# フランス舗装のタックコート特性を分類するためにGPRデータに適用されたSVM法の変種について:2つの実験ケーススタディ

On the variants of SVM methods applied to GPR data to classify tack coat characteristics in French pavements: two experimental case studies ( http://arxiv.org/abs/2312.03351v1 )

ライセンス: Link先を確認
Gr\'egory Andreoli (MAST-EMGCU), Amine Ihamouten (MAST-LAMES), Mai Lan Nguyen (MAST-LAMES), Yannick Fargier (GERS-RRO), Cyrille Fauchard (ENDSUM), Jean-Michel Simonin (MAST-LAMES), Viktoriia Buliuk (GERS-GeoEND), David Souriou (FI-NDT), Xavier D\'erobert (GERS-GeoEND)(参考訳) 一般に使われている非破壊技術のうち、グラウンド・ペネトレーション・レーダー(GPR)は、今日のフランスにおける舗装条件の評価において最も広く採用されている1つである。 しかし、従来のレーダーシステムとその前方処理法は、タックコートのような非常に薄い層の物理的および幾何学的特性に制限を課している。 しかし, 逆手法を用いてGPRに適用した機械学習手法を用いることで, 生Bスキャンの低周波数分解能によるマスキング効果にも拘わらず, タックコート特性を数値的に同定できることが判明した。 そこで本稿では,従来の数値データにおいてすでに検証されている機械学習に基づく逆手法を,異なる舗装構造を持つ2つの実験事例に適用する。 第1のケースは、グスタフ・エッフェル大学(フランス、ナント)の既知の舗装構造とその舗装疲労カルーセルの検証に対応し、第2のケースは、vance{\e}e部門(フランス)の新しい現実の道路に焦点を当てている。 いずれの場合も,SVM/SVR法の性能は,タックコートに比例するエマルションを分類・推定するための教師あり学習法の有効性を示した。

Among the commonly used non-destructive techniques, the Ground Penetrating Radar (GPR) is one of the most widely adopted today for assessing pavement conditions in France. However, conventional radar systems and their forward processing methods have shown their limitations for the physical and geometrical characterization of very thin layers such as tack coats. However, the use of Machine Learning methods applied to GPR with an inverse approach showed that it was numerically possible to identify the tack coat characteristics despite masking effects due to low timefrequency resolution noted in the raw B-scans. Thus, we propose in this paper to apply the inverse approach based on Machine Learning, already validated in previous works on numerical data, on two experimental cases with different pavement structures. The first case corresponds to a validation on known pavement structures on the Gustave Eiffel University (Nantes, France) with its pavement fatigue carousel and the second case focuses on a new real road in Vend{\'e}e department (France). In both case studies, the performances of SVM/SVR methods showed the efficiency of supervised learning methods to classify and estimate the emulsion proportioning in the tack coats.
翻訳日:2023-12-07 15:32:49 公開日:2023-12-06
# ポイントモーメント:3次元点雲に対する混合モーメントに基づく自己教師付き表現学習

PointMoment:Mixed-Moment-based Self-Supervised Representation Learning for 3D Point Clouds ( http://arxiv.org/abs/2312.03350v1 )

ライセンス: Link先を確認
Xin Cao, Xinxin Han, Yifan Wang, Mengna Yang, Kang Li(参考訳) 大規模で豊富なデータは、ディープニューラルネットワークの効果的なトレーニングの前提条件である。 しかし、ポイントクラウドデータの不規則性により、手動のアノテーションは時間と労力を消費する。 大規模非ラベルデータの本質的構造を活用して有意義な特徴表現を学習する自己教師あり表現学習は,ポイントクラウド研究の分野で注目を集めている。 しかし、自己指導型表現学習は、しばしばモデル崩壊に悩まされ、結果として学習した表現の情報と多様性が減少し、下流タスクの性能が低下する。 そこで本研究では,従来のコントラスト損失関数ではなく,高次混合モーメント損失関数を用いた,ポイントクラウド自己教師付き表現学習のための新しいフレームワークであるpointmomentを提案する。 さらに、このフレームワークは、非対称ネットワークアーキテクチャや勾配停止など、特別な技術を必要としない。 具体的には、特徴変数の高次混合モーメントを計算し、個々のモーメントの積に分解させ、複数の変数をより独立させ、特徴冗長性を最小化する。 同じポイントクラウドの異なるデータ拡張下での機能不変性を最大化するために、対照的な学習アプローチも取り入れています。 実験の結果,3dポイントクラウド分類とセグメンテーションの下流タスクにおいて,従来の教師なし学習手法よりも優れていた。

Large and rich data is a prerequisite for effective training of deep neural networks. However, the irregularity of point cloud data makes manual annotation time-consuming and laborious. Self-supervised representation learning, which leverages the intrinsic structure of large-scale unlabelled data to learn meaningful feature representations, has attracted increasing attention in the field of point cloud research. However, self-supervised representation learning often suffers from model collapse, resulting in reduced information and diversity of the learned representation, and consequently degrading the performance of downstream tasks. To address this problem, we propose PointMoment, a novel framework for point cloud self-supervised representation learning that utilizes a high-order mixed moment loss function rather than the conventional contrastive loss function. Moreover, our framework does not require any special techniques such as asymmetric network architectures, gradient stopping, etc. Specifically, we calculate the high-order mixed moment of the feature variables and force them to decompose into products of their individual moment, thereby making multiple variables more independent and minimizing the feature redundancy. We also incorporate a contrastive learning approach to maximize the feature invariance under different data augmentations of the same point cloud. Experimental results show that our approach outperforms previous unsupervised learning methods on the downstream task of 3D point cloud classification and segmentation.
翻訳日:2023-12-07 15:32:26 公開日:2023-12-06
# GraNet:6-DoF Grasp Pose生成のためのマルチレベルグラフネットワーク

GraNet: A Multi-Level Graph Network for 6-DoF Grasp Pose Generation in Cluttered Scenes ( http://arxiv.org/abs/2312.03345v1 )

ライセンス: Link先を確認
Haowen Wang, Wanhao Niu, Chungang Zhuang(参考訳) ロボット工学では、非構造環境における6-DoFオブジェクト非依存の把握が重要な課題である。 現在の作品の多くは、把握作業に関わらず、位置の把握や空間的特徴の学習に最適化されていないアプローチを採用している。 本稿では,ポイントクラウドシーンを多レベルグラフに変換し,グラフニューラルネットワークを介して特徴を伝播するグラフベースの把持ポーズ生成フレームワークであるgranetを提案する。 シーンレベル、オブジェクトレベル、把握ポイントレベルにグラフを構築することで、GraNetは複数のスケールで機能の埋め込みを強化し、学習によって理想的な把握位置に徐々に収束する。 このパイプラインは, 散在するシーンにおけるグリップの空間分布を特徴付けることができ, 効果的グリップ率の向上につながる。 さらに,グラフの局所的関係を利用する構造対応アテンション機構により,スケーラブルなグラフネットワークの表現能力を向上する。 提案手法は,大規模GraspNet-1Billionベンチマークにおいて,特に未確認オブジェクト(+11.62 AP)の把握において,最先端の性能を実現する。 実ロボット実験では,散乱物体の把握において高い成功率を示し,非構造環境における提案手法の有効性を検証した。

6-DoF object-agnostic grasping in unstructured environments is a critical yet challenging task in robotics. Most current works use non-optimized approaches to sample grasp locations and learn spatial features without concerning the grasping task. This paper proposes GraNet, a graph-based grasp pose generation framework that translates a point cloud scene into multi-level graphs and propagates features through graph neural networks. By building graphs at the scene level, object level, and grasp point level, GraNet enhances feature embedding at multiple scales while progressively converging to the ideal grasping locations by learning. Our pipeline can thus characterize the spatial distribution of grasps in cluttered scenes, leading to a higher rate of effective grasping. Furthermore, we enhance the representation ability of scalable graph networks by a structure-aware attention mechanism to exploit local relations in graphs. Our method achieves state-of-the-art performance on the large-scale GraspNet-1Billion benchmark, especially in grasping unseen objects (+11.62 AP). The real robot experiment shows a high success rate in grasping scattered objects, verifying the effectiveness of the proposed approach in unstructured environments.
翻訳日:2023-12-07 15:32:03 公開日:2023-12-06
# 野生における食事レベルのグリセミクス制御のための解釈可能なメカニック表現

Interpretable Mechanistic Representations for Meal-level Glycemic Control in the Wild ( http://arxiv.org/abs/2312.03344v1 )

ライセンス: Link先を確認
Ke Alexander Wang, Emily B. Fox(参考訳) 糖尿病は、個人間で広く異なる血糖コントロールの複雑な景観を含んでいる。 しかし、現在の方法は、この変動を食事レベルで忠実に捉えていない。 一方、専門家による特徴は、データ駆動方式の柔軟性に欠けており、一方、学習された表現は解釈不能であり、臨床応用を損なう傾向にある。 本稿では,CGMと食事データの解釈可能な表現を学習するためのハイブリッド変分オートエンコーダを提案する。 本手法は, インスリン感受性, グルコース有効性, 基礎グルコースレベルなどの生理的量を反映した埋め込みを生み出す, 力学微分方程式の入力に潜時空間を接地する。 さらに,グルコースの出現率を推定する新しい手法を導入し,信頼性の低い食事ログに頑健なメカニックモデルを構築した。 CGMと2型糖尿病およびプレ糖尿病患者の自己申告食事のデータセットから, 疾患重症度に比例した個人間の分離を見出した。 私たちの埋め込みは、naive、expert、black-box、pure mechanistic機能よりも最大4倍優れたクラスタを生成します。 本手法は,個体間および個体間におけるグリセミック制御を比較するための,微妙で解釈可能な埋め込み空間を提供する。

Diabetes encompasses a complex landscape of glycemic control that varies widely among individuals. However, current methods do not faithfully capture this variability at the meal level. On the one hand, expert-crafted features lack the flexibility of data-driven methods; on the other hand, learned representations tend to be uninterpretable which hampers clinical adoption. In this paper, we propose a hybrid variational autoencoder to learn interpretable representations of CGM and meal data. Our method grounds the latent space to the inputs of a mechanistic differential equation, producing embeddings that reflect physiological quantities, such as insulin sensitivity, glucose effectiveness, and basal glucose levels. Moreover, we introduce a novel method to infer the glucose appearance rate, making the mechanistic model robust to unreliable meal logs. On a dataset of CGM and self-reported meals from individuals with type-2 diabetes and pre-diabetes, our unsupervised representation discovers a separation between individuals proportional to their disease severity. Our embeddings produce clusters that are up to 4x better than naive, expert, black-box, and pure mechanistic features. Our method provides a nuanced, yet interpretable, embedding space to compare glycemic control within and across individuals, directly learnable from in-the-wild data.
翻訳日:2023-12-07 15:31:42 公開日:2023-12-06
# 位相制御コヒーレント光子を用いた遅延チョイス量子消光器の超解像観察

Observations of super-resolution using phase-controlled coherent photons in a delayed-choice quantum eraser scheme ( http://arxiv.org/abs/2312.03343v1 )

ライセンス: Link先を確認
Sangbae Kim and Byoung S. Ham(参考訳) 標準量子限界を克服する超解像は、過去数十年にわたり精密ターゲット検出の量子センシング応用のために集中的に研究されてきた。 高次の絡み合った光子だけでなく、位相制御されたコヒーレント光子も超解像の実証に使われている。 しかし、高次エンタングルフォトンペア生成と超低信号対ノイズ比の極端に非効率であるため、量子センシングは厳しく制限されている。 本稿では,位相制御コヒーレント光子を用いた量子消去方式によるコヒーレント励起超解像の観測について報告する。 量子消去器の位相操作を用いて、位相分解能のハイゼンベルク限界を満たす高次強度相関のために超解像が観測されている。 この新しい精密位相検出技術は、コヒーレンス光学に基づく現在の技術と互換性のある量子センシングの実用化への扉を開く。

Super-resolution overcoming the standard quantum limit has been intensively studied for quantum sensing applications of precision target detection over the last decades. Not only higher-order entangled photons but also phase-controlled coherent photons have been used to demonstrate the super-resolution. Due to the extreme inefficiency of higher-order entangled photon-pair generation and ultralow signal-to-noise ratio, however, quantum sensing has been severely limited. Here, we report observations of coherently excited super-resolution using phase-controlled coherent photons in a delayed-choice quantum eraser scheme. Using phase manipulations of the quantum erasers, super-resolution has been observed for higher-order intensity correlations between them, satisfying the Heisenberg limit in phase resolution. This new type of precision phase-detection technique opens the door to practical applications of quantum sensing compatible with current technologies based on coherence optics.
翻訳日:2023-12-07 15:31:21 公開日:2023-12-06
# 対話における話題とジャンル

Topic and genre in dialogue ( http://arxiv.org/abs/2312.03342v1 )

ライセンス: Link先を確認
Amandine Decker (LORIA, GU, UL), Ellen Breitholtz (GU), Christine Howes (GU), Staffan Larsson (GU)(参考訳) 本稿では,対話において話題が基本的役割を担い,対話の定義にはジャンルに加えてその概念が必要であると論じる。 特に、ジャンルとトピックの概念を分離して直交的に定義する必要がある。 これにより、モジュール的で信頼性が高く、制御可能なフレキシブルドメインダイアログシステムが可能になる。

In this paper we argue that topic plays a fundamental role in conversations, and that the concept is needed in addition to that of genre to define interactions. In particular, the concepts of genre and topic need to be separated and orthogonally defined. This would enable modular, reliable and controllable flexible-domain dialogue systems.
翻訳日:2023-12-07 15:31:08 公開日:2023-12-06
# 幾何を用いたオンラインベクトル化HDマップの構築

Online Vectorized HD Map Construction using Geometry ( http://arxiv.org/abs/2312.03341v1 )

ライセンス: Link先を確認
Zhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Fusheng Jin, Xiangyu Yue(参考訳) オンラインベクトル化ハイディフィニション(HD)マップの構築は下流の予測と計画に不可欠である。 近年, この課題に対して, 並列性, 垂直性, 矩形形状など, 都市道路の事例の形状と関係はいまだ解明されていない。 我々の研究では、エンド・ツー・エンドが基本的な知覚を超えたユークリッド形状とマップインスタンスの関係を学習するgemap (\textbf{ge}$ometry $\textbf{map}$)を提案する。 具体的には,剛性変換にロバストな角度と距離の手がかりに基づいて幾何学的損失を設計する。 我々はまた、ユークリッドの形状と関係を独立に扱うために自己の注意を分離する。 提案手法は,NuScenesおよびArgoverse 2データセット上での最先端性能を実現する。 注目すべきは、大規模なArgoverse 2データセットで71.8%のmAPに達し、MapTR V2を+4.4%上回り、初めて70%のmAP閾値を超えたことである。 コードはhttps://github.com/cnzzx/GeMapで入手できる。

The construction of online vectorized High-Definition (HD) maps is critical for downstream prediction and planning. Recent efforts have built strong baselines for this task, however, shapes and relations of instances in urban road systems are still under-explored, such as parallelism, perpendicular, or rectangle-shape. In our work, we propose GeMap ($\textbf{Ge}$ometry $\textbf{Map}$), which end-to-end learns Euclidean shapes and relations of map instances beyond basic perception. Specifically, we design a geometric loss based on angle and distance clues, which is robust to rigid transformations. We also decouple self-attention to independently handle Euclidean shapes and relations. Our method achieves new state-of-the-art performance on the NuScenes and Argoverse 2 datasets. Remarkably, it reaches a 71.8% mAP on the large-scale Argoverse 2 dataset, outperforming MapTR V2 by +4.4% and surpassing the 70% mAP threshold for the first time. Code is available at https://github.com/cnzzx/GeMap
翻訳日:2023-12-07 15:31:02 公開日:2023-12-06
# PointJEM: 共同エントロピー最大化による特徴冗長性低減のための自己教師付きポイントクラウド理解

PointJEM: Self-supervised Point Cloud Understanding for Reducing Feature Redundancy via Joint Entropy Maximization ( http://arxiv.org/abs/2312.03339v1 )

ライセンス: Link先を確認
Xin Cao, Huan Xia, Xinxin Han, Yifan Wang, Kang Li, and Linzhi Su(参考訳) 多くのディープラーニングベースのポイントクラウド処理手法は監視されており、大量のラベル付きデータを必要とする。 しかし、ポイントクラウドデータの手動ラベリングは手間と時間を要する。 自己教師付き表現学習は、ラベルのないデータセットから堅牢で一般化された表現を学習することで、上記の問題に対処することができる。 それにもかかわらず、表現学習によって得られる埋め込み特徴は通常冗長な情報を含み、現在のほとんどの方法は線形相関制約による特徴冗長性を低減する。 本稿では,ポイントクラウド分野に適用した自己教師型表現学習手法であるPointJEMを提案する。 PointJEMは、結合エントロピーに基づく埋め込みスキームと損失関数からなる。 埋め込みスキームは埋め込みベクトルを異なる部分に分割し、各部分が特徴的な特徴を学ぶことができる。 特徴の冗長な情報を減らすため、pointjemは異なる部分間のジョイントエントロピーを最大化し、学習された特徴変数を対独立にする。 提案手法の有効性を検証するため,複数のデータセットを用いた実験を行った。 その結果,線形相関を超える特徴冗長性を著しく低減できることがわかった。 さらに、PointJEMは、分類やセグメンテーションといった下流タスクにおける競合性能を達成する。

Most deep learning-based point cloud processing methods are supervised and require large scale of labeled data. However, manual labeling of point cloud data is laborious and time-consuming. Self-supervised representation learning can address the aforementioned issue by learning robust and generalized representations from unlabeled datasets. Nevertheless, the embedded features obtained by representation learning usually contain redundant information, and most current methods reduce feature redundancy by linear correlation constraints. In this paper, we propose PointJEM, a self-supervised representation learning method applied to the point cloud field. PointJEM comprises an embedding scheme and a loss function based on joint entropy. The embedding scheme divides the embedding vector into different parts, each part can learn a distinctive feature. To reduce redundant information in the features, PointJEM maximizes the joint entropy between the different parts, thereby rendering the learned feature variables pairwise independent. To validate the effectiveness of our method, we conducted experiments on multiple datasets. The results demonstrate that our method can significantly reduce feature redundancy beyond linear correlation. Furthermore, PointJEM achieves competitive performance in downstream tasks such as classification and segmentation.
翻訳日:2023-12-07 15:30:34 公開日:2023-12-06
# EndWatch: リアルタイムソフトウェアにおける非終端検出の実践的方法

EndWatch: A Practical Method for Detecting Non-Termination in Real-World Software ( http://arxiv.org/abs/2312.03335v1 )

ライセンス: Link先を確認
Yao Zhang, Xiaofei Xie, Yi Li, Sen Chen, Cen Zhang, Xiaohong Li(参考訳) 非ターミネーションの検出は,dos攻撃の防止など,プログラムの正確性とセキュリティを確保する上で極めて重要である。 終端解析は長年研究されてきたが、既存の手法はスケーラビリティに限界があり、小さなプログラムでのみ有効である。 この問題に対処するために,エンドウォッチという,無限ループによる非ターミネーションをテストによって検出する実用的なターミネーションチェック手法を提案する。 具体的には、チェック状態の再確認に基づいて非終端オラクルを生成する2つの方法、すなわち、プログラムが同じプログラム位置で以前に訪れた状態に戻る場合、終了しない。 非終端オラクルは、大規模なプログラムで非終端を検出するテストツール(例えば、この論文で使用されるAFL)に組み込むことができる。 線形ループに対して、各ループ上でシンボル実行を行い、状態参照条件(SRC)を推論し、ターゲットループにSRCをインスツルメントする。 非線形ループの場合、実行中の具体的な状態再訪をチェックするターゲットループを計測する。 小型プログラムによる標準ベンチマークと大規模プログラムによる実環境プロジェクトを用いて,EndWatchの評価を行った。 評価結果によると、EndWatchは標準ベンチマークの最先端ツール(最良ベースラインが67%しか検出していない非終端プログラムの87%)よりも有効であり、現実世界のプロジェクト(既知の非終端CVEの90%と4つの未知のバグ)の非終端検出に有用である。

Detecting non-termination is crucial for ensuring program correctness and security, such as preventing denial-of-service attacks. While termination analysis has been studied for many years, existing methods have limited scalability and are only effective on small programs. To address this issue, we propose a practical termination checking technique, called EndWatch, for detecting non-termination caused by infinite loops through testing. Specifically, we introduce two methods to generate non-termination oracles based on checking state revisits, i.e., if the program returns to a previously visited state at the same program location, it does not terminate. The non-termination oracles can be incorporated into testing tools (e.g., AFL used in this paper) to detect non-termination in large programs. For linear loops, we perform symbolic execution on individual loops to infer State Revisit Conditions (SRCs) and instrument SRCs into target loops. For non-linear loops, we instrument target loops for checking concrete state revisits during execution. We evaluated EndWatch on standard benchmarks with small-sized programs and real-world projects with large-sized programs. The evaluation results show that EndWatch is more effective than the state-of-the-art tools on standard benchmarks (detecting 87% of non-terminating programs while the best baseline detects only 67%), and useful in detecting non-termination in real-world projects (detecting 90% of known non-termination CVEs and 4 unknown bugs).
翻訳日:2023-12-07 15:30:07 公開日:2023-12-06
# アモルファスネットワークと機械的挙動の間の科学的発見経路のためのAI

An AI for Scientific Discovery Route between Amorphous Networks and Mechanical Behavior ( http://arxiv.org/abs/2312.03404v1 )

ライセンス: Link先を確認
Changliang Zhu, Chenchao Fang, Zhipeng Jin, Baowen Li, Xiangying Shen, Lei Xu(参考訳) 「科学のためのAI」は科学研究の発展の今後の動向として広く認識されている。 現在、機械学習アルゴリズムは、多くの成功したケースで科学的研究において重要な役割を担っているが、aiが特定の現象の背後にある物理メカニズムを解明し、そのメカニズムを使用して機械学習アルゴリズムの効率を改善するために研究者を支援する例は比較的少ない。 本稿では, 極端なポアソン比値とアモルファスネットワークの構造との関係を事例研究として, 機械学習手法が基礎となる物理メカニズムを明らかにするのにどのように役立つかを説明する。 ポアソンの比が動的行列の低周波振動モードに依存していることを認識すると、従来の画像認識の代わりに動的行列で訓練された畳み込みニューラルネットワークを用いて、ポアソンの非晶質ネットワークの比をはるかに高い効率で予測することができる。 この例を通して,人工知能が基本的な物理メカニズムを明らかにする上で果たす役割を明らかにすることを目的として,機械学習アルゴリズムを大幅に改善する。

"AI for science" is widely recognized as a future trend in the development of scientific research. Currently, although machine learning algorithms have played a crucial role in scientific research with numerous successful cases, relatively few instances exist where AI assists researchers in uncovering the underlying physical mechanisms behind a certain phenomenon and subsequently using that mechanism to improve machine learning algorithms' efficiency. This article uses the investigation into the relationship between extreme Poisson's ratio values and the structure of amorphous networks as a case study to illustrate how machine learning methods can assist in revealing underlying physical mechanisms. Upon recognizing that the Poisson's ratio relies on the low-frequency vibrational modes of dynamical matrix, we can then employ a convolutional neural network, trained on the dynamical matrix instead of traditional image recognition, to predict the Poisson's ratio of amorphous networks with a much higher efficiency. Through this example, we aim to showcase the role that artificial intelligence can play in revealing fundamental physical mechanisms, which subsequently improves the machine learning algorithms significantly.
翻訳日:2023-12-07 15:23:01 公開日:2023-12-06
# 光子数空間で動作する多重波パケット

Multiple wave packets running in the photon number-space ( http://arxiv.org/abs/2312.03402v1 )

ライセンス: Link先を確認
Luca Nimmesgern, Moritz Cygorek, Adam Mielnik-Pyszczorski, Doris E. Reiter, Alexei Vagov, Vollrath Martin Axt(参考訳) 単一モードキャビティに結合した2レベル系が外部レーザーによって強く駆動される場合、キャビティ内の光子の連続的な蓄積の代わりに平均光子数の振動が発生する。 これらの振動は、線形連鎖モデルにおける波束を想起させる光子数分布で上下に走る有限幅のピークに対応する。 キャビティが外部レーザと共振した場合、単一波パケットが検出される。 ここでは、有限変形多重パケット構造が同時に存在し、異なる周波数と振幅で振動することを示す。 さらに, パラメータによって2モード光子数分布を特徴付ける定常状態形成における散逸効果の影響についても検討した。 極大に達成可能な光子数に対して、消散がなければ解析的な限界を与えるが、驚くべきことに、遅延過程は光子占有をより高い光子数へと押し上げることができる。

If a two-level system coupled to a single-mode cavity is strongly driven by an external laser, instead of a continuous accumulation of photons in the cavity, oscillations in the mean photon number occur. These oscillations correspond to peaks of finite width running up and down in the photon number distribution, reminiscent of wave packets in linear chain models. A single wave packet is found if the cavity is resonant to the external laser. Here, we show that for finite detuning multiple packet structures can exist simultaneously, oscillating at different frequencies and amplitudes. We further study the influence of dissipative effects resulting in the formation of a stationary state, which depending on the parameters can be characterized by a bimodal photon number distribution. While we give analytical limits for the maximally achievable photon number in the absence of any dissipation, surprisingly, dephasing processes can push the photon occupations towards higher photon numbers.
翻訳日:2023-12-07 15:22:42 公開日:2023-12-06
# 深層学習による白内障手術後の眼内レンズ脱臼の予測

Predicting Postoperative Intraocular Lens Dislocation in Cataract Surgery via Deep Learning ( http://arxiv.org/abs/2312.03401v1 )

ライセンス: Link先を確認
Negin Ghamsarian, Doris Putzgruber-Adamitsch, Stephanie Sarny, Raphael Sznitman, Klaus Schoeffmann, Yosuf El-Shabrawi(参考訳) 白内障術後の難治性合併症は眼内レンズ脱臼である。 術後の安定性は必須であり、多焦点レンズの微調整や、術後回転によるトーラスの整列が不十分であったとしても、視力の低下につながる可能性がある。 眼内レンズの術後不安定を予測できる手術中の指標を調べることは、この合併症を防ぐのに役立つ。 本稿では, 手術中のレンズ展開遅延, 回転, 不安定の計算のための最初の完全自動フレームワークを開発し, 評価する。 3種類のcnn(recurrent, region-based, pixel-based)を併用し,白内障手術における術後レンズ脱臼の予測可能性について検討した。 これは、眼内レンズの異なるブランドの行動の統計的差異に関する大規模な研究を行い、その結果を専門医の仮説やレンズに関する観察と整合させることによって達成される。 4つの眼内レンズブランドを特徴とする白内障手術ビデオの大規模データセットを利用する。 術中レンズの統計値を評価するための枠組みの信頼性を実験的に検証した。 ピアソン相関とt-testでは,レンズ展開遅延とレンズ回転との間に有意な相関があり,術中回転安定性にも有意な差が認められた。 以上の結果から, 眼科医が眼疾患に基づいてレンズの選択を行い, 術後のレンズ脱臼を予測できる可能性が示唆された。

A critical yet unpredictable complication following cataract surgery is intraocular lens dislocation. Postoperative stability is imperative, as even a tiny decentration of multifocal lenses or inadequate alignment of the torus in toric lenses due to postoperative rotation can lead to a significant drop in visual acuity. Investigating possible intraoperative indicators that can predict post-surgical instabilities of intraocular lenses can help prevent this complication. In this paper, we develop and evaluate the first fully-automatic framework for the computation of lens unfolding delay, rotation, and instability during surgery. Adopting a combination of three types of CNNs, namely recurrent, region-based, and pixel-based, the proposed framework is employed to assess the possibility of predicting post-operative lens dislocation during cataract surgery. This is achieved via performing a large-scale study on the statistical differences between the behavior of different brands of intraocular lenses and aligning the results with expert surgeons' hypotheses and observations about the lenses. We exploit a large-scale dataset of cataract surgery videos featuring four intraocular lens brands. Experimental results confirm the reliability of the proposed framework in evaluating the lens' statistics during the surgery. The Pearson correlation and t-test results reveal significant correlations between lens unfolding delay and lens rotation and significant differences between the intra-operative rotations stability of four groups of lenses. These results suggest that the proposed framework can help surgeons select the lenses based on the patient's eye conditions and predict post-surgical lens dislocation.
翻訳日:2023-12-07 15:22:26 公開日:2023-12-06
# 一般コントラストの多様性:逆強化学習によるエネルギーベースモデルと拡散モデルの合同訓練

Generalized Contrastive Divergence: Joint Training of Energy-Based Model and Diffusion Model through Inverse Reinforcement Learning ( http://arxiv.org/abs/2312.03397v1 )

ライセンス: Link先を確認
Sangwoong Yoon, Dohyun Kwon, Himchan Hwang, Yung-Kyun Noh, Frank C. Park(参考訳) 本稿では,エネルギーベースモデル(EBM)とサンプリング器を同時にトレーニングするための新しい目的関数である汎用コントラスト分枝(GCD)を提示する。 GCDは、マルコフ・チェイン・モンテカルロ(MCMC)分布を拡散モデルのような訓練可能なサンプル装置に置き換えることで、EMMをトレーニングするための有名なアルゴリズムであるContrastive Divergence(Hinton, 2002)を一般化する。 GCDでは、EMMと拡散モデルの合同トレーニングをミニマックス問題として定式化し、両者のモデルがデータ分布に収束すると平衡に達する。 GCDを用いたミニマックス学習は、エネルギーが負の報酬に対応し、拡散モデルはポリシーであり、実際のデータは専門家による実証である逆強化学習と興味深い等価性を持つ。 EBMと拡散モデルの両方にジョイントトレーニングが有用であることを示す予備的かつ有望な結果を示す。 GCDは、拡散モデルのサンプル品質を改善しつつ、MCMCなしでEMM訓練を可能にする。

We present Generalized Contrastive Divergence (GCD), a novel objective function for training an energy-based model (EBM) and a sampler simultaneously. GCD generalizes Contrastive Divergence (Hinton, 2002), a celebrated algorithm for training EBM, by replacing Markov Chain Monte Carlo (MCMC) distribution with a trainable sampler, such as a diffusion model. In GCD, the joint training of EBM and a diffusion model is formulated as a minimax problem, which reaches an equilibrium when both models converge to the data distribution. The minimax learning with GCD bears interesting equivalence to inverse reinforcement learning, where the energy corresponds to a negative reward, the diffusion model is a policy, and the real data is expert demonstrations. We present preliminary yet promising results showing that joint training is beneficial for both EBM and a diffusion model. GCD enables EBM training without MCMC while improving the sample quality of a diffusion model.
翻訳日:2023-12-07 15:22:02 公開日:2023-12-06
# 分散タスク非依存なマイルストーンプランナー

Diffused Task-Agnostic Milestone Planner ( http://arxiv.org/abs/2312.03395v1 )

ライセンス: Link先を確認
Mineui Hong, Minjae Kang, Songhwai Oh(参考訳) 近年の今後の軌跡予測にシーケンスモデリングを用いた意思決定問題に対処することが有望な成果である。 本稿では, 長期計画, ビジョンベース制御, マルチタスク意思決定など, 幅広い領域においてシーケンス予測手法を活用するための一歩を踏み出した。 そこで本研究では,拡散型生成シーケンスモデルを用いて,潜時空間における一連のマイルストーンを計画し,与えられたタスクを達成するためのエージェントを配置する手法を提案する。 提案手法は,マイルストーンの制御関連低次元潜在表現を学習し,長期計画と視覚に基づく制御を効率的に行うことができる。 さらに,本手法は拡散モデルの生成柔軟性を利用して,多タスク意思決定のための多様な軌跡を計画できる。 オフライン強化学習(RL)ベンチマークと視覚操作環境を用いて提案手法を提案する。 以上の結果から,本手法は,長期化タスクやスパースリワードタスク,マルチタスク問題を解く上で,オフラインRL法よりも優れており,また,最も困難な視覚ベースの操作ベンチマークにおいて,最先端のパフォーマンスを実現する。

Addressing decision-making problems using sequence modeling to predict future trajectories shows promising results in recent years. In this paper, we take a step further to leverage the sequence predictive method in wider areas such as long-term planning, vision-based control, and multi-task decision-making. To this end, we propose a method to utilize a diffusion-based generative sequence model to plan a series of milestones in a latent space and to have an agent to follow the milestones to accomplish a given task. The proposed method can learn control-relevant, low-dimensional latent representations of milestones, which makes it possible to efficiently perform long-term planning and vision-based control. Furthermore, our approach exploits generation flexibility of the diffusion model, which makes it possible to plan diverse trajectories for multi-task decision-making. We demonstrate the proposed method across offline reinforcement learning (RL) benchmarks and an visual manipulation environment. The results show that our approach outperforms offline RL methods in solving long-horizon, sparse-reward tasks and multi-task problems, while also achieving the state-of-the-art performance on the most challenging vision-based manipulation benchmark.
翻訳日:2023-12-07 15:21:41 公開日:2023-12-06
# ps$^3$:セマンティックシンボリックシグネチャに基づく精密パッチ存在試験

PS$^3$: Precise Patch Presence Test based on Semantic Symbolic Signature ( http://arxiv.org/abs/2312.03393v1 )

ライセンス: Link先を確認
Qi Zhan, Xing Hu, Zhiyang Li, Xin Xia, David Lo, and Shanping Li(参考訳) ソフトウェア開発中、脆弱性はユーザにとって大きな脅威となった。 パッチは脆弱性に対処する最も効果的な方法です。 大規模ソフトウェアシステムでは,影響のあるバイナリ毎にセキュリティパッチをテストすることは,システムのセキュリティを確保する上で極めて重要である。 既知の脆弱性に対してバイナリがパッチされているかどうかを特定することは難しい。 既存のアプローチは主に、同じコンパイラオプションでコンパイルされるパッチの検出に重点を置いている。 しかし、開発者は異なる状況で異なるコンパイラオプションでプログラムをコンパイルすることが一般的であり、既存のメソッドでは不正確である。 本稿では, \emph{semantic-level symbolic signature} に基づく \emph{precise patch presence} test を参照して, \textbf{\textit{PS}$^3$} という新しいアプローチを提案する。 \textbf{\textit{PS}$^3$} はシンボルエミュレーションを利用して、異なるコンパイラオプションの下で安定なシグネチャを抽出する。 次に \textbf{\textit{PS}$^3$} は、参照とターゲットの署名をセマンティックレベルで比較することで、パッチの存在を正確にテストできる。 提案手法の有効性を評価するため、4つのC/C++プロジェクトにおいて,最新のCVEの3,631対(CVE,バイナリ)からなるデータセットを構築した。 実験の結果, \textbf{\textit{ps}$^3$} はそれぞれ精度,リコール,f1スコアで 0.82, 0.97, 0.89 のスコアが得られることがわかった。 \textbf{\textit{PS}$^3$} は、F1スコアの33\%を改善して最先端のベースラインを上回り、異なるコンパイラオプションで安定している。

During software development, vulnerabilities have posed a significant threat to users. Patches are the most effective way to combat vulnerabilities. In a large-scale software system, testing the presence of a security patch in every affected binary is crucial to ensure system security. Identifying whether a binary has been patched for a known vulnerability is challenging, as there may only be small differences between patched and vulnerable versions. Existing approaches mainly focus on detecting patches that are compiled in the same compiler options. However, it is common for developers to compile programs with very different compiler options in different situations, which causes inaccuracy for existing methods. In this paper, we propose a new approach named \textbf{\textit{PS}$^3$}, referring to \emph{precise patch presence} test based on \emph{semantic-level symbolic signature}. \textbf{\textit{PS}$^3$} exploits symbolic emulation to extract signatures that are stable under different compiler options. Then \textbf{\textit{PS}$^3$} can precisely test the presence of the patch by comparing the signatures between the reference and the target at semantic level. To evaluate the effectiveness of our approach, we constructed a dataset consisting of 3,631 (CVE, binary) pairs of 62 recent CVEs in four C/C++ projects. The experimental results show that \textbf{\textit{PS}$^3$} achieves scores of 0.82, 0.97, and 0.89 in terms of precision, recall, and F1 score, respectively. \textbf{\textit{PS}$^3$} outperforms the state-of-the-art baselines by improving 33\% in terms of F1 score and remains stable in different compiler options.
翻訳日:2023-12-07 15:21:20 公開日:2023-12-06
# エゴセントリックビデオの長期的理解のためのアクションシーングラフ

Action Scene Graphs for Long-Form Understanding of Egocentric Videos ( http://arxiv.org/abs/2312.03391v1 )

ライセンス: Link先を確認
Ivan Rodin, Antonino Furnari, Kyle Min, Subarna Tripathi, Giovanni Maria Farinella(参考訳) Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。 EASGは、対話オブジェクト、それらの関係、アクションが時間内にどのように広がるかを含む、カメラ装着者が実行するアクションの時間的に進化したグラフベースの記述を提供することによって、動詞名詞アクションラベルのような、エゴセントリックなビデオの標準的な手動アノテーション表現を拡張している。 新しいアノテーション手順を通じて、ego4dデータセットを拡張し、手作業でラベル付けしたegocentric action scene graphを追加して、egocentric video理解のための豊富なアノテーションセットを提供する。 そこで我々は,EASG生成タスクを定義し,ベースラインアプローチを提供し,予備ベンチマークを確立する。 egocentric action anticipation と egocentric activity summarization の2つの下流課題の実験では, egocentric video 理解における easg の有効性が示された。 実験とアノテーションを複製するデータセットとコードを公開します。

We present Egocentric Action Scene Graphs (EASGs), a new representation for long-form understanding of egocentric videos. EASGs extend standard manually-annotated representations of egocentric videos, such as verb-noun action labels, by providing a temporally evolving graph-based description of the actions performed by the camera wearer, including interacted objects, their relationships, and how actions unfold in time. Through a novel annotation procedure, we extend the Ego4D dataset by adding manually labeled Egocentric Action Scene Graphs offering a rich set of annotations designed for long-from egocentric video understanding. We hence define the EASG generation task and provide a baseline approach, establishing preliminary benchmarks. Experiments on two downstream tasks, egocentric action anticipation and egocentric activity summarization, highlight the effectiveness of EASGs for long-form egocentric video understanding. We will release the dataset and the code to replicate experiments and annotations.
翻訳日:2023-12-07 15:20:50 公開日:2023-12-06
# バリウムイオン光学量子ビットのスケーリング用高出力狭線幅レーザー

High power narrow linewidth laser for scaling barium ion optical qubit ( http://arxiv.org/abs/2312.03388v1 )

ライセンス: Link先を確認
Morteza Ahmadi, Tarun Dutta, and Manas Mukherjee(参考訳) レーザーの線幅は、イオントラップ量子プロセッサと光クロックの高忠実性を保証する上で重要な役割を果たす。 量子コンピューティングの取り組みが拡大するにつれて、超狭線幅の高出力レーザーの需要は必需品となり、これらの要求を満たすための有望なアプローチとしてファイバ増幅器が出現する。 本研究は、トラップされたバリウムイオン量子ビットにおける光量子ビット遷移に対処するための、サリウムドープファイバ増幅器の有効性について検討する。 我々は, 極小強度雑音を発生させながら, 量子ビットに高忠実ゲートを施すことにより, TDFAsはシードレーザーの直線幅を著しく拡大しないことを示した。 我々は, 遅延自己ヘテロダイン法を併用したvoigtフィッティング法を用いて線幅を独立に測定し, バリウムイオンを捕捉した四極子分光法を用いて検討した。 この2つの手法を用いて,それぞれ160ドル~Hzと156ドル~Hzのライン幅値を示し,測定手法の信頼性を実証した。 2つの方法のわずかな違いは、tdfaの増幅自発的放出やヘテロダイン設定遅延ライン内の1/f$ノイズの影響によって引き起こされる可能性がある。 これらは、イオントラップ量子コンピューティングの文脈でレーザー線幅制御の理解を深め、cバンドを超える狭線幅の高出力波長可変レーザーの可用性を伸ばすのに役立つ。

The linewidth of a laser plays a pivotal role in ensuring high fidelity of ion trap quantum processors and optical clocks. As quantum computing endeavors scale up, the demand for higher laser power with ultra-narrow linewidth becomes imperative, and leveraging fiber amplifiers emerges as a promising approach to meet these requirements. This study explores the effectiveness of Thulium-doped fiber amplifiers as a viable solution for addressing optical qubit transitions in trapped barium ion qubits. We demonstrate that by performing high-fidelity gates on the qubit while introducing minimal intensity noise, TDFAs do not significantly broaden the linewidth of the seed lasers. We employed a Voigt fitting scheme in conjunction with a delayed self-heterodyne method to accurately measure the linewidth independently, corroborating our findings through quadrupole spectroscopy with trapped barium ions. Our results show linewidth values of $\sim$ $160$~Hz and $156$~Hz, respectively, using these two methods, underscoring the reliability of our measurement techniques. The slight variation between the two methods may be attributed to factors such as amplified spontaneous emission in the TDFA or the influence of $1/f$ noise within the heterodyne setup delay line. These contribute to advancing our understanding of laser linewidth control in the context of ion trap quantum computing as well as stretching the availability of narrow linewidth, high-power tunable lasers beyond the C-band.
翻訳日:2023-12-07 15:20:34 公開日:2023-12-06
# 量子オットーエンジンとしての3次元調和振動子

Three-dimensional harmonic oscillator as a quantum Otto engine ( http://arxiv.org/abs/2312.03387v1 )

ライセンス: Link先を確認
Aleksandr Rodin(参考訳) 三次元高調波発振器に基づく量子オットーエンジンを提案する。 この発振器のモードの1つは作動流体として機能し、他の2つは風呂の役割を担う。 作業流体と浴槽とのカップリングは、外部中心電位を用いて制御される。 エンジンの4ストロークは全て数値的にシミュレートされ、圧縮と膨張の相における非断熱的な効果と、作業流体が浴槽に接触する際のエネルギー移動を探索する。 提案されたエンジンのいくつかの実現の効率とパワーも計算され、前者は量子オットーサイクルの理論的予測とよく一致する。

A quantum Otto engine based on a three-dimensional harmonic oscillator is proposed. One of the modes of this oscillator functions as the working fluid, while the other two play the role of baths. The coupling between the working fluid and the baths is controlled using an external central potential. All four strokes of the engine are simulated numerically, exploring the nonadiabatic effects in the compression and expansion phases, as well as the energy transfer during the working fluid's contact with the baths. The efficiency and power of several realizations of the proposed engine are also computed with the former agreeing well with the theoretical predictions for the quantum Otto cycle.
翻訳日:2023-12-07 15:20:05 公開日:2023-12-06
# ニューラルネットワークのジャコビアン正規化学習における無限幅解析

An Infinite-Width Analysis on the Jacobian-Regularised Training of a Neural Network ( http://arxiv.org/abs/2312.03386v1 )

ライセンス: Link先を確認
Taeyoung Kim, Hongseok Yang(参考訳) 近年のディープニューラルネットワークの無限幅限界における理論的解析は,それらのネットワークの初期化,特徴学習,トレーニングの理解を深め,適切なハイパーパラメータの発見,ネットワーク重みの学習,推論の実行に新たな実践的手法をもたらした。 本稿では、この無限幅解析がディープニューラルネットワークのヤコビアンにまで拡張可能であることを示すことにより、この研究線を広げる。 多層パーセプトロン(mlp)とその初期化時のヤコビアンは、mlpの隠れた層の幅が無限大となり、このgpを特徴づけるため、ガウス過程(gp)に合同収束する。 また、無限幅極限において、いわゆるロバストトレーニング(すなわちヤコビアン上の正規化器によるトレーニング)の下でのMLPの進化は、ニューラル・タンジェント・カーネルの変種によって決定される線形一階常微分方程式によって記述されることを示す。 広い有限ネットワークに対する理論的主張の関連性を実験的に示し、核回帰解の性質を実験的に解析し、ヤコビアン正則化の洞察を得る。

The recent theoretical analysis of deep neural networks in their infinite-width limits has deepened our understanding of initialisation, feature learning, and training of those networks, and brought new practical techniques for finding appropriate hyperparameters, learning network weights, and performing inference. In this paper, we broaden this line of research by showing that this infinite-width analysis can be extended to the Jacobian of a deep neural network. We show that a multilayer perceptron (MLP) and its Jacobian at initialisation jointly converge to a Gaussian process (GP) as the widths of the MLP's hidden layers go to infinity and characterise this GP. We also prove that in the infinite-width limit, the evolution of the MLP under the so-called robust training (i.e., training with a regulariser on the Jacobian) is described by a linear first-order ordinary differential equation that is determined by a variant of the Neural Tangent Kernel. We experimentally show the relevance of our theoretical claims to wide finite networks, and empirically analyse the properties of kernel regression solution to obtain an insight into Jacobian regularisation.
翻訳日:2023-12-07 15:19:53 公開日:2023-12-06
# 動的ポテンシャル障壁を用いた電子波パケットの到着時間の測定

Measuring the arrival time of an electron wave packet using a dynamical potential barrier ( http://arxiv.org/abs/2312.03385v1 )

ライセンス: Link先を確認
Wanki Park, H.-S. Sim, Sungguen Ryu(参考訳) ホット電子のウェーブパケットの到着時刻分布を、バリアにパケットが到着したときにパケットをブロックするためにバリアを上昇させることにより、時間依存電位障壁を用いて探索する。 バリアが正確に分布を検知するかどうかを確認するためには,バリアの有限上昇速度に起因する誤差を調べる必要がある。 この目的のために,電子波パケットの動的障壁を透過させ,準古典的レジームと準静的レジームの2つのレジームを同定する。 各システムにおいて、バリアを用いて再構成された到着時間分布を算出し、検出誤差、波束分布と再構成分布との時間的不確かさの差を定量化する。 以上より,厳密な検出のためには,波束のエネルギー分布とバリアのトンネルエネルギー窓上でバリア高さが上昇する時間スケールが,波束の時間的不確かさよりもはるかに短くなければならないことが示唆された。 解析結果は数値計算により確認される。

A time-dependent potential barrier has been used to probe the arrival-time distribution of the wave packet of a hot electron by raising the barrier to block the packet upon arrival of the packet at the barrier. To see whether the barrier precisely detects the distribution, it is necessary to study an error caused by a finite rising speed of the barrier. For this purpose, we study transmission of an electron wave packet through the dynamical barrier, and identify two regimes, the semiclassical regime and the quasistatic regime. In each regime, we calculate the arrival-time distribution reconstructed by using the barrier and quantify the error in the detection, the difference of the temporal uncertainty between the wave-packet distribution and the reconstructed distribution. Our finding suggests that for precise detection, the time scale, in which the barrier height rises over the energy distribution of the wave packet and the tunneling energy window of the barrier, has to be much shorter than the temporal uncertainty of the wave packet. The analytical results are confirmed with numerical calculations.
翻訳日:2023-12-07 15:19:28 公開日:2023-12-06
# 言語識別のためのテキスト・テキストモデル

A Text-to-Text Model for Multilingual Offensive Language Identification ( http://arxiv.org/abs/2312.03379v1 )

ライセンス: Link先を確認
Tharindu Ranasinghe and Marcos Zampieri(参考訳) ソーシャルメディア上での攻撃的コンテンツの普及は、企業や政府機関の間で懸念が高まっている。 近年、bert、xlnet、xlm-rなどのトランスフォーマーモデルは、さまざまな攻撃的コンテンツ(ヘイトスピーチ、サイバーいじめ、サイバー攻撃など)を検出することで最先端のパフォーマンスを達成している。 しかしながら、これらのモデルのほとんどは、下流タスクにおけるラベルの数とタイプを制限するエンコーダのみのアーキテクチャのため、能力に制限がある。 そこで本研究では,2つの大規模攻撃的言語識別データセット,solid と cctk 上で訓練されたtext-to-text transformers (t5) を用いた攻撃的言語識別のためのエンコーダ-デコーダアーキテクチャを用いた最初の事前学習モデルを提案する。 T5再学習段階におけるSOLIDにおける2つのデータセットの組み合わせと半教師付きインスタンスの最適しきい値の選択の有効性を検討する。 我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。 同様のアプローチで、mT5を用いて攻撃言語識別のための最初の多言語事前訓練モデルを訓練し、その性能を6つの異なる言語(ドイツ語、ヒンディー語、韓国語、マラティー語、シンハラ語、スペイン語)で評価する。 その結果、この多言語モデルは上記のすべてのデータセットに対して新たな最先端性を実現し、多言語シナリオにおけるその有用性を示している。 提案したT5ベースのモデルは,コミュニティから無償で提供されます。

The ubiquity of offensive content on social media is a growing cause for concern among companies and government organizations. Recently, transformer-based models such as BERT, XLNET, and XLM-R have achieved state-of-the-art performance in detecting various forms of offensive content (e.g. hate speech, cyberbullying, and cyberaggression). However, the majority of these models are limited in their capabilities due to their encoder-only architecture, which restricts the number and types of labels in downstream tasks. Addressing these limitations, this study presents the first pre-trained model with encoder-decoder architecture for offensive language identification with text-to-text transformers (T5) trained on two large offensive language identification datasets; SOLID and CCTK. We investigate the effectiveness of combining two datasets and selecting an optimal threshold in semi-supervised instances in SOLID in the T5 retraining step. Our pre-trained T5 model outperforms other transformer-based models fine-tuned for offensive language detection, such as fBERT and HateBERT, in multiple English benchmarks. Following a similar approach, we also train the first multilingual pre-trained model for offensive language identification using mT5 and evaluate its performance on a set of six different languages (German, Hindi, Korean, Marathi, Sinhala, and Spanish). The results demonstrate that this multilingual model achieves a new state-of-the-art on all the above datasets, showing its usefulness in multilingual scenarios. Our proposed T5-based models will be made freely available to the community.
翻訳日:2023-12-07 15:19:10 公開日:2023-12-06
# PolSAR画像分類のためのリーマン複素行列畳み込みネットワーク

Riemannian Complex Matrix Convolution Network for PolSAR Image Classification ( http://arxiv.org/abs/2312.03378v1 )

ライセンス: Link先を確認
Junfei Shi and Wei Wang and Haiyan Jin and Mengmeng Nie and Shanshan Ji(参考訳) 近年,PolSAR(Polarimetric Synthetic Aperture Radar)画像分類において,ディープラーニング手法が優れた性能を実現している。 既存のディープラーニング手法は、共分散行列を特徴ベクトルまたは複素値ベクトルに入力として変換することで、PollSARデータを学習する。 しかし、これらの手法はすべて複素行列の構造を直接学習することはできず、チャネル相関を破壊する。 複素行列の幾何学的構造を学習するために、複素行列をネットワーク入力として直接利用し、複素行列の特徴を学習するためにリーマン演算を定義する、初めてリーマン空間における PolSAR 画像分類のためのリーマン複素行列畳み込みネットワークを提案する。 提案されたリーマン複素行列畳み込みネットワークは、リーマン多様体で与えられる PolSAR 複素行列を考察し、リーマン空間における新しいリーマン畳み込み、ReLu と LogEig の一連の作用を定義し、従来のネットワークのユークリッド的制約を突破する。 その後、文脈的リーマン的特徴を高めるためにcnnモジュールが付加される。 さらに,クラス固有の特徴を学習し,計算時間を効率的に短縮する高速カーネル学習法を開発した。 実験は、異なるバンドとセンサーを持つ実際のPolSARデータの3セットで実施される。 実験の結果,提案手法は最先端手法よりも優れた性能が得られることが示された。

Recently, deep learning methods have achieved superior performance for Polarimetric Synthetic Aperture Radar(PolSAR) image classification. Existing deep learning methods learn PolSAR data by converting the covariance matrix into a feature vector or complex-valued vector as the input. However, all these methods cannot learn the structure of complex matrix directly and destroy the channel correlation. To learn geometric structure of complex matrix, we propose a Riemannian complex matrix convolution network for PolSAR image classification in Riemannian space for the first time, which directly utilizes the complex matrix as the network input and defines the Riemannian operations to learn complex matrix's features. The proposed Riemannian complex matrix convolution network considers PolSAR complex matrix endowed in Riemannian manifold, and defines a series of new Riemannian convolution, ReLu and LogEig operations in Riemannian space, which breaks through the Euclidean constraint of conventional networks. Then, a CNN module is appended to enhance contextual Riemannian features. Besides, a fast kernel learning method is developed for the proposed method to learn class-specific features and reduce the computation time effectively. Experiments are conducted on three sets of real PolSAR data with different bands and sensors. Experiments results demonstrates the proposed method can obtain superior performance than the state-of-the-art methods.
翻訳日:2023-12-07 15:18:38 公開日:2023-12-06
# EnvGuard : Web of Thingsにおける環境中心特性の保証

EnvGuard : Guaranteeing Environment-Centric Properties in Web of Things ( http://arxiv.org/abs/2312.03373v1 )

ライセンス: Link先を確認
Bingkun Sun, Liwei Shen, Jialin Ren, Zhen Dong, Xin Peng(参考訳) IoTの急速な進歩により、多様なデバイスがユビキタスに環境にデプロイされる。 これに基づいて、web of things(wot)は断片化されたデバイスサービスを更に統合し、標準化されたweb技術を使った統一インターフェースを提供し、wotアプリケーションの開発とデプロイを促進し、環境を感知し、規制する。 しかし、異なるwotアプリケーションは、wot環境内のデバイスを独立に制御し、デバイス間および環境との干渉を引き起こす。 これにより、ユーザの期待から逸脱するデバイス動作が発生し、ユーザの望む環境特性に違反する。 アプリケーション、ユーザアクティビティ、環境変化の複雑な相互作用は、潜在的な違反の特定と解決を複雑化する。 本稿では,WoT環境におけるプロパティ記述,違反識別,解決のための環境中心のアプローチであるEnvGuardを紹介する。 envguardは、デバイスサービスと環境コンテキストの関係をモデル化する概念スキーマを提案し、デバイスと空間の情報に基づいて概念スキーマを特定の環境表現に自動的に拡張する。 さらに、EnvGuardはテンプレートベースのアプローチを採用し、ユーザーは環境に対する抽象的なデバイス効果に基づいて空間的・時間的特性を記述し、プロパティ記述を形式的な表現に変換することができる。 EnvGuardは、空間的および時間的違反をそれぞれ識別するためのハイブリッドモデル検査手法を採用し、違反を解決するためのユーザの意図に沿った解決戦略を提案する。 実験室のWoT環境から実世界のデータを収集し,手動で10種類の違反をラベル付けすることで,ユーザスタディと提案したデータセットを用いてEnvGuardを評価する。 その結果,EnvGuardのユーザビリティ,実現可能性,効率性が確認された。

With the accelerated advancement of IoT, diverse devices are ubiquitously deployed in environments. Building on this, Web of Things (WoT) further integrates fragmented device services and provides unified interfaces using standardized Web technologies, promoting the development and deployment of WoT applications to sense and regulate the environment. However, disparate WoT applications independently control devices in the WoT environment, causing interference among devices and with the environment. This results in device behaviors that deviate from user expectations, causing violations of the user's desired environment properties. The intricate interplay of applications, user activities, and environment changes makes identifying and resolving potential violations a complex task. In this paper, we introduce EnvGuard, an environment-centric approach for property description, violation identification, and resolution in WoT environment. EnvGuard proposes a conceptual schema to model the relationship between device services and environment context, and automatically extends the conceptual schema into a specific environment representation based on device and space information. Furthermore, EnvGuard employs a template-based approach, enabling users to describe spatial and temporal properties based on the abstract device effects on the environment, and translating properties description into formal expressions. EnvGuard adopts a hybrid model checking method to respectively identify the spatial and temporal violations, and a resolution strategy that align with user intention is proposed to resolve violations. We evaluate EnvGuard through user studies and our proposed dataset, which is constructed by collecting real-world data from a laboratory WoT environment and manually labeling ten types of violations. The results confirm the usability, feasibility and efficiency of EnvGuard.
翻訳日:2023-12-07 15:18:15 公開日:2023-12-06
# neural radiance fields (nerf) 法による画像から生成される個々の木の点雲の評価

Evaluating the point cloud of individual trees generated from images based on Neural Radiance fields (NeRF) method ( http://arxiv.org/abs/2312.03372v1 )

ライセンス: Link先を確認
Hongyu Huang, Guoji Tian, Chongcheng Chen(参考訳) 樹木の3次元復元は,森林の精密管理と研究において常に重要な課題である。 樹木自体の複雑な分枝形態構造と樹木茎,枝,葉の閉塞により,従来のフォトグラム法による2次元画像から完全な3次元木モデルを再現することは困難である。 本研究では,様々なカメラで異なる方法で収集したツリー画像に基づいて,ニューラルレージアンスフィールド法(NeRF)法を個々のツリー再構成に適用し,光グラム再構成法とレーザ走査法から抽出した点雲との比較を行った。 その結果,NeRF法は個々のツリー3次元再構成において良好に機能し,再現率が向上し,キャノピー領域の再現性が向上し,入力としての画像量が少なくなった。 光グラフ再構成法と比較して、NeRFは再構成効率において大きな利点があり、複雑なシーンに適応できるが、生成された点雲はノイズが多く、解像度も低い傾向にある。 光グラム点雲から抽出した木構造パラメータ(胸の高さと直径)の精度は、NeRF点雲から得られたものよりも高い。 本研究は,nerf法が樹冠再建に有用であることを示すとともに,複雑な森林シーンの3次元再構築と可視化のための新たなアイデアと研究指針を提供する。

Three-dimensional (3D) reconstruction of trees has always been a key task in precision forestry management and research. Due to the complex branch morphological structure of trees themselves and the occlusions from tree stems, branches and foliage, it is difficult to recreate a complete three-dimensional tree model from a two-dimensional image by conventional photogrammetric methods. In this study, based on tree images collected by various cameras in different ways, the Neural Radiance Fields (NeRF) method was used for individual tree reconstruction and the exported point cloud models are compared with point cloud derived from photogrammetric reconstruction and laser scanning methods. The results show that the NeRF method performs well in individual tree 3D reconstruction, as it has higher successful reconstruction rate, better reconstruction in the canopy area, it requires less amount of images as input. Compared with photogrammetric reconstruction method, NeRF has significant advantages in reconstruction efficiency and is adaptable to complex scenes, but the generated point cloud tends to be noisy and low resolution. The accuracy of tree structural parameters (tree height and diameter at breast height) extracted from the photogrammetric point cloud is still higher than those of derived from the NeRF point cloud. The results of this study illustrate the great potential of NeRF method for individual tree reconstruction, and it provides new ideas and research directions for 3D reconstruction and visualization of complex forest scenes.
翻訳日:2023-12-07 15:17:46 公開日:2023-12-06
# 多条件生成逆数ネットワークを用いた時間変化生成画像におけるデータ駆動作物成長シミュレーション

Data-driven Crop Growth Simulation on Time-varying Generated Images using Multi-conditional Generative Adversarial Networks ( http://arxiv.org/abs/2312.03443v1 )

ライセンス: Link先を確認
Lukas Drees, Dereje T. Demie, Madhuri R. Paul, Johannes Leonhardt, Sabine J. Seidel, Thomas F. D\"oring, Ribana Roscher(参考訳) 画像ベースの作物成長モデリングは、空間的作物開発を時間とともに明らかにすることで、精密な農業に実質的に寄与することができるため、葉面積やバイオマスといった植物特性の早期かつ位置特異的な推定が可能になる。 現実的で鋭い作物画像生成の前提条件は、初期成長段階の画像、関連する成長時間、およびフィールド処理に関する情報など、モデルにおける複数の成長影響条件の統合である。 本稿では,画像予測モデルの第一段階と成長推定モデルの第二段階からなる2段階のフレームワークについて述べる。 画像予測モデルは条件付きワッサーシュタイン生成対向ネットワーク(CWGAN)である。 このモデルの生成元では、条件付きバッチ正規化(CBN)を使用して、入力画像と異なる条件を統合する。 これにより、異なる種類の複数の影響要因に依存する時間変化人工画像を生成することができる。 これらの画像は植物特異的形質を導出し、非人工的(実)参照画像と比較することにより、植物表現型分類の枠組みの第2部で使用される。 さまざまな作物データセットに対して、このフレームワークは、短期から長期の予測から品質をわずかに損なうことなく、リアルでシャープな画像予測を可能にする。 このような要因が作物の外観にどのように関係しているかについての貴重な洞察を、訓練されたフレームワークで行う様々な成長影響条件のシミュレーションが与えている。 さらに, プロセスベースシミュレーションバイオマスを条件として添加すると, 予測画像から抽出した表現特性の精度が向上することを示した。 これにより、画像とプロセスベースの作物生育モデルの間のインターフェースとして機能するフレームワークの可能性を示す。

Image-based crop growth modeling can substantially contribute to precision agriculture by revealing spatial crop development over time, which allows an early and location-specific estimation of relevant future plant traits, such as leaf area or biomass. A prerequisite for realistic and sharp crop image generation is the integration of multiple growth-influencing conditions in a model, such as an image of an initial growth stage, the associated growth time, and further information about the field treatment. We present a two-stage framework consisting first of an image prediction model and second of a growth estimation model, which both are independently trained. The image prediction model is a conditional Wasserstein generative adversarial network (CWGAN). In the generator of this model, conditional batch normalization (CBN) is used to integrate different conditions along with the input image. This allows the model to generate time-varying artificial images dependent on multiple influencing factors of different kinds. These images are used by the second part of the framework for plant phenotyping by deriving plant-specific traits and comparing them with those of non-artificial (real) reference images. For various crop datasets, the framework allows realistic, sharp image predictions with a slight loss of quality from short-term to long-term predictions. Simulations of varying growth-influencing conditions performed with the trained framework provide valuable insights into how such factors relate to crop appearances, which is particularly useful in complex, less explored crop mixture systems. Further results show that adding process-based simulated biomass as a condition increases the accuracy of the derived phenotypic traits from the predicted images. This demonstrates the potential of our framework to serve as an interface between an image- and process-based crop growth model.
翻訳日:2023-12-07 15:11:04 公開日:2023-12-06
# 家庭における高品質顔の形状と外観の捉え方

High-Quality Facial Geometry and Appearance Capture at Home ( http://arxiv.org/abs/2312.03442v1 )

ライセンス: Link先を確認
Yuxuan Han, Junfeng Lyu, Feng Xu(参考訳) 顔の幾何学と外観のキャプチャーは、スタジオで本物の人間を3Dスキャンすることに成功した。 最近の研究は、結果を高品質に保ちながら、この技術を民主化することを提案する。 しかし、日常的な利用には不便である。 さらに、顔の皮膚のみを捉えるという、より簡単な問題にも焦点を当てている。 本稿では,肌,口内,髪,眼で顔全体をモデル化する,使い易いシステムと機能を備えた,高品質な顔撮影法を提案する。 我々は、懐中電灯が支配的な光源(カーテン付きの部屋や夜など)である薄暗い部屋で捕獲された1つのスマートフォンの懐中電灯シーケンスから顔形状と外観を再構成する。 顔を完全にモデル化するために,目と他の顔領域を効果的にモデル化する新しいハイブリッド表現法と,画像から学習する新しい手法を提案する。 複合照明モデルを用いて実照度をコンパクトに表現し,変形可能な面アルベドモデルを拡散面と鏡面の異方性に先立って反射率として利用する。 実験により, 高品質な3d可読スキャンが可能となった。

Facial geometry and appearance capture have demonstrated tremendous success in 3D scanning real humans in studios. Recent works propose to democratize this technique while keeping the results high quality. However, they are still inconvenient for daily usage. In addition, they focus on an easier problem of only capturing facial skin. This paper proposes a novel method for high-quality face capture, featuring an easy-to-use system and the capability to model the complete face with skin, mouth interior, hair, and eyes. We reconstruct facial geometry and appearance from a single co-located smartphone flashlight sequence captured in a dim room where the flashlight is the dominant light source (e.g. rooms with curtains or at night). To model the complete face, we propose a novel hybrid representation to effectively model both eyes and other facial regions, along with novel techniques to learn it from images. We apply a combined lighting model to compactly represent real illuminations and exploit a morphable face albedo model as a reflectance prior to disentangle diffuse and specular. Experiments show that our method can capture high-quality 3D relightable scans.
翻訳日:2023-12-07 15:10:38 公開日:2023-12-06
# UFineBench:超微細粒度テキスト検索を目指して

UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity ( http://arxiv.org/abs/2312.03441v1 )

ライセンス: Link先を確認
Jialong Zuo, Hanyu Zhou, Ying Nie, Feng Zhang, Tianyu Guo, Nong Sang, Yunhe Wang, Changxin Gao(参考訳) 既存のテキストベースの人物検索データセットは、しばしば比較的粗い粒度のテキストアノテーションを持つ。 これは、実際のシナリオでクエリテキストのきめ細かいセマンティクスを理解することをモデルを妨げます。 この問題に対処するため,超微細粒度テキストに基づく人物検索のための新しいベンチマーク「textbf{UFineBench}」を提案する。 まず、UFine6926という新しい \textbf{dataset} を構築する。 多数の人物画像を収集し、各画像に2つの詳細なテキスト記述を手作業でアノテートし、平均80.8単語を割り当てる。 平均単語数は、前のデータセットの3倍から4倍である。 標準のドメイン内評価に加えて、実際のシナリオをより代表する特別な \textbf{evaluation paradigm} も提案する。 クロスドメインの新たな評価セット、クロステキストの粒度とクロステキストのスタイル、ufine3c、検索能力を正確に測定するための新しい評価指標である平均類似度分布(msd)が含まれている。 さらに,超きめ細かなテキストを用いたテキストベースの人物検索のために設計した,より効率的な‘textbf{algorithm’であるCFAMを提案する。 共有クロスモーダル粒度デコーダとハード負一致機構を採用して微細粒度マイニングを実現する。 標準のドメイン内評価により、CFAMは様々なデータセット、特に超微細なUFine6926上での競合性能を確立します。 さらに, ufine6926のトレーニングをufine3cで評価することで, 他の粗粒度データセットと比較して実シナリオへの一般化が著しく向上することを示す。 データセットとコードは、 \url{https://github.com/Zplusdragon/UFineBench}で公開される。

Existing text-based person retrieval datasets often have relatively coarse-grained text annotations. This hinders the model to comprehend the fine-grained semantics of query texts in real scenarios. To address this problem, we contribute a new benchmark named \textbf{UFineBench} for text-based person retrieval with ultra-fine granularity. Firstly, we construct a new \textbf{dataset} named UFine6926. We collect a large number of person images and manually annotate each image with two detailed textual descriptions, averaging 80.8 words each. The average word count is three to four times that of the previous datasets. In addition of standard in-domain evaluation, we also propose a special \textbf{evaluation paradigm} more representative of real scenarios. It contains a new evaluation set with cross domains, cross textual granularity and cross textual styles, named UFine3C, and a new evaluation metric for accurately measuring retrieval ability, named mean Similarity Distribution (mSD). Moreover, we propose CFAM, a more efficient \textbf{algorithm} especially designed for text-based person retrieval with ultra fine-grained texts. It achieves fine granularity mining by adopting a shared cross-modal granularity decoder and hard negative match mechanism. With standard in-domain evaluation, CFAM establishes competitive performance across various datasets, especially on our ultra fine-grained UFine6926. Furthermore, by evaluating on UFine3C, we demonstrate that training on our UFine6926 significantly improves generalization to real scenarios compared with other coarse-grained datasets. The dataset and code will be made publicly available at \url{https://github.com/Zplusdragon/UFineBench}.
翻訳日:2023-12-07 15:10:19 公開日:2023-12-06
# ヘテロシedastic probabilistic pcaにおける一般化パワー法の推定性能について

On the Estimation Performance of Generalized Power Method for Heteroscedastic Probabilistic PCA ( http://arxiv.org/abs/2312.03438v1 )

ライセンス: Link先を確認
Jinxin Wang, Chonghe Jiang, Huikang Liu, Anthony Man-Cho So(参考訳) ヘテロシedastic probabilistic principal component analysis (pca) 手法は、データの不均一性を考慮した古典的なpcaの変種であり、データサイエンスや信号処理コミュニティにおいてますます注目を集めている。 本稿では、利用可能な不均一データサンプルから基礎となる低次元線型部分空間(単に \emph{ground truth} と呼ばれる)を推定するために、直交制約(HQPOC)上での不均一な二次形式の和を最大化する非凸最大様推定問題を考える。 本稿では,この問題に対処し,その「推定性能」を保証する一階法である一般化電力法(GPM)を提案する。 具体的には, 適切な初期化が与えられると, gpm が生成するイテレートと基底真理との間の距離は, ある種の「個体群分解」の残余部分に関連するしきい値に少なくとも幾何的に減少することを示す。 推定性能の確立にあたり,直交制約付き二次最適化 (qpoc) という,他の密接に関連する最適化問題の新たな局所誤差境界特性を証明した。 ガウス雑音とサブガウス雑音の両方において, gpmの優れた性能を示す数値実験を行った。

The heteroscedastic probabilistic principal component analysis (PCA) technique, a variant of the classic PCA that considers data heterogeneity, is receiving more and more attention in the data science and signal processing communities. In this paper, to estimate the underlying low-dimensional linear subspace (simply called \emph{ground truth}) from available heterogeneous data samples, we consider the associated non-convex maximum-likelihood estimation problem, which involves maximizing a sum of heterogeneous quadratic forms over an orthogonality constraint (HQPOC). We propose a first-order method -- generalized power method (GPM) -- to tackle the problem and establish its \emph{estimation performance} guarantee. Specifically, we show that, given a suitable initialization, the distances between the iterates generated by GPM and the ground truth decrease at least geometrically to some threshold associated with the residual part of certain "population-residual decomposition". In establishing the estimation performance result, we prove a novel local error bound property of another closely related optimization problem, namely quadratic optimization with orthogonality constraint (QPOC), which is new and can be of independent interest. Numerical experiments are conducted to demonstrate the superior performance of GPM in both Gaussian noise and sub-Gaussian noise settings.
翻訳日:2023-12-07 15:09:50 公開日:2023-12-06
# データ中心型デジタル農業の展望

Data-Centric Digital Agriculture: A Perspective ( http://arxiv.org/abs/2312.03437v1 )

ライセンス: Link先を確認
Ribana Roscher, Lukas Roth, Cyrill Stachniss, Achim Walter(参考訳) 食料、食料、繊維、燃料の世界的な需要の増加に対応して、デジタル農業はこれらの需要を満たすために急速に発展し、環境への影響を減らしている。 この進化には、データサイエンス、機械学習、センサー技術、ロボット工学、そしてより持続可能な農業枠組みを確立するための新しい管理戦略が含まれる。 これまでのところ、デジタル農業における機械学習の研究は主にモデル中心のアプローチに焦点が当てられ、モデルの設計と評価に焦点が当てられている。 これらの取り組みはモデルの精度と効率を最適化することを目的としており、しばしば静的ベンチマークとしてデータを扱う。 農業データと方法論の進歩にもかかわらず、飽和点に達し、多くの確立された機械学習手法が同等の精度を達成し、同様の制限に直面している。 デジタル農業の可能性を完全に実現するためには、この分野におけるデータの役割を包括的に理解し、データ中心の機械学習を採用することが不可欠である。 これには、価値あるデータを取得してキュレートする戦略を開発し、データ固有の価値を利用する効果的な学習と評価戦略を実装することが含まれる。 このアプローチは、収量予測、雑草検出、早期病原性同定などの農業タスクを効果的かつ持続的に解決する、正確で汎用的で適応可能な機械学習手法を作成することができる。

In response to the increasing global demand for food, feed, fiber, and fuel, digital agriculture is rapidly evolving to meet these demands while reducing environmental impact. This evolution involves incorporating data science, machine learning, sensor technologies, robotics, and new management strategies to establish a more sustainable agricultural framework. So far, machine learning research in digital agriculture has predominantly focused on model-centric approaches, focusing on model design and evaluation. These efforts aim to optimize model accuracy and efficiency, often treating data as a static benchmark. Despite the availability of agricultural data and methodological advancements, a saturation point has been reached, with many established machine learning methods achieving comparable levels of accuracy and facing similar limitations. To fully realize the potential of digital agriculture, it is crucial to have a comprehensive understanding of the role of data in the field and to adopt data-centric machine learning. This involves developing strategies to acquire and curate valuable data and implementing effective learning and evaluation strategies that utilize the intrinsic value of data. This approach has the potential to create accurate, generalizable, and adaptable machine learning methods that effectively and sustainably address agricultural tasks such as yield prediction, weed detection, and early disease identification
翻訳日:2023-12-07 15:09:25 公開日:2023-12-06
# ガウス流:動的3次元ガウス粒子による4次元再構成

Gaussian-Flow: 4D Reconstruction with Dynamic 3D Gaussian Particle ( http://arxiv.org/abs/2312.03431v1 )

ライセンス: Link先を確認
Youtian Lin, Zuozhuo Dai, Siyu Zhu, Yao Yao(参考訳) 高速な動的シーン再構成とマルチビューおよびモノクロビデオからのリアルタイムレンダリングのための新しいポイントベースアプローチであるGaussian-Flowを紹介する。 学習速度やレンダリング速度の遅いNeRFベースのアプローチとは対照的に,我々はポイントベース3Dガウススプラッティング(3DGS)の最近の進歩を活用している。 具体的には、時間領域における多項式フィッティングと周波数領域におけるフーリエ級数により各属性の時間依存残差がキャプチャされるガウス点の属性変形を明示的にモデル化するために、新しい二重領域変形モデル(dddm)を提案する。 提案したDDDMは、長いビデオ映像にまたがる複雑なシーンの変形をモデル化することができ、フレーム毎に別々の3DGSをトレーニングしたり、3Dダイナミクスをモデル化するための追加の暗黙のニューラルネットワークを導入する必要がなくなる。 さらに、離散ガウス点に対する明示的な変形モデリングは、静的な3d再構成のために設計されたオリジナルの3dgsに匹敵する4dシーンの超高速トレーニングとレンダリングを保証する。 提案手法は,フレーム毎の3dgsモデリングと比較して,5\times$のトレーニング速度を実現している。 さらに定量的な結果から,提案したガウス流は,新しいビューレンダリング品質において従来の先行手法よりも大幅に優れていた。 プロジェクトページ: https://nju-3dv.github.io/projects/gaussian-flow

We introduce Gaussian-Flow, a novel point-based approach for fast dynamic scene reconstruction and real-time rendering from both multi-view and monocular videos. In contrast to the prevalent NeRF-based approaches hampered by slow training and rendering speeds, our approach harnesses recent advancements in point-based 3D Gaussian Splatting (3DGS). Specifically, a novel Dual-Domain Deformation Model (DDDM) is proposed to explicitly model attribute deformations of each Gaussian point, where the time-dependent residual of each attribute is captured by a polynomial fitting in the time domain, and a Fourier series fitting in the frequency domain. The proposed DDDM is capable of modeling complex scene deformations across long video footage, eliminating the need for training separate 3DGS for each frame or introducing an additional implicit neural field to model 3D dynamics. Moreover, the explicit deformation modeling for discretized Gaussian points ensures ultra-fast training and rendering of a 4D scene, which is comparable to the original 3DGS designed for static 3D reconstruction. Our proposed approach showcases a substantial efficiency improvement, achieving a $5\times$ faster training speed compared to the per-frame 3DGS modeling. In addition, quantitative results demonstrate that the proposed Gaussian-Flow significantly outperforms previous leading methods in novel view rendering quality. Project page: https://nju-3dv.github.io/projects/Gaussian-Flow
翻訳日:2023-12-07 15:09:05 公開日:2023-12-06
# ShareCMP: 偏光対応RGB-Pセマンティックセグメンテーション

ShareCMP: Polarization-Aware RGB-P Semantic Segmentation ( http://arxiv.org/abs/2312.03430v1 )

ライセンス: Link先を確認
Zhuoyan Liu, Bo Wang, Lizhi Wang, Chenyu Mao, Ye Li(参考訳) マルチモーダルなセマンティックセグメンテーションは急速に発展しているが、RGB-Polarizationのモダリティはいまだ解明されていない。 そこで本研究では,12種類の水中セマンティッククラスを用いたUPLight RGB-Pセグメンテーションベンチマークを構築し,AUV(Autonomous Underwater Vehicles)のデータ支援を行い,特殊認識タスクを行う。 本研究では,dual-branchアーキテクチャを持つrgb-pセマンティクスセグメンテーションフレームワークであるsharecmpを設計し,従来のdual-branchモデルと比較してパラメータ数を約26~33%削減した。 エンコーダの偏光特性が豊かな偏光モーダル画像を生成するように設計された偏光生成注意(pga)モジュールを包含する。 さらに,偏波モーダル情報のためのエンコーダの学習と理解を改善し,pgaモジュールを最適化するために,クラス偏波認識損失(cpaloss)を導入する。 合計3つのRGB-Pベンチマークに関する広範な実験により、ShareCMPは、UPLight(92.45%)、ZJU(92.7%)、MCubeS(50.99%)のデータセットのパラメータが少ないmIoUの最先端のパフォーマンスを達成した。 コードはhttps://github.com/LEFTeyex/ShareCMPで入手できる。

Multimodal semantic segmentation is developing rapidly, but the modality of RGB-Polarization remains underexplored. To delve into this problem, we construct a UPLight RGB-P segmentation benchmark with 12 typical underwater semantic classes which provides data support for Autonomous Underwater Vehicles (AUVs) to perform special perception tasks. In this work, we design the ShareCMP, an RGB-P semantic segmentation framework with a shared dual-branch architecture, which reduces the number of parameters by about 26-33% compared to previous dual-branch models. It encompasses a Polarization Generate Attention (PGA) module designed to generate polarization modal images with richer polarization properties for the encoder. In addition, we introduce the Class Polarization-Aware Loss (CPALoss) to improve the learning and understanding of the encoder for polarization modal information and to optimize the PGA module. With extensive experiments on a total of three RGB-P benchmarks, our ShareCMP achieves state-of-the-art performance in mIoU with fewer parameters on the UPLight (92.45%), ZJU (92.7%), and MCubeS (50.99%) datasets. The code is available at https://github.com/LEFTeyex/ShareCMP.
翻訳日:2023-12-07 15:08:38 公開日:2023-12-06
# アーティストフレンドリーでアニマタブルなニューラルヘッド

Artist-Friendly Relightable and Animatable Neural Heads ( http://arxiv.org/abs/2312.03420v1 )

ライセンス: Link先を確認
Yingyan Xu, Prashanth Chandran, Sebastian Weiss, Markus Gross, Gaspard Zoss, Derek Bradley(参考訳) フォトリアリスティックなデジタルアバターを作るための一般的なアプローチは、ボリュームニューラルフィールドを使用することである。 もともとのneural radiance field(nerf)は、複数のビューイメージのセットでトレーニングされた場合、静的ヘッドの印象的な新しいビュー合成を可能にし、フォローアップ手法により、これらのニューラルネットワーク表現を動的アバターに拡張できることを示した。 近年では、ニューラル表現における内蔵照明の通常の欠点を超え、静的なニューラルアバターがどんな環境でもリライトできることが示されている。 本研究では,動作と照明の両問題に同時に取り組み,再生可能でアニマタブルなニューラルヘッドの新しい手法を提案する。 本手法は、ボリュームプリミティブの混合に基づく証明された動的アバターアプローチを基盤とし、近距離の照明や視点でも、任意の環境において見当たらない表現を行う動的ニューラルネットワークアバターをリライトできる、新しいアーキテクチャを含んでいる。

An increasingly common approach for creating photo-realistic digital avatars is through the use of volumetric neural fields. The original neural radiance field (NeRF) allowed for impressive novel view synthesis of static heads when trained on a set of multi-view images, and follow up methods showed that these neural representations can be extended to dynamic avatars. Recently, new variants also surpassed the usual drawback of baked-in illumination in neural representations, showing that static neural avatars can be relit in any environment. In this work we simultaneously tackle both the motion and illumination problem, proposing a new method for relightable and animatable neural heads. Our method builds on a proven dynamic avatar approach based on a mixture of volumetric primitives, combined with a recently-proposed lightweight hardware setup for relightable neural fields, and includes a novel architecture that allows relighting dynamic neural avatars performing unseen expressions in any environment, even with nearfield illumination and viewpoints.
翻訳日:2023-12-07 15:08:10 公開日:2023-12-06
# Run LoRA Run: より高速で軽量なLoRA実装

Run LoRA Run: Faster and Lighter LoRA Implementations ( http://arxiv.org/abs/2312.03415v1 )

ライセンス: Link先を確認
Daria Cherniuk, Aleksandr Mikhalev, Ivan Oseledets(参考訳) LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。 この技術は微調整(LoRA、QLoRA)とフルトレイン(ReLoRA)の両方に使用される。 本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。 提案手法は,対応する線形層,層入力次元,ロラランクの次元に基づくLORA演算の計算を,FLOPと時間推定に基づく最適前方・後方計算グラフを選択することにより最適化し,精度を犠牲にすることなく高速なトレーニングを実現する。 実験結果は、llamaファミリーのモデルで最大17%のスピードアップを示した。

LoRA is a technique that reduces the number of trainable parameters in a neural network by introducing low-rank adapters to linear layers. This technique is used both for fine-tuning (LoRA, QLoRA) and full train (ReLoRA). This paper presents the RunLoRA framework for efficient implementations of LoRA that significantly improves the speed of neural network training and fine-tuning using low-rank adapters. The proposed implementation optimizes the computation of LoRA operations based on dimensions of corresponding linear layer, layer input dimensions and lora rank by choosing best forward and backward computation graph based on FLOPs and time estimations, resulting in faster training without sacrificing accuracy. The experimental results show up to 17% speedup on Llama family of models.
翻訳日:2023-12-07 15:07:49 公開日:2023-12-06
# オンライン言語モデルインタラクションのための圧縮コンテキストメモリ

Compressed Context Memory For Online Language Model Interaction ( http://arxiv.org/abs/2312.03414v1 )

ライセンス: Link先を確認
Jang-Hyun Kim, Junyoung Yeom, Sangdoo Yun, Hyun Oh Song(参考訳) 本稿では,ChatGPTのようなオンラインシナリオにおける変換言語モデルのコンテキスト圧縮手法を提案する。 コンテキストが長くなるにつれて、アテンションプロセスにはより多くのメモリと計算リソースが必要になるため、言語モデルのスループットが低下する。 そこで本研究では,成長するコンテキストを連続的にコンパクトなメモリ空間に圧縮するコンテクストメモリシステムを提案する。 圧縮プロセスは、単に軽量条件付きloraを推論中の言語モデルの前方パスに統合することを含む。 圧縮されたコンテキストメモリに基づいて、言語モデルは少ないメモリと注意操作で推論を行うことができる。 会話、パーソナライゼーション、マルチタスク学習の評価を通じて、我々のアプローチが5\times$の小さなコンテキストメモリ空間でフルコンテキストモデルのパフォーマンスレベルを達成することを実証する。 コードはhttps://github.com/snu-mllab/context-memoryで入手できる。

This paper presents a novel context compression method for Transformer language models in online scenarios such as ChatGPT, where the context continually expands. As the context lengthens, the attention process requires more memory and computational resources, which in turn reduces the throughput of the language model. To this end, we propose a compressed context memory system that continually compresses the growing context into a compact memory space. The compression process simply involves integrating a lightweight conditional LoRA into the language model's forward pass during inference. Based on the compressed context memory, the language model can perform inference with reduced memory and attention operations. Through evaluations on conversation, personalization, and multi-task learning, we demonstrate that our approach achieves the performance level of a full context model with $5\times$ smaller context memory space. Codes are available at https://github.com/snu-mllab/context-memory.
翻訳日:2023-12-07 15:07:36 公開日:2023-12-06
# ラグランジュ双対フレームワークを用いたナップサック問題の近似解

Approximating Solutions to the Knapsack Problem using the Lagrangian Dual Framework ( http://arxiv.org/abs/2312.03413v1 )

ライセンス: Link先を確認
Mitchell Keegan and Mahdi Abolghasemi(参考訳) クナプサック問題は組合せ最適化における古典的な問題である。 これらの問題を解決するには計算コストがかかる。 近年,このような問題の解を近似する深層学習手法への関心が高まっている。 中心的な問題は、予測されたソリューションにおける制約満足度をどのように強制するか、あるいは促進するかである。 制約付き最適化問題に対する解決策を予測するための有望なアプローチは、ラグランジアン緩和法に基づくラグランジアンデュアルフレームワークである。 本稿では,制約満足度を改善しつつ,ラグランジアンデュアルフレームワークを用いてクナプサック問題の解を近似するニューラルネットワークモデルを開発する。 この文脈における出力解釈とモデル選択の問題について検討する。 実験結果は,制約を明示的にモデル化しないベースラインニューラルネットワークと比較して,最適性をわずかに低下させる強い制約満足度を示す。

The Knapsack Problem is a classic problem in combinatorial optimisation. Solving these problems may be computationally expensive. Recent years have seen a growing interest in the use of deep learning methods to approximate the solutions to such problems. A core problem is how to enforce or encourage constraint satisfaction in predicted solutions. A promising approach for predicting solutions to constrained optimisation problems is the Lagrangian Dual Framework which builds on the method of Lagrangian Relaxation. In this paper we develop neural network models to approximate Knapsack Problem solutions using the Lagrangian Dual Framework while improving constraint satisfaction. We explore the problems of output interpretation and model selection within this context. Experimental results show strong constraint satisfaction with a minor reduction of optimality as compared to a baseline neural network which does not explicitly model the constraints.
翻訳日:2023-12-07 15:07:22 公開日:2023-12-06
# DeepPyramid+: ピラミッド視融合と変形可能なピラミッド受容を用いた医用画像分割

DeepPyramid+: Medical Image Segmentation using Pyramid View Fusion and Deformable Pyramid Reception ( http://arxiv.org/abs/2312.03409v1 )

ライセンス: Link先を確認
Negin Ghamsarian, Sebastian Wolf, Martin Zinkernagel, Klaus Schoeffmann, Raphael Sznitman(参考訳) セマンティックセグメンテーションは、医療画像やビデオ分析に関連する多くのアプリケーションにおいて重要な役割を果たす。 しかし,異質性,変形性,透明性,鈍的境界,様々な歪みなど,関連するクラスの多様な特徴から,医用画像や手術用ビデオセグメンテーションのためのニューラルネットワークアーキテクチャの設計は困難である。 医用画像や手術用ビデオセグメンテーションで遭遇するさまざまな課題に対処するネットワークアーキテクチャであるdeeppyramid+を提案する。 提案されたDeepPyramid+には、2つの主要なモジュール、すなわち"Pyramid View Fusion"(PVF)と"Deformable Pyramid Reception"(DPR)が組み込まれている。 PVFは、人間の視覚システムと整合して、ニューラルネットワーク内の推論プロセスを複製し、各画素位置における相対情報の表現を強化する。 相補的に、DPRは拡張変形可能な畳み込みを用いた形状適応的特徴抽出技術を導入し、不均一なクラスや変形可能な形状を扱う際の精度と堅牢性を向上する。 子宮内膜症ビデオ、MRI画像、CTスキャン、白内障および腹腔鏡ビデオなど、さまざまなデータセットで実施された大規模な実験は、形状やスケールの変化、反射、ぼやけた劣化といった様々な課題にDeepPyramid+の有効性を実証している。 deeppyramid+は、ドメイン内セグメンテーションでdice係数を3.65%、クロスドメインセグメンテーションでdice係数を17%向上させ、セグメンテーション性能が大幅に向上している。 DeepPyramid+は、さまざまなバックボーンネットワークを考慮して、さまざまなモダリティの最先端ネットワークを一貫して上回り、その汎用性を示している。

Semantic Segmentation plays a pivotal role in many applications related to medical image and video analysis. However, designing a neural network architecture for medical image and surgical video segmentation is challenging due to the diverse features of relevant classes, including heterogeneity, deformability, transparency, blunt boundaries, and various distortions. We propose a network architecture, DeepPyramid+, which addresses diverse challenges encountered in medical image and surgical video segmentation. The proposed DeepPyramid+ incorporates two major modules, namely "Pyramid View Fusion" (PVF) and "Deformable Pyramid Reception," (DPR), to address the outlined challenges. PVF replicates a deduction process within the neural network, aligning with the human visual system, thereby enhancing the representation of relative information at each pixel position. Complementarily, DPR introduces shape- and scale-adaptive feature extraction techniques using dilated deformable convolutions, enhancing accuracy and robustness in handling heterogeneous classes and deformable shapes. Extensive experiments conducted on diverse datasets, including endometriosis videos, MRI images, OCT scans, and cataract and laparoscopy videos, demonstrate the effectiveness of DeepPyramid+ in handling various challenges such as shape and scale variation, reflection, and blur degradation. DeepPyramid+ demonstrates significant improvements in segmentation performance, achieving up to a 3.65% increase in Dice coefficient for intra-domain segmentation and up to a 17% increase in Dice coefficient for cross-domain segmentation. DeepPyramid+ consistently outperforms state-of-the-art networks across diverse modalities considering different backbone networks, showcasing its versatility.
翻訳日:2023-12-07 15:07:12 公開日:2023-12-06
# 自動運転におけるオープンソースデータエコシステムの現状と将来

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future ( http://arxiv.org/abs/2312.03408v1 )

ライセンス: Link先を確認
Hongyang Li and Yang Li and Huijie Wang and Jia Zeng and Pinlong Cai and Huilin Xu and Dahua Lin and Junchi Yan and Feng Xu and Lu Xiong and Jingdong Wang and Futang Zhu and Kai Yan and Chunjing Xu and Tiancai Wang and Beipeng Mu and Shaoqing Ren and Zhihui Peng and Yu Qiao(参考訳) 自動運転技術の継続的な成熟と応用により、オープンソースの自動運転データセットを体系的に検討することで、業界エコシステムの堅牢な進化を育むことができる。 現在の自動運転データセットは、広く2世代に分類できる。 第1世代の自動運転データセットは、センサーモダリティが比較的シンプルで、データスケールが小さく、知覚レベルのタスクに限定されている。 2012年に導入されたkittiは、この最初の波の顕著な代表である。 対照的に、第2世代のデータセットは、センサーのモダリティの増大、データスケールと多様性の増大、および予測と制御を包含する知覚からのタスクの拡張を示す。 第2世代の代表的な例として、2019年頃に導入されたnuScenesとWaymoがある。 この包括的なレビューは、学界と産業界の両方の同僚と共同で行われ、国内外の70以上のオープンソースの自動運転データセットを体系的に評価している。 高品質なデータセットの作成の基礎となる原則、データエンジンシステムの重要な役割、スケーラブルなデータ生成を容易にするための生成基盤モデルの利用など、さまざまな側面に対する洞察を提供する。 さらに、将来の第3世代自動運転データセットが持つべき特性とデータスケールについて、徹底的な分析と談話を行う。 また、解決を保障する科学的、技術的課題も検討している。 これらの取り組みは、自律的な革新を推進し、重要な領域における技術強化を促進する上で重要なものである。 詳細はhttps://github.com/opendrivelab/driveagiを参照。

With the continuous maturation and application of autonomous driving technology, a systematic examination of open-source autonomous driving datasets becomes instrumental in fostering the robust evolution of the industry ecosystem. Current autonomous driving datasets can broadly be categorized into two generations. The first-generation autonomous driving datasets are characterized by relatively simpler sensor modalities, smaller data scale, and is limited to perception-level tasks. KITTI, introduced in 2012, serves as a prominent representative of this initial wave. In contrast, the second-generation datasets exhibit heightened complexity in sensor modalities, greater data scale and diversity, and an expansion of tasks from perception to encompass prediction and control. Leading examples of the second generation include nuScenes and Waymo, introduced around 2019. This comprehensive review, conducted in collaboration with esteemed colleagues from both academia and industry, systematically assesses over seventy open-source autonomous driving datasets from domestic and international sources. It offers insights into various aspects, such as the principles underlying the creation of high-quality datasets, the pivotal role of data engine systems, and the utilization of generative foundation models to facilitate scalable data generation. Furthermore, this review undertakes an exhaustive analysis and discourse regarding the characteristics and data scales that future third-generation autonomous driving datasets should possess. It also delves into the scientific and technical challenges that warrant resolution. These endeavors are pivotal in advancing autonomous innovation and fostering technological enhancement in critical domains. For further details, please refer to https://github.com/OpenDriveLab/DriveAGI.
翻訳日:2023-12-07 15:06:36 公開日:2023-12-06
# SVQ:時空間予測のためのスパースベクトル量子化

SVQ: Sparse Vector Quantization for Spatiotemporal Forecasting ( http://arxiv.org/abs/2312.03406v1 )

ライセンス: Link先を確認
Chao Chen, Tian Zhou, Yanjun Zhao, Hui Liu, Liang Sun, Rong Jin(参考訳) 天気予報や交通予報のような時空間予測タスクは、社会に大きな利益をもたらす。 これらのタスクは、コンピュータビジョンモデルを用いて画像予測問題として効果的にアプローチできる。 ベクトル量子化(vector quantization, vq)は、潜在空間を改善し、一般化と転送学習能力の向上につながる離散表現の一般的な方法である。 時空間予測にVQを使用する際の大きな課題の1つは、十分な詳細を維持することと、元のパターンからノイズを取り除くことで、より一般化する方法である。 この課題は、スパースベクトル量子化(略して {\bf SVQ})を開発し、スパース回帰を利用して2つの目的間のトレードオフを改善することで解決する。 この研究の主な革新は、2層MLPとランダムに固定または学習可能な行列によるスパース回帰を近似し、計算効率を劇的に改善することである。 気象予報,トラヒックフロー予報,ビデオ予報など多分野の多種多様なデータセットを対象として実験を行い,本手法がベースモデルの性能を一貫して向上させ,全ベンチマークで最新の結果が得られることを示す。

Spatiotemporal forecasting tasks, such as weather forecasting and traffic prediction, offer significant societal benefits. These tasks can be effectively approached as image forecasting problems using computer vision models. Vector quantization (VQ) is a well-known method for discrete representation that improves the latent space, leading to enhanced generalization and transfer learning capabilities. One of the main challenges in using VQ for spatiotemporal forecasting is how to balance between keeping enough details and removing noises from the original patterns for better generalization. We address this challenge by developing sparse vector quantization, or {\bf SVQ} for short, that leverages sparse regression to make better trade-off between the two objectives. The main innovation of this work is to approximate sparse regression by a two-layer MLP and a randomly fixed or learnable matrix, dramatically improving its computational efficiency. Through experiments conducted on diverse datasets in multiple fields including weather forecasting, traffic flow prediction, and video forecasting, we unequivocally demonstrate that our proposed method consistently enhances the performance of base models and achieves state-of-the-art results across all benchmarks.
翻訳日:2023-12-07 15:06:13 公開日:2023-12-06
# AMR解析は解決には程遠い - GrAPES, 粒状AMR解析評価スイート

AMR Parsing is Far from Solved: GrAPES, the Granular AMR Parsing Evaluation Suite ( http://arxiv.org/abs/2312.03480v1 )

ライセンス: Link先を確認
Jonas Groschwitz, Shay B. Cohen, Lucia Donatelli, Meaghan Fowlie(参考訳) 本稿では,抽象的意味表現(amr)解析のためのチャレンジセットであるgrapes(granite amr parsing evaluation suite)について述べる。 amrパーサは標準のamr評価メトリックスマッチで高いスコアを獲得し、報告されたアノテーション間合意に近いかそれ以上である。 しかし、これはAMR解析が解決されるという意味ではない。実際、以前の研究で人間による評価は、現在のパーサが文の意味を実質的に歪ませるノードラベルやグラフ構造にエラーを頻繁に起こすことを示している。 本稿では,AMRパーサを実用的,技術的,言語学的に興味のある事象の多岐にわたる評価スイートを提供する。 私たちの36のカテゴリは、目に見えないラベルから構造的一般化、コア推論までさまざまです。 GrAPESは、現在のAMRパーサの能力と欠点を深く明らかにしている。

We present the Granular AMR Parsing Evaluation Suite (GrAPES), a challenge set for Abstract Meaning Representation (AMR) parsing with accompanying evaluation metrics. AMR parsers now obtain high scores on the standard AMR evaluation metric Smatch, close to or even above reported inter-annotator agreement. But that does not mean that AMR parsing is solved; in fact, human evaluation in previous work indicates that current parsers still quite frequently make errors on node labels or graph structure that substantially distort sentence meaning. Here, we provide an evaluation suite that tests AMR parsers on a range of phenomena of practical, technical, and linguistic interest. Our 36 categories range from seen and unseen labels, to structural generalization, to coreference. GrAPES reveals in depth the abilities and shortcomings of current AMR parsers.
翻訳日:2023-12-07 14:58:50 公開日:2023-12-06
# JAMMIN-GPT:Ableton LiveにおけるLLMを用いたテキストベースの改善

JAMMIN-GPT: Text-based Improvisation using LLMs in Ableton Live ( http://arxiv.org/abs/2312.03479v1 )

ライセンス: Link先を確認
Sven Hollowell, Tashi Namgyal, Paul Marshall(参考訳) 我々は,Ableton LiveのユーザがMIDIクリップを音楽的記述で命名することで作成できるシステムを提案する。 abletonのクリップビューで好きな音楽コンテンツを直接入力し、それを統合システムで挿入することで、ユーザは構成することができます。 これにより、ユーザーは音楽のアイデアを素早く生成しながら、創造的なプロセスの流れに留まることができる。 このシステムはChatGPTに、ABC表記、コード記号、ドラムタブラなどのテキストベースの音楽フォーマットの1つを使って返信するよう促すことで機能する。 これは、既存の音楽ワークフローに生成aiツールを統合するための重要なステップであり、記述言語を通じて創造的なビジョンを表現したいコンテンツ制作者にとって価値がある。 コードはhttps://github.com/supersational/JAMMIN-GPTで入手できる。

We introduce a system that allows users of Ableton Live to create MIDI-clips by naming them with musical descriptions. Users can compose by typing the desired musical content directly in Ableton's clip view, which is then inserted by our integrated system. This allows users to stay in the flow of their creative process while quickly generating musical ideas. The system works by prompting ChatGPT to reply using one of several text-based musical formats, such as ABC notation, chord symbols, or drum tablature. This is an important step in integrating generative AI tools into pre-existing musical workflows, and could be valuable for content makers who prefer to express their creative vision through descriptive language. Code is available at https://github.com/supersational/JAMMIN-GPT.
翻訳日:2023-12-07 14:58:33 公開日:2023-12-06
# 検出から行動認識へ:ロボット人間の知覚のためのエッジベースパイプライン

From Detection to Action Recognition: An Edge-Based Pipeline for Robot Human Perception ( http://arxiv.org/abs/2312.03477v1 )

ライセンス: Link先を確認
Petros Toupas, Georgios Tsamis, Dimitrios Giakoumis, Konstantinos Votis, Dimitrios Tzovaras(参考訳) モバイルサービスロボットは、医療、日常生活の監視(ADL)、環境支援生活(AAL)の促進など、さまざまなアプリケーションにおいて、ますます効果的であることが証明されている。 これらのロボットは人間の行動や意図を理解するためにヒューマンアクション認識(HAR)に大きく依存している。 しかし、harがサービスロボット上で効果的に機能するためには、人間の存在(人間検出)と個人識別(人間追跡)の事前知識が必要である。 本研究では,人間の検出と追跡から始まり,行動認識に至るプロセス全体を包含するエンドツーエンドパイプラインを提案する。 パイプラインは、エッジ上で処理のすべてのステージを確実に実行しながら、ほぼリアルタイムで動作するように設計されており、集中型計算の必要性が軽減されている。 移動ロボットに最適なモデルを特定するため,検出性能と効率の両面から,最先端のソリューションを比較した一連の実験を行った。 提案するパイプラインの有効性を評価するため,日常生活活動を含むデータセットを提案する。 本研究の結果を提示し,その結果を解析することにより,rgbカメラのデータに主に依存する現実のシナリオにおいて,移動ロボットが人間の行動を理解し,対応できるようにするための手法の有効性を実証する。

Mobile service robots are proving to be increasingly effective in a range of applications, such as healthcare, monitoring Activities of Daily Living (ADL), and facilitating Ambient Assisted Living (AAL). These robots heavily rely on Human Action Recognition (HAR) to interpret human actions and intentions. However, for HAR to function effectively on service robots, it requires prior knowledge of human presence (human detection) and identification of individuals to monitor (human tracking). In this work, we propose an end-to-end pipeline that encompasses the entire process, starting from human detection and tracking, leading to action recognition. The pipeline is designed to operate in near real-time while ensuring all stages of processing are performed on the edge, reducing the need for centralised computation. To identify the most suitable models for our mobile robot, we conducted a series of experiments comparing state-of-the-art solutions based on both their detection performance and efficiency. To evaluate the effectiveness of our proposed pipeline, we proposed a dataset comprising daily household activities. By presenting our findings and analysing the results, we demonstrate the efficacy of our approach in enabling mobile robots to understand and respond to human behaviour in real-world scenarios relying mainly on the data from their RGB cameras.
翻訳日:2023-12-07 14:58:19 公開日:2023-12-06
# 分子ジョイントオートエンコーディング:2次元および3次元拡散による軌道予測

Molecule Joint Auto-Encoding: Trajectory Pretraining with 2D and 3D Diffusion ( http://arxiv.org/abs/2312.03475v1 )

ライセンス: Link先を確認
Weitao Du, Jiujiu Chen, Xuecang Zhang, Zhiming Ma, Shengchao Liu(参考訳) 近年、薬物発見のための人工知能は、機械学習と化学領域の両方で関心が高まっている。 薬物発見の基本的な構成要素は分子幾何学であり、分子の幾何学的表現は、薬物発見に機械学習技術をよりよく活用するための主要なボトルネックである。 本研究では,分子ジョイント・オートエンコーディング(moleculejae)の事前学習法を提案する。 シグネジャイは2d結合(トポロジー)と3d配座(ジオメトリ)の情報を学習することができ、拡散過程モデルを用いてこれらの2つのモダリティの強化された軌道を模倣し、シグネジャイは自己教師ありの方法で内在的な化学構造を学習する。 したがって、MoreculeJAEにおける事前訓練された幾何学的表現は下流の幾何学的タスクの恩恵を受けることが期待される。 molecularjaeは20タスク中15タスクで最先端のパフォーマンスを達成し、12の競合ベースラインと比較することでその効果を実証する。

Recently, artificial intelligence for drug discovery has raised increasing interest in both machine learning and chemistry domains. The fundamental building block for drug discovery is molecule geometry and thus, the molecule's geometrical representation is the main bottleneck to better utilize machine learning techniques for drug discovery. In this work, we propose a pretraining method for molecule joint auto-encoding (MoleculeJAE). MoleculeJAE can learn both the 2D bond (topology) and 3D conformation (geometry) information, and a diffusion process model is applied to mimic the augmented trajectories of such two modalities, based on which, MoleculeJAE will learn the inherent chemical structure in a self-supervised manner. Thus, the pretrained geometrical representation in MoleculeJAE is expected to benefit downstream geometry-related tasks. Empirically, MoleculeJAE proves its effectiveness by reaching state-of-the-art performance on 15 out of 20 tasks by comparing it with 12 competitive baselines.
翻訳日:2023-12-07 14:57:56 公開日:2023-12-06
# 保留実験による自動運転実験室の探索戦略

Search Strategies for Self-driving Laboratories with Pending Experiments ( http://arxiv.org/abs/2312.03466v1 )

ライセンス: Link先を確認
Hao Wen, Jakob Zeitler, Connor Rupnow(参考訳) 自動運転研究所(SDL)は、材料合成と特性化のタスクを行う複数のステーションで構成される。 ステーションダウンタイムを最小化し、実験スループットを最大化するために、複数の実験を異なる段階で一度に実施する非同期並列実験を現実的に行う。 しかし、実験の非同期並列化は遅延フィードバック(つまり"ペンディング実験")を導入し、ベイズ光子性能を低下させることが知られている。 本稿では,マルチステージSDLのシミュレータを構築し,遅延フィードバックと非同期並列処理の最適化戦略を比較する。 実SDLのデータを用いて、177のベイズ最適化シミュレータを構築し、機能性コーティングの導電率を最大化する実験を行った。 提案手法は, 予測改善, 雑音予測改善, 4モード探索, ランダムサンプリングなどの検索戦略と比較した。 遅延量と問題次元の観点からそれらの性能を評価する。 シミュレーションの結果,非同期並列動作と遅延フィードバックのトレードオフを示す。

Self-driving laboratories (SDLs) consist of multiple stations that perform material synthesis and characterisation tasks. To minimize station downtime and maximize experimental throughput, it is practical to run experiments in asynchronous parallel, in which multiple experiments are being performed at once in different stages. Asynchronous parallelization of experiments, however, introduces delayed feedback (i.e. "pending experiments"), which is known to reduce Bayesian optimiser performance. Here, we build a simulator for a multi-stage SDL and compare optimisation strategies for dealing with delayed feedback and asynchronous parallelized operation. Using data from a real SDL, we build a ground truth Bayesian optimisation simulator from 177 previously run experiments for maximizing the conductivity of functional coatings. We then compare search strategies such as expected improvement, noisy expected improvement, 4-mode exploration and random sampling. We evaluate their performance in terms of amount of delay and problem dimensionality. Our simulation results showcase the trade-off between the asynchronous parallel operation and delayed feedback.
翻訳日:2023-12-07 14:57:40 公開日:2023-12-06
# 汎用スプーフィング攻撃下での量子保護単画素イメージング

Quantum-secured single-pixel imaging under general spoofing attack ( http://arxiv.org/abs/2312.03465v1 )

ライセンス: Link先を確認
Jaesung Heo, Taek Jeong, Nam Hun Park, Yonggi Jo(参考訳) 本稿では,偽の信号による画像システムを騙そうとする,スプーフィング攻撃に耐えるように設計された量子セキュアな単一画素イメージング(qs-spi)手法を提案する。 真の信号が存在する場合でも、動作を制限するしきい値エラー率を課す従来の量子セキュリティプロトコルとは異なり、我々のアプローチは偽造攻撃を識別するだけでなく、真の画像の再構築を容易にする。 本手法は, 画像形成に使用されるモードに依存しない光子対の特定のモード相関を解析し, セキュリティチェックを行う。 この分析により,攻撃による対象画像領域とスプーフ攻撃の種類の両方を識別し,真の画像の復元を可能にする。 光ペアの偏光相関を利用した原理実証デモを行い、実信号の2000倍のスプーフィング信号条件下でも良好な画像再構成を示す。 我々は、量子ターゲット検出や範囲推定などの量子セキュアな信号処理に適用することを期待している。

In this paper, we introduce a quantum-secured single-pixel imaging (QS-SPI) technique designed to withstand spoofing attacks, wherein adversaries attempt to deceive imaging systems with fake signals. Unlike previous quantum-secured protocols that impose a threshold error rate limiting their operation, even with the existence of true signals, our approach not only identifies spoofing attacks but also facilitates the reconstruction of a true image. Our method involves the analysis of a specific mode correlation of a photon-pair, which is independent of the mode used for image construction, to check security. Through this analysis, we can identify both the targeted image region by the attack and the type of spoofing attack, enabling reconstruction of the true image. A proof-of-principle demonstration employing polarization-correlation of a photon-pair is provided, showcasing successful image reconstruction even under the condition of spoofing signals 2000 times stronger than the true signals. We expect our approach to be applied to quantum-secured signal processing such as quantum target detection or ranging.
翻訳日:2023-12-07 14:57:26 公開日:2023-12-06
# Subnetwork-to-go:動的トレーニングとカスタマイズ可能な推論を備えた弾性ニューラルネットワーク

Subnetwork-to-go: Elastic Neural Network with Dynamic Training and Customizable Inference ( http://arxiv.org/abs/2312.03464v1 )

ライセンス: Link先を確認
Kai Li, Yi Luo(参考訳) 異なるデバイスやプラットフォームにニューラルネットワークをデプロイすることは、特にモデルサイズが大きい場合やモデル複雑性が高い場合、一般的に難しい。 モデルプルーニングや蒸留の方法は存在するが、一般的にはモデルサイズや複雑さの制約を満たすより小さなモデルを得るために、モデルトレーニングや微調整手順の完全なラウンドを実行する必要がある。 動的ニューラルネットワークの最近の研究に動機づけられて,大規模ネットワークを訓練し,モデルサイズや推論時の複雑性制約を与えられたサブネットワークから柔軟に抽出する方法を提案する。 そこで,本研究では,学習段階において,大規模モデルが動的深さと幅で訓練できる新しい手法を導入するとともに,大規模モデルが訓練された後,推定段階で任意の深さと幅のサブネットワークを選択でき,スクラッチから独立してサブネットワークを訓練するよりも,比較的優れた性能が得られることを示す。 音源分離モデルによる実験結果から,提案手法は単一大規模モデルで異なるサブネットワークサイズと複雑度をまたいだ分離性能を効果的に向上し,大規模モデルのトレーニングに要する時間は,すべてのサブネットワークをトレーニングするよりもはるかに短いことがわかった。

Deploying neural networks to different devices or platforms is in general challenging, especially when the model size is large or model complexity is high. Although there exist ways for model pruning or distillation, it is typically required to perform a full round of model training or finetuning procedure in order to obtain a smaller model that satisfies the model size or complexity constraints. Motivated by recent works on dynamic neural networks, we propose a simple way to train a large network and flexibly extract a subnetwork from it given a model size or complexity constraint during inference. We introduce a new way to allow a large model to be trained with dynamic depth and width during the training phase, and after the large model is trained we can select a subnetwork from it with arbitrary depth and width during the inference phase with a relatively better performance compared to training the subnetwork independently from scratch. Experiment results on a music source separation model show that our proposed method can effectively improve the separation performance across different subnetwork sizes and complexities with a single large model, and training the large model takes significantly shorter time than training all the different subnetworks.
翻訳日:2023-12-07 14:57:09 公開日:2023-12-06
# DBCopilot: 大規模データベースへの自然言語クエリのスケーリング

DBCopilot: Scaling Natural Language Querying to Massive Databases ( http://arxiv.org/abs/2312.03463v1 )

ライセンス: Link先を確認
Tianshu Wang, Hongyu Lin, Xianpei Han, Le Sun, Xiaoyang Chen, Hao Wang, Zhenyu Zeng(参考訳) Text-to-SQLは、非専門家が自然言語(NL)質問を構造化クエリ言語(SQL)クエリに変換することによって、データベースのインタラクションを単純化する。 大規模言語モデル(llm)の最近の進歩はゼロショットテキストからsqlへのパラダイムを改善したが、既存の手法は大規模で動的に変化するデータベースを扱う際のスケーラビリティの課題に直面している。 本稿では,大規模データベース間のルーティングにコンパクトでフレキシブルなコピロットモデルを採用することで,これらの課題に対処するフレームワークであるdbcopilotを紹介する。 具体的には、DBCopilotは、テキストからSQLまでのプロセスをスキーマルーティングとSQL生成に分離し、軽量なシーケンスからシーケンスのニューラルネットワークベースのルータを活用して、データベース接続を定式化し、データベースとテーブルを介して自然言語の質問をナビゲートする。 ルーティングされたスキーマと質問は、効率的なSQL生成のためにLLMに入力される。 さらにdbcopilotでは,大規模なデータベース上でルータを自動的に学習し,手作業による介入を必要とせずに適用可能な,逆スキーマからクエリへの生成パラダイムも導入している。 実験の結果、DBCopilotは現実世界のテキスト-SQLタスクに対してスケーラブルで効果的なソリューションであり、大規模なスキーマを扱う上で大きな進歩をもたらすことが示されている。

Text-to-SQL simplifies database interactions by enabling non-experts to convert their natural language (NL) questions into Structured Query Language (SQL) queries. While recent advances in large language models (LLMs) have improved the zero-shot text-to-SQL paradigm, existing methods face scalability challenges when dealing with massive, dynamically changing databases. This paper introduces DBCopilot, a framework that addresses these challenges by employing a compact and flexible copilot model for routing across massive databases. Specifically, DBCopilot decouples the text-to-SQL process into schema routing and SQL generation, leveraging a lightweight sequence-to-sequence neural network-based router to formulate database connections and navigate natural language questions through databases and tables. The routed schemas and questions are then fed into LLMs for efficient SQL generation. Furthermore, DBCopilot also introduced a reverse schema-to-question generation paradigm, which can learn and adapt the router over massive databases automatically without requiring manual intervention. Experimental results demonstrate that DBCopilot is a scalable and effective solution for real-world text-to-SQL tasks, providing a significant advancement in handling large-scale schemas.
翻訳日:2023-12-07 14:56:45 公開日:2023-12-06
# HiFi4G:コンパクトガウススプレイティングによる高忠実なヒューマンパフォーマンスレンダリング

HiFi4G: High-Fidelity Human Performance Rendering via Compact Gaussian Splatting ( http://arxiv.org/abs/2312.03461v1 )

ライセンス: Link先を確認
Yuheng Jiang, Zhehao Shen, Penghao Wang, Zhuo Su, Yu Hong, Yingliang Zhang, Jingyi Yu, Lan Xu(参考訳) 最近、フォトリアルな人間のモデリングとレンダリングが大幅に進歩しました。 しかし、現実的な人間のパフォーマンスを効率よくレンダリングし、それをラスタライズパイプラインに統合することは依然として難しい。 本稿では,高精細映像からの高忠実度人間パフォーマンスレンダリングのための,明示的でコンパクトなガウス的手法であるHiFi4Gを提案する。 我々の中核的な直感は、3次元ガウス表現と非剛性追跡とを結合し、コンパクトで圧縮に優しい表現を実現することである。 まず, 実効初期化のための粗変形グラフと, その後の制約を強制する細粒度ガウスグラフを備えた2重グラフ機構を提案する。 そして,適応型時空間正規化器を用いた4次元ガウス最適化手法を用いて,非剛性前処理とガウス更新を効果的にバランスさせる。 また,各種プラットフォームにおける没入型体験に対する残差補償付き圧縮手法を提案する。 圧縮速度は約25倍で、1フレームあたりのストレージは2mbに満たない。 大規模な実験では、最適化速度、レンダリング品質、ストレージオーバヘッドにおいて既存のアプローチを著しく上回り、我々のアプローチの有効性を実証している。

We have recently seen tremendous progress in photo-real human modeling and rendering. Yet, efficiently rendering realistic human performance and integrating it into the rasterization pipeline remains challenging. In this paper, we present HiFi4G, an explicit and compact Gaussian-based approach for high-fidelity human performance rendering from dense footage. Our core intuition is to marry the 3D Gaussian representation with non-rigid tracking, achieving a compact and compression-friendly representation. We first propose a dual-graph mechanism to obtain motion priors, with a coarse deformation graph for effective initialization and a fine-grained Gaussian graph to enforce subsequent constraints. Then, we utilize a 4D Gaussian optimization scheme with adaptive spatial-temporal regularizers to effectively balance the non-rigid prior and Gaussian updating. We also present a companion compression scheme with residual compensation for immersive experiences on various platforms. It achieves a substantial compression rate of approximately 25 times, with less than 2MB of storage per frame. Extensive experiments demonstrate the effectiveness of our approach, which significantly outperforms existing approaches in terms of optimization speed, rendering quality, and storage overhead.
翻訳日:2023-12-07 14:56:24 公開日:2023-12-06
# 有効エネルギー状態を用いた高次元浴に結合した量子系の力学モデリング

Modeling the dynamics of quantum systems coupled to large dimensional baths using effective energy states ( http://arxiv.org/abs/2312.03460v1 )

ライセンス: Link先を確認
Lo\"ise Attal, Cyril Falvo, Florent Calvo, Pascal Parneix(参考訳) 大きいが有限の高調波浴と接触する低次元系の量子力学は、その浴を還元されたエネルギー状態に粗粒化することによって理論的に研究される。 このモデルでは, 系と浴とのカップリングは, 離散的, 退化的有効状態に対する統計的平均から得られる。 本モデルは,非マルコフ過程と入浴とメインシステム間のエネルギー移動が重要となる中間浴サイズを対象としている。 この方法は40個のハーモニックモードに結合したモース発振器のモデル系に適用される。 結果はブアクラインらによる直接量子力学シミュレーションとよく一致していることがわかった。 J. Phys. Chem. A 116, 11118-11127 (2012)] しかし、計算コストはかなり低い。 時間畳み込み法と比較し, 浴槽の拡張について考察した。 また,本研究を有限初期内部エネルギーを有する微小キャノニカル浴の場合にも拡張する。 また,関連するパラメータに対する有効浴状態モデルの計算効率と収束特性についても考察した。

The quantum dynamics of a low-dimensional system in contact with a large but finite harmonic bath is theoretically investigated by coarse-graining the bath into a reduced set of effective energy states. In this model, the couplings between the system and the bath are obtained from the statistical average over the discrete, degenerate effective states. Our model is aimed at intermediate bath sizes in which non-Markovian processes and energy transfer between the bath and the main system are important. The method is applied to a model system of a Morse oscillator coupled to 40 harmonic modes. The results are found to be in excellent agreement with the direct quantum dynamics simulations of Bouakline et al. [J. Phys. Chem. A 116, 11118-11127 (2012)], but at a much lower computational cost. Extension to larger baths is discussed in comparison to the time-convolutionless method. We also extend this study to the case of a microcanonical bath with finite initial internal energies. The computational efficiency and convergence properties of the effective bath states model with respect to relevant parameters are also discussed.
翻訳日:2023-12-07 14:56:04 公開日:2023-12-06
# F3-Pruning: 高速かつ高速なテキスト・ビデオ合成に向けた学習自由で汎用的なPruning戦略

F3-Pruning: A Training-Free and Generalized Pruning Strategy towards Faster and Finer Text-to-Video Synthesis ( http://arxiv.org/abs/2312.03459v1 )

ライセンス: Link先を確認
Sitong Su, Jianzhi Liu, Lianli Gao, Jingkuan Song(参考訳) 最近のtext-to-video(t2v)合成は、大規模なデータセット上でトランスフォーマーや拡散モデルをトレーニングすることで画期的な進歩を遂げている。 Nevertheless, inferring such large models incurs huge costs.Previous inference acceleration works either require costly retraining or are model-specific.To address this issue, instead of retraining we explore the inference process of two mainstream T2V models using transformers and diffusion models.The exploration reveals the redundancy in temporal attention modules of both models, which are commonly utilized to establish temporal relations among frames.Consequently, we propose a training-free and generalized pruning strategy called F3-Pruning to prune redundant temporal attention weights.Specifically, when aggregate temporal attention values are ranked below a certain ratio, corresponding weights will be pruned.Extensive experiments on three datasets using a classic transformer-based model CogVideo and a typical diffusion-based model Tune-A-Video verify the effectiveness of F3-Pruning in inference acceleration, quality assurance and broad applicability.

Recently Text-to-Video (T2V) synthesis has undergone a breakthrough by training transformers or diffusion models on large-scale datasets. Nevertheless, inferring such large models incurs huge costs.Previous inference acceleration works either require costly retraining or are model-specific.To address this issue, instead of retraining we explore the inference process of two mainstream T2V models using transformers and diffusion models.The exploration reveals the redundancy in temporal attention modules of both models, which are commonly utilized to establish temporal relations among frames.Consequently, we propose a training-free and generalized pruning strategy called F3-Pruning to prune redundant temporal attention weights.Specifically, when aggregate temporal attention values are ranked below a certain ratio, corresponding weights will be pruned.Extensive experiments on three datasets using a classic transformer-based model CogVideo and a typical diffusion-based model Tune-A-Video verify the effectiveness of F3-Pruning in inference acceleration, quality assurance and broad applicability.
翻訳日:2023-12-07 14:55:48 公開日:2023-12-06
# 単語から考える(TFW):日本語テキストレベル分類のための単語から考える大言語モデルにおける人間的な認知の開始

Think from Words(TFW): Initiating Human-Like Cognition in Large Language Models Through Think from Words for Japanese Text-level Classification ( http://arxiv.org/abs/2312.03458v1 )

ライセンス: Link先を確認
Chengguang Gan, Qinghao Zhang, Tatsunori Mori(参考訳) LLM(Large Language Models)の普及は、IL(Instruction Learning)、ICL(In-context Learning)、CoT(Chain-of-Thought)など、LLM関連のプロンプト調査に広範な研究を刺激している。 これらのアプローチは,質問に答える際に,簡潔な文や例を提示し,LLMの応答を改善することを目的としている。 しかし、LLMによる独立した思考は、その思考過程に変数を導入し、潜在的な不正確性をもたらす。 そこで本研究では,LLMと人間的な思考プロセスのギャップを埋めることを目的として,テキスト理解が個々の単語の理解から始まることを認識した。 この課題に取り組むため、我々は特定のドメインに対応するためのcotメソッドを拡張した。 我々のアプローチは"Think from Words"(TFW)と呼ばれ、単語レベルで理解プロセスを開始し、テキスト全体を包含するように拡張する。 また,単語レベルを付加した「単語レベル情報付きTFW」 (TFW Extra) も提案する。 本手法の評価には,テキストレベルおよび単語レベル要素からなる6つの日本語データセットのテキスト分類を用いる。 本研究は,TFWの有効性を検証するだけでなく,様々な単語レベルの情報型がLLMのテキスト理解に与える影響にも光を当て,最終テキスト全体の理解において誤解釈や誤りを引き起こす可能性を示唆した。

The proliferation of Large Language Models (LLMs) has spurred extensive research into LLM-related Prompt investigations, such as Instruction Learning (IL), In-context Learning (ICL), and Chain-of-Thought (CoT). These approaches aim to improve LLMs' responses by enabling them to provide concise statements or examples for deeper contemplation when addressing questions. However, independent thinking by LLMs can introduce variability in their thought processes, leading to potential inaccuracies. In response, our study seeks to bridge the gap between LLM and human-like thinking processes, recognizing that text comprehension begins with understanding individual words. To tackle this challenge, we have expanded the CoT method to cater to a specific domain. Our approach, known as "Think from Words" (TFW), initiates the comprehension process at the word level and then extends it to encompass the entire text. We also propose "TFW with Extra word-level information" (TFW Extra), augmenting comprehension with additional word-level data. To assess our methods, we employ text classification on six Japanese datasets comprising text-level and word-level elements. Our findings not only validate the effectiveness of TFW but also shed light on the impact of various word-level information types on LLMs' text comprehension, offering insights into their potential to cause misinterpretations and errors in the overall comprehension of the final text.
翻訳日:2023-12-07 14:55:31 公開日:2023-12-06
# データは過大評価される: 知覚メトリクスはトレーニングデータの欠如で学習をリードできる

Data is Overrated: Perceptual Metrics Can Lead Learning in the Absence of Training Data ( http://arxiv.org/abs/2312.03455v1 )

ライセンス: Link先を確認
Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez, Valero Laparra, Jesus Malo(参考訳) 知覚指標は伝統的に、画像や音声などの自然信号の品質を評価するために用いられる。 人間の観察者の知覚行動を模倣し、通常、自然の信号で見られる構造を反映するように設計されている。 これにより、モデルがメトリックに保持される構造を捉えることを学ぶように、生成モデルのトレーニングにおける損失関数としての使用が動機付けられる。 我々は、圧縮オートエンコーダを訓練し、自然データの代わりに均一なノイズを再構成することで、このアイデアをオーディオ領域の極端に当てはめる。 知覚損失のあるトレーニングは、標準ユークリッド損失で訓練されたモデルよりも、テスト時間におけるスペクトログラムの再構成と音声の再合成を改善できることが示されている。 これは知覚的メトリクスを使用するとき、自然信号が見えないようにより良い一般化を示す。

Perceptual metrics are traditionally used to evaluate the quality of natural signals, such as images and audio. They are designed to mimic the perceptual behaviour of human observers and usually reflect structures found in natural signals. This motivates their use as loss functions for training generative models such that models will learn to capture the structure held in the metric. We take this idea to the extreme in the audio domain by training a compressive autoencoder to reconstruct uniform noise, in lieu of natural data. We show that training with perceptual losses improves the reconstruction of spectrograms and re-synthesized audio at test time over models trained with a standard Euclidean loss. This demonstrates better generalisation to unseen natural signals when using perceptual metrics.
翻訳日:2023-12-07 14:55:00 公開日:2023-12-06
# 非線形量子軌道平均による異なる解離を区別する

Telling different unravelings apart via nonlinear quantum-trajectory averages ( http://arxiv.org/abs/2312.03452v1 )

ライセンス: Link先を確認
Eloy Pi\~nol, Th. K. Mavrogordatos, Dustin Keys, Romain Veyron, Piotr Sierant, Miguel Angel Garc\'ia-March, Samuele Grandi, Morgan W. Mitchell, Jan Wehr, Maciej Lewenstein(参考訳) 本稿では,gorini-kossakowski-sudarshan-lindbladマスター方程式の異なる非レーブリングを操作的に推測する方法を提案する。 我々は、2レベルエミッタから散乱した光子の直接検出に対応するポアソン型と、波長振幅やスペクトルといった測定対象の信号の相補的特性を明らかにするウィナー型という、最も一般的な2つの不規則な共鳴蛍光のパラダイム的量子非線形系に焦点を当てた。 密度行列形式によって提供される標準記述を超えた単一の軌道からなる量子軌道平均分散は、2レベルエミッタから散乱する場によって遭遇する異なる環境を区別できることを示した。 我々の提案は、一般的に遭遇する実験的な制限に対してテストされ、自由度数自由度を持つオープン量子系のために容易に拡張できる。

We propose a way to operationally infer different unravelings of the Gorini-Kossakowski-Sudarshan-Lindblad master equation appealing to stochastic conditional dynamics via quantum trajectories. We focus on the paradigmatic quantum nonlinear system of resonance fluorescence for the two most popular unravelings: the Poisson-type, corresponding to direct detection of the photons scattered from the two-level emitter, and the Wiener-type, revealing complementary attributes of the signal to be measured, such as the wave amplitude and the spectrum. We show that a quantum-trajectory-averaged variance, made of single trajectories beyond the standard description offered by the density-matrix formalism, is able to make a distinction between the different environments encountered by the field scattered from the two-level emitter. Our proposal is tested against commonly encountered experimental limitations, and can be readily extended to account for open quantum systems with several degrees of freedom.
翻訳日:2023-12-07 14:54:45 公開日:2023-12-06
# 光イリュージョンの量子インスピレーションニューラルネットワークモデル

Quantum-Inspired Neural Network Model of Optical Illusions ( http://arxiv.org/abs/2312.03447v1 )

ライセンス: Link先を確認
Ivan S. Maksymov(参考訳) 曖昧な光学錯視は、芸術、心理学、ビデオゲームにおけるファシズム、研究、インスピレーションのパラダイム的な対象である。 しかし、曖昧な人物の知覚の正確な計算モデルが解明されている。 本論文では,ネッカーキューブに対する人間の認識をシミュレートする深層ニューラルネットワークモデルの設計と訓練を行う。 真のランダム数の量子生成器を用いてニューラルネットワーク接続の重みを定義することで、量子人工知能と量子認知の概念の出現に合わせて、ネッカーキューブの実際の知覚状態が古典理論によって予測される2つの基本的な知覚状態の量子ビット的重ね合わせであることを示す。 我々の研究結果は、無人航空機の宇宙飛行士やオペレーターの訓練に使用されるビデオゲームや仮想現実システムに応用される。 また、機械学習や視覚、知覚心理学、人間の心と意思決定の量子力学モデルなどの研究にも役立ちます。

Ambiguous optical illusions have been a paradigmatic object of fascination, research and inspiration in arts, psychology and video games. However, accurate computational models of perception of ambiguous figures have been elusive. In this paper, we design and train a deep neural network model to simulate the human's perception of the Necker cube, an ambiguous drawing with several alternating possible interpretations. Defining the weights of the neural network connection using a quantum generator of truly random numbers, in agreement with the emerging concepts of quantum artificial intelligence and quantum cognition we reveal that the actual perceptual state of the Necker cube is a qubit-like superposition of the two fundamental perceptual states predicted by classical theories. Our results will find applications in video games and virtual reality systems employed for training of astronauts and operators of unmanned aerial vehicles. They will also be useful for researchers working in the fields of machine learning and vision, psychology of perception and quantum-mechanical models of human mind and decision-making.
翻訳日:2023-12-07 14:54:29 公開日:2023-12-06
# 無人機と衛星間の情報融合による人為的ワイルドファイア検出と動的避難経路計画

Active Wildfires Detection and Dynamic Escape Routes Planning for Humans through Information Fusion between Drones and Satellites ( http://arxiv.org/abs/2312.03519v1 )

ライセンス: Link先を確認
Chang Liu and Tamas Sziranyi(参考訳) UAVは、その柔軟性によって、荒野救助の分野でますます重要な役割を担っている。 本稿では,UAVビジョン技術と衛星画像解析技術を融合して,山火事の現場から道路網を抽出し,被災者の避難経路をリアルタイムに計画する手法を提案する。 まず、センチネル2衛星画像に基づいて、火源の位置と煙と炎のセグメンテーションを目標とする。 第2に、UAVによる火災源の中心領域におけるD-linkNetとNDVIの値を用いて道路セグメント化と道路条件評価を行う。 最後に, 動的延焼モデルを用いた道路網における重み付きA*アルゴリズムにより, リアルタイムの動的最適経路計画を行う。 2022年8月24日の重慶山火事を事例として、この動的避難経路計画アルゴリズムは、UAVや衛星の情報融合による火災の存在下で、人間に最適なリアルタイムナビゲーション経路を提供することができることを示した。

UAVs are playing an increasingly important role in the field of wilderness rescue by virtue of their flexibility. This paper proposes a fusion of UAV vision technology and satellite image analysis technology for active wildfires detection and road networks extraction of wildfire areas and real-time dynamic escape route planning for people in distress. Firstly, the fire source location and the segmentation of smoke and flames are targeted based on Sentinel 2 satellite imagery. Secondly, the road segmentation and the road condition assessment are performed by D-linkNet and NDVI values in the central area of the fire source by UAV. Finally, the dynamic optimal route planning for humans in real time is performed by the weighted A* algorithm in the road network with the dynamic fire spread model. Taking the Chongqing wildfire on August 24, 2022, as a case study, the results demonstrate that the dynamic escape route planning algorithm can provide an optimal real-time navigation path for humans in the presence of fire through the information fusion of UAVs and satellites.
翻訳日:2023-12-07 14:47:11 公開日:2023-12-06
# FRDiff: 拡散モデルの高精度ゼロショット加速のための特徴再利用

FRDiff: Feature Reuse for Exquisite Zero-shot Acceleration of Diffusion Models ( http://arxiv.org/abs/2312.03517v1 )

ライセンス: Link先を確認
Junhyuk So, Jungwon Lee, Eunhyeok Park(参考訳) 拡散モデルの実質的な計算コストは、特に高品質な画像生成に不可欠な反復的な消音ステップのため、広く採用される上で大きな障害となっている。 いくつかの研究は、微調整をせずに高度なODEソルバを用いてスコア関数の評価を減らし、この問題に対処しようとしているが、デノナイジングイテレーションの減少は詳細を更新する機会を逃し、顕著な品質劣化をもたらす。 本研究では,拡散モデルに固有の時間的冗長性を活用する高度な加速手法を提案する。 時間的類似度の高い特徴マップの再利用は、出力品質を犠牲にすることなく計算を節約する新たな機会を開く。 この直感の実際的な利点を実現するために,広範な分析を行い,新しい手法frdiffを提案する。 FRDiffは、削減されたNFEと機能の再利用の両方の利点を活用するように設計されており、様々な生成タスクにおける忠実性と遅延トレードオフのバランスをとるParetoフロンティアを実現している。

The substantial computational costs of diffusion models, particularly due to the repeated denoising steps crucial for high-quality image generation, present a major obstacle to their widespread adoption. While several studies have attempted to address this issue by reducing the number of score function evaluations using advanced ODE solvers without fine-tuning, the decreased number of denoising iterations misses the opportunity to update fine details, resulting in noticeable quality degradation. In our work, we introduce an advanced acceleration technique that leverages the temporal redundancy inherent in diffusion models. Reusing feature maps with high temporal similarity opens up a new opportunity to save computation without sacrificing output quality. To realize the practical benefits of this intuition, we conduct an extensive analysis and propose a novel method, FRDiff. FRDiff is designed to harness the advantages of both reduced NFE and feature reuse, achieving a Pareto frontier that balances fidelity and latency trade-offs in various generative tasks.
翻訳日:2023-12-07 14:46:55 公開日:2023-12-06
# 輪郭コアセットと変分量子固有解法によるクラスタリング

Clustering by Contour coreset and variational quantum eigensolver ( http://arxiv.org/abs/2312.03516v1 )

ライセンス: Link先を確認
Canaan Yung, Muhammad Usman(参考訳) 最近の研究は量子近似最適化アルゴリズム(QAOA)とコアセット技術を用いて量子コンピュータ上のk平均クラスタリング問題を解くことを提案した。 現在の方法は、量子k平均クラスタリングの可能性を示しているが、幅広いデータセットにわたって高い精度と一貫性を保証するものではない。 既存のコアセット技術は古典的なアルゴリズム用に設計されており、量子アルゴリズムの精度を高めるために設計された量子調整コアセット技術は存在しない。 本研究では,量子アルゴリズムに特化して定式化された量子固有解法(VQE)とカスタマイズコアセット法(Contour coreset)を用いて,k平均クラスタリング問題を解くことを提案する。 我々のVQE+Contour Coresetアプローチは、既存のQAOA+Coreset k-meansクラスタリングアプローチよりも精度が高く、標準偏差も低い。 我々の研究は、量子化されたコアセット技術は、一般的なオフザシェルフコアセット技術と比較して量子アルゴリズムの性能を大幅に向上させる可能性があることを示した。

Recent work has proposed solving the k-means clustering problem on quantum computers via the Quantum Approximate Optimization Algorithm (QAOA) and coreset techniques. Although the current method demonstrates the possibility of quantum k-means clustering, it does not ensure high accuracy and consistency across a wide range of datasets. The existing coreset techniques are designed for classical algorithms and there has been no quantum-tailored coreset technique which is designed to boost the accuracy of quantum algorithms. In this work, we propose solving the k-means clustering problem with the variational quantum eigensolver (VQE) and a customised coreset method, the Contour coreset, which has been formulated with specific focus on quantum algorithms. Extensive simulations with synthetic and real-life data demonstrated that our VQE+Contour Coreset approach outperforms existing QAOA+Coreset k-means clustering approaches with higher accuracy and lower standard deviation. Our work has shown that quantum tailored coreset techniques has the potential to significantly boost the performance of quantum algorithms when compared to using generic off-the-shelf coreset techniques.
翻訳日:2023-12-07 14:46:36 公開日:2023-12-06
# アダマール門は普遍量子計算における資源状態に置き換えられない

The Hadamard gate cannot be replaced by a resource state in universal quantum computation ( http://arxiv.org/abs/2312.03515v1 )

ライセンス: Link先を確認
Benjamin D. M. Jones, Paul Skrzypczyk, and Noah Linden(参考訳) 固定資源の量子状態上で実行される演算を含む量子計算のモデルを考える。 このパラダイムに適合する例としては、マジックステートインジェクションと測定ベースのアプローチがある。 これらのケースを両方組み込んだフレームワークを導入し、アダマール門の例に示すように、この文脈におけるコヒーレンス(あるいは重ね合わせ)の役割に焦点を当てる。 不整合ユニタリ(CNOT、対角ゲートなど計算基底状態から重ね合わせを生成できないもの)、古典的制御、計算基底測定、および任意の資源的な補助状態(任意の次元の)へのアクセスが与えられた場合、コヒーレントユニタリ(例えばアダマール)を非ゼロ確率で正確に実装することは不可能である。 また、上記の演算と$n$ hadamardゲートの間の誘導トレース距離の下限を提供することにより、近似の場合を考える。 この結果の安定性を示すために、$k$ Hadamard gatesを使用して$n>k$ Hadamard gatesを正確に実装する場合、同様のno-go結果に拡張する。

We consider models of quantum computation that involve operations performed on some fixed resourceful quantum state. Examples that fit this paradigm include magic state injection and measurement-based approaches. We introduce a framework that incorporates both of these cases and focus on the role of coherence (or superposition) in this context, as exemplified through the Hadamard gate. We prove that given access to incoherent unitaries (those that are unable to generate superposition from computational basis states, e.g. CNOT, diagonal gates), classical control, computational basis measurements, and any resourceful ancillary state (of arbitrary dimension), it is not possible to implement any coherent unitary (e.g. Hadamard) exactly with non-zero probability. We also consider the approximate case by providing lower bounds for the induced trace distance between the above operations and $n$ Hadamard gates. To demonstrate the stability of this result, this is then extended to a similar no-go result for the case of using $k$ Hadamard gates to exactly implement $n>k$ Hadamard gates.
翻訳日:2023-12-07 14:46:15 公開日:2023-12-06
# Kandinsky 3.0テクニカルレポート

Kandinsky 3.0 Technical Report ( http://arxiv.org/abs/2312.03511v1 )

ライセンス: Link先を確認
Vladimir Arkhipkin, Andrei Filatov, Viacheslav Vasilev, Anastasia Maltseva, Said Azizov, Igor Pavlov, Julia Agafonova, Andrey Kuznetsov, Denis Dimitrov(参考訳) 我々は,潜在拡散に基づく大規模テキストから画像への生成モデルであるkandinsky 3.0について述べる。 Kandinsky 2.xの以前のバージョンと比較すると、Kandinsky 3.0はU-Netのバックボーンが2倍大きく、テキストエンコーダが10倍大きく、拡散マッピングが削除されている。 本稿では,モデルのアーキテクチャ,データ収集手順,トレーニング手法,ユーザインタラクションの生産システムについて述べる。 私たちは、多数の実験の結果明らかになった主要なコンポーネントに焦点を当て、他のコンポーネントと比較して、モデルの品質向上に最も大きな影響を与えました。 私たちの比較によって、kandinskyはテキスト理解がより良くなり、特定のドメインでよりうまく機能します。 プロジェクトページ: https://ai-forever.github.io/kandinsky-3

We present Kandinsky 3.0, a large-scale text-to-image generation model based on latent diffusion, continuing the series of text-to-image Kandinsky models and reflecting our progress to achieve higher quality and realism of image generation. Compared to previous versions of Kandinsky 2.x, Kandinsky 3.0 leverages a two times larger U-Net backbone, a ten times larger text encoder and removes diffusion mapping. We describe the architecture of the model, the data collection procedure, the training technique, and the production system of user interaction. We focus on the key components that, as we have identified as a result of a large number of experiments, had the most significant impact on improving the quality of our model compared to the others. By our side-by-side comparisons, Kandinsky becomes better in text understanding and works better on specific domains. Project page: https://ai-forever.github.io/Kandinsky-3
翻訳日:2023-12-07 14:45:52 公開日:2023-12-06
# ソボレフトレーニングに向けて

Towards Sobolev Training ( http://arxiv.org/abs/2312.03510v1 )

ライセンス: Link先を確認
Neil Kichler, Sher Afghan, Uwe Naumann(参考訳) 複雑な現象を記述するための確率モデルの利用の増加は、計算コストのごく一部で参照モデル特性をキャプチャするモデルを代理し、潜在的に高価なモンテカルロシミュレーションを先導する。 大きなニューラルネットワークを適合させ、それを小さくする主なアプローチは、一般的に欠点を無視している。 生成された代理モデルは、しばしば元のモデルに固有の感度や不確かさを捉えない。 特に、そのようなサロゲートの(高次の)誘導体情報は、大きく異なる可能性がある。 十分な量のネットワークがあると、このデリバティブ情報は一致するだろう。 しかし、刈り取られたモデルは、ほぼ間違いなくこの挙動を共有しないでしょう。 本稿では,学習および刈り取り過程を通じて感度情報を用いて代理モデルを見つけることを提案する。 本研究では, ニューラルネットワークを用いたサロゲートモデルにおいて, 初期感度情報を正確にモデル化するためのソボレフ訓練の最近の進歩と組み合わせて, 時間差分結合分析を用いて作業を行う。 ブラウン運動を伴う確率微分方程式を用いてモデル化した多次元バスケットオプションの価格設定例について実験的に検討した。 しかし,提案手法は定量的金融の領域に限らず,直感的な感性解釈のケーススタディとして選択された。 感度情報を考慮したさらなるサロゲートモデリング技術の構築の基盤となっている。

The increasing use of stochastic models for describing complex phenomena warrants surrogate models that capture the reference model characteristics at a fraction of the computational cost, foregoing potentially expensive Monte Carlo simulation. The predominant approach of fitting a large neural network and then pruning it to a reduced size has commonly neglected shortcomings. The produced surrogate models often will not capture the sensitivities and uncertainties inherent in the original model. In particular, (higher-order) derivative information of such surrogates could differ drastically. Given a large enough network, we expect this derivative information to match. However, the pruned model will almost certainly not share this behavior. In this paper, we propose to find surrogate models by using sensitivity information throughout the learning and pruning process. We build on work using Interval Adjoint Significance Analysis for pruning and combine it with the recent advancements in Sobolev Training to accurately model the original sensitivity information in the pruned neural network based surrogate model. We experimentally underpin the method on an example of pricing a multidimensional Basket option modelled through a stochastic differential equation with Brownian motion. The proposed method is, however, not limited to the domain of quantitative finance, which was chosen as a case study for intuitive interpretations of the sensitivities. It serves as a foundation for building further surrogate modelling techniques considering sensitivity information.
翻訳日:2023-12-07 14:45:36 公開日:2023-12-06
# 蛍光顕微鏡データによる重力細胞の検出と追跡

Gravitational cell detection and tracking in fluorescence microscopy data ( http://arxiv.org/abs/2312.03509v1 )

ライセンス: Link先を確認
Nikomidisz Eftimiu, Michal Kozubek(参考訳) 顕微鏡画像中の細胞の自動検出と追跡は、生物医学研究と臨床におけるコンピュータビジョン技術の主要な応用である。 これらの分野では機械学習の手法がますます一般的になっているが、古典的なアルゴリズムは、より優れた説明可能性、高速な計算、ハードウェア要件の低減、より一貫性のあるパフォーマンスなど、両方のタスクに重要な利点を提供している。 本稿では、蛍光顕微鏡画像に適用した場合に、現代の機械学習モデルと競合し、潜在的に優れる重力場に基づく新しいアプローチを提案する。 この方法では、検出、セグメンテーション、トラッキング要素が含まれ、その結果はCell Tracking Challengeデータセットで示される。

Automatic detection and tracking of cells in microscopy images are major applications of computer vision technologies in both biomedical research and clinical practice. Though machine learning methods are increasingly common in these fields, classical algorithms still offer significant advantages for both tasks, including better explainability, faster computation, lower hardware requirements and more consistent performance. In this paper, we present a novel approach based on gravitational force fields that can compete with, and potentially outperform modern machine learning models when applied to fluorescence microscopy images. This method includes detection, segmentation, and tracking elements, with the results demonstrated on a Cell Tracking Challenge dataset.
翻訳日:2023-12-07 14:45:15 公開日:2023-12-06
# 畳み込みニューラルネットワークによる表面符号のデコーダ

Convolutional neural network based decoders for surface codes ( http://arxiv.org/abs/2312.03508v1 )

ライセンス: Link先を確認
Simone Bordoni and Stefano Giagu(参考訳) 古典的なアルゴリズムによる表面符号のエラーシンドロームの復号化は量子計算を遅くする可能性がある。 この問題を解決するために、ニューラルネットワークに基づく復号アルゴリズムを実装することができる。 本稿では,畳み込みニューラルネットワークに基づくデコーダについて,異なる符号距離と雑音モデルを用いて検討した。 その結果,畳み込みニューラルネットワークに基づくデコーダの性能は良好であり,異なるノイズモデルに適応できることがわかった。 さらに、より堅牢で実行可能なアルゴリズムを生成するために、デコーダのニューラルネットワークに説明可能な機械学習技術を適用して、アルゴリズムの振る舞いとエラーをよりよく理解している。

The decoding of error syndromes of surface codes with classical algorithms may slow down quantum computation. To overcome this problem it is possible to implement decoding algorithms based on artificial neural networks. This work reports a study of decoders based on convolutional neural networks, tested on different code distances and noise models. The results show that decoders based on convolutional neural networks have good performance and can adapt to different noise models. Moreover, explainable machine learning techniques have been applied to the neural network of the decoder to better understand the behaviour and errors of the algorithm, in order to produce a more robust and performing algorithm.
翻訳日:2023-12-07 14:45:03 公開日:2023-12-06
# 弱教師付き適応による分布シフト下におけるセグメンテーション基礎モデルの一般化

Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation ( http://arxiv.org/abs/2312.03502v1 )

ライセンス: Link先を確認
Haojie Zhang, Yongyi Su, Xun Xu and Kui Jia(参考訳) 大規模な言語モデルの成功は、コンピュータビジョンコミュニティに、プロンプトエンジニアリングによってゼロ/フェウショットを一般化できるイメージセグメンテーション基盤モデルの研究を促した。 Segment-Anything(SAM)は、強力なゼロ/ファウショットの一般化を示す最先端のイメージセグメンテーション基盤モデルである。 この成功にもかかわらず、近年の研究はSAMの強い分布シフトの弱さを明らかにしている。 特にSAMは、破損した自然画像、偽造画像、医療画像等にぎこちなく処理する。 本研究の目的は,SAMを目標分布に適応させる自己学習型戦略を開発することである。 大規模データ集合と高い計算コストと誤った擬似ラベルのユニークな課題を考慮し,アンカー正則化と低ランク微調整による弱教師付き自己学習アーキテクチャを提案し,適応のロバスト性と計算効率を向上させる。 自然洗浄・腐食画像,医療画像,カモフラージュ画像,ロボット画像の5種類の下流セグメンテーションタスクの有効性を検証する。 提案手法はタスク非依存であり、同じテストプロンプト入力を持つほぼすべての下流タスクにおいて、事前訓練されたSAMおよび最先端ドメイン適応法より優れる。

The success of large language models has inspired the computer vision community to explore image segmentation foundation model that is able to zero/few-shot generalize through prompt engineering. Segment-Anything(SAM), among others, is the state-of-the-art image segmentation foundation model demonstrating strong zero/few-shot generalization. Despite the success, recent studies reveal the weakness of SAM under strong distribution shift. In particular, SAM performs awkwardly on corrupted natural images, camouflaged images, medical images, etc. Motivated by the observations, we aim to develop a self-training based strategy to adapt SAM to target distribution. Given the unique challenges of large source dataset, high computation cost and incorrect pseudo label, we propose a weakly supervised self-training architecture with anchor regularization and low-rank finetuning to improve the robustness and computation efficiency of adaptation. We validate the effectiveness on 5 types of downstream segmentation tasks including natural clean/corrupted images, medical images, camouflaged images and robotic images. Our proposed method is task-agnostic in nature and outperforms pre-trained SAM and state-of-the-art domain adaptation methods on almost all downstream tasks with the same testing prompt inputs.
翻訳日:2023-12-07 14:44:52 公開日:2023-12-06
# 自律的な研究を行う人工エージェント概念の投機的探索

Speculative Exploration on the Concept of Artificial Agents Conducting Autonomous Research ( http://arxiv.org/abs/2312.03497v1 )

ライセンス: Link先を確認
Shiro Takagi(参考訳) 本稿では,研究を行うことができる人工エージェントの概念の投機的探究を行う。 はじめに、研究行為が概念的にどのように特徴づけられるかを検討し、そのようなエージェントを作成することの意味に関する議論の出発点を提供することを目的としている。 次に焦点は、質問の定式化、仮説生成、仮説検証といった研究のコアコンポーネントにシフトする。 この議論は、マシンがこれらのタスクを自律的に実行可能にすることに関連する可能性と課題について考察する。 その後,本論文では,重なり合うテーマとそれらの根底にある相互関係を簡潔に考察する。 最後に, プロトタイピングに関する予備的考察を, 研究可能なエージェントの開発に関わる課題を明らかにするための第一歩として提示する。

This paper engages in a speculative exploration of the concept of an artificial agent capable of conducting research. Initially, it examines how the act of research can be conceptually characterized, aiming to provide a starting point for discussions about what it means to create such agents. The focus then shifts to the core components of research: question formulation, hypothesis generation, and hypothesis verification. This discussion includes a consideration of the potential and challenges associated with enabling machines to autonomously perform these tasks. Subsequently, this paper briefly considers the overlapping themes and interconnections that underlie them. Finally, the paper presents preliminary thoughts on prototyping as an initial step towards uncovering the challenges involved in developing these research-capable agents.
翻訳日:2023-12-07 14:44:33 公開日:2023-12-06
# 確率的修復可能スケジューリングのシナリオから学ぶ

Learning From Scenarios for Stochastic Repairable Scheduling ( http://arxiv.org/abs/2312.03492v1 )

ライセンス: Link先を確認
Kim van den Houten, David M.J. Tax, Esteban Freydell, Mathijs de Weerdt(参考訳) 線形目的語における不確定パラメータ値の問題を最適化する場合、決定中心学習はこれらの値のエンドツーエンド学習を可能にする。 我々は、処理時間が不確実であり、制約に不確実な値をもたらす確率的スケジューリング問題に興味を持ち、初期スケジュールの修復が必要である。 確率的処理時間の歴史的実現が可能である。 確率的平滑化に基づく既存の意思決定型学習手法がこのスケジューリング問題にどのように適応できるかを示す。 本研究は,状況決定に焦点をあてた学習が,状況の状況にどのような影響を与えるかを検討するための広範な実験評価を含む。

When optimizing problems with uncertain parameter values in a linear objective, decision-focused learning enables end-to-end learning of these values. We are interested in a stochastic scheduling problem, in which processing times are uncertain, which brings uncertain values in the constraints, and thus repair of an initial schedule may be needed. Historical realizations of the stochastic processing times are available. We show how existing decision-focused learning techniques based on stochastic smoothing can be adapted to this scheduling problem. We include an extensive experimental evaluation to investigate in which situations decision-focused learning outperforms the state of the art for such situations: scenario-based stochastic optimization.
翻訳日:2023-12-07 14:44:23 公開日:2023-12-06
# Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis (英語)

Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis ( http://arxiv.org/abs/2312.03491v1 )

ライセンス: Link先を確認
Zehua Chen, Guande He, Kaiwen Zheng, Xu Tan, Jun Zhu(参考訳) テキスト音声合成(TTS)において、拡散モデルは有望な生成品質を達成した。 しかし, 事前定義されたデータ-雑音拡散プロセスにより, 先行分布は雑音表現に制限され, 生成対象に関する情報はほとんど得られない。 本研究では,新しいTSシステムであるBridge-TTSを提案し,従来の拡散型TS法ではノイズの多いガウシアンをクリーンかつ決定論的に置き換える試みを行い,ターゲットの構造情報を強く提供した。 具体的には、テキスト入力から得られた潜在表現を先行して活用し、それと接地メルスペクトログラムの間に完全に扱いやすいシュロディンガーブリッジを構築し、データからデータへのプロセスへと繋がる。 さらに, 定式化の難易度と柔軟性により, 設計空間, 騒音スケジュール, および確率的, 決定論的サンプラーの開発を実証的に行うことができる。 lj-speechデータセットの実験結果は,合成品質とサンプリング効率の両面において,50ステップ/1000ステップ合成における拡散対応するgrad-ttsと,少数のシナリオにおける強力な高速ttsモデルとを有意に上回っている。 プロジェクトページ: https://bridge-tts.github.io/

In text-to-speech (TTS) synthesis, diffusion models have achieved promising generation quality. However, because of the pre-defined data-to-noise diffusion process, their prior distribution is restricted to a noisy representation, which provides little information of the generation target. In this work, we present a novel TTS system, Bridge-TTS, making the first attempt to substitute the noisy Gaussian prior in established diffusion-based TTS methods with a clean and deterministic one, which provides strong structural information of the target. Specifically, we leverage the latent representation obtained from text input as our prior, and build a fully tractable Schrodinger bridge between it and the ground-truth mel-spectrogram, leading to a data-to-data process. Moreover, the tractability and flexibility of our formulation allow us to empirically study the design spaces such as noise schedules, as well as to develop stochastic and deterministic samplers. Experimental results on the LJ-Speech dataset illustrate the effectiveness of our method in terms of both synthesis quality and sampling efficiency, significantly outperforming our diffusion counterpart Grad-TTS in 50-step/1000-step synthesis and strong fast TTS models in few-step scenarios. Project page: https://bridge-tts.github.io/
翻訳日:2023-12-07 14:44:13 公開日:2023-12-06
# 気腫 : 大言語モデルの力を利用した気腫症の診断

PneumoLLM: Harnessing the Power of Large Language Model for Pneumoconiosis Diagnosis ( http://arxiv.org/abs/2312.03490v1 )

ライセンス: Link先を確認
Meiyue Song, Zhihua Yu, Jiaxin Wang, Jiarui Wang, Yuting Lu, Baicun Li, Xiaoxu Wang, Qinghua Huang, Zhijun Li, Nikolaos I.Kanellakis, Jiangfeng Liu, Jing Wang, Binglu Wang, Juntao Yang(参考訳) 従来のプレトレーニングとファインタニングのパラダイムは、十分なデータを持つ一般的な疾患に対して有効であるが、肺炎のようなデータスカースな職業疾患の診断における課題に直面している。 近年,大規模言語モデル (LLM) は対話における複数のタスクの実行において前例のない能力を示し,診断の機会をもたらしている。 一般的な戦略は、視覚言語によるアライメントと診断にアダプタ層を使用することである。 しかし、このアプローチでは、テキストブランチと対話ヘッドの広範な学習可能なパラメータの最適化が必要となり、特に限られたトレーニングデータではllmsの有効性が低下する可能性がある。 本研究では,テキスト分岐を除去し,対話ヘッドを分類ヘッドで置換することで革新を行う。 本手法は, 学習可能なパラメータが少ない診断において, LLMを効果的に活用する方法を提案する。 さらに, 詳細な画像情報の保持と正確な診断に向けた進捗のバランスをとるため, コンテクストマルチトケンエンジンを導入する。 このエンジンは、適応的に診断トークンを生成する。 さらに,画像トークンから診断トークンへ一方向的に情報を発信する情報エミッタモジュールを提案する。 総合実験により提案手法の優位性と提案モジュールの有効性が検証された。 私たちのコードはhttps://github.com/CodeMonsterPHD/PneumoLLM/tree/mainで確認できます。

The conventional pretraining-and-finetuning paradigm, while effective for common diseases with ample data, faces challenges in diagnosing data-scarce occupational diseases like pneumoconiosis. Recently, large language models (LLMs) have exhibits unprecedented ability when conducting multiple tasks in dialogue, bringing opportunities to diagnosis. A common strategy might involve using adapter layers for vision-language alignment and diagnosis in a dialogic manner. Yet, this approach often requires optimization of extensive learnable parameters in the text branch and the dialogue head, potentially diminishing the LLMs' efficacy, especially with limited training data. In our work, we innovate by eliminating the text branch and substituting the dialogue head with a classification head. This approach presents a more effective method for harnessing LLMs in diagnosis with fewer learnable parameters. Furthermore, to balance the retention of detailed image information with progression towards accurate diagnosis, we introduce the contextual multi-token engine. This engine is specialized in adaptively generating diagnostic tokens. Additionally, we propose the information emitter module, which unidirectionally emits information from image tokens to diagnosis tokens. Comprehensive experiments validate the superiority of our methods and the effectiveness of proposed modules. Our codes can be found at https://github.com/CodeMonsterPHD/PneumoLLM/tree/main.
翻訳日:2023-12-07 14:43:47 公開日:2023-12-06
# シャープリー値の個別説明の精度

Precision of Individual Shapley Value Explanations ( http://arxiv.org/abs/2312.03485v1 )

ライセンス: Link先を確認
Lars Henry Berge Olsen(参考訳) shapleyの値は、複雑な機械学習(ml)モデルによる予測を説明するフレームワークとして、説明可能な人工知能(xai)で広く使われている。 本研究では,表データに適合する予測モデルに対する条件付きシャプリー値に着目し,単一の観測値である$f(\boldsymbol{x}^{*})$を当時の1つの観測値$\boldsymbol{x}^{*}$に対して説明する。 XAI文献において,多くのシェープ値推定手法が提案され,実証的に比較されている。 しかし、Shapleyの値説明の精度を個別に分析することには、あまり焦点が当てられていない。 我々は,本研究をolsen et al. (2023) で拡張し,すべての使用済み推定法について,トレーニングデータ分布の外領域での観測に対して,その説明が系統的に正確でないことを実証し,議論した。 これは統計的観点から予測されるが、我々の知る限りでは、シェープリー価値文学において体系的に扱われていない。 このことは、シャプリー価値の実践者にとって重要な知識であり、これらの観察のシャプリー価値の説明をより慎重に適用する必要がある。

Shapley values are extensively used in explainable artificial intelligence (XAI) as a framework to explain predictions made by complex machine learning (ML) models. In this work, we focus on conditional Shapley values for predictive models fitted to tabular data and explain the prediction $f(\boldsymbol{x}^{*})$ for a single observation $\boldsymbol{x}^{*}$ at the time. Numerous Shapley value estimation methods have been proposed and empirically compared on an average basis in the XAI literature. However, less focus has been devoted to analyzing the precision of the Shapley value explanations on an individual basis. We extend our work in Olsen et al. (2023) by demonstrating and discussing that the explanations are systematically less precise for observations on the outer region of the training data distribution for all used estimation methods. This is expected from a statistical point of view, but to the best of our knowledge, it has not been systematically addressed in the Shapley value literature. This is crucial knowledge for Shapley values practitioners, who should be more careful in applying these observations' corresponding Shapley value explanations.
翻訳日:2023-12-07 14:43:25 公開日:2023-12-06
# 変圧器を用いた質問生成のための解答情報探索

Exploring Answer Information Methods for Question Generation with Transformers ( http://arxiv.org/abs/2312.03483v1 )

ライセンス: Link先を確認
Talha Chafekar, Aafiya Hussain, Grishma Sharma, Deepak Sharma(参考訳) 質問生成では,対象とする回答を入力として提供するためのさまざまな方法が採用されている。 この実験は主にRNNベースのモデルで行われている。 我々は3つの異なる手法とその組み合わせを用いて回答情報を取り入れ、その効果をいくつかの自動評価指標で調べる。 使用する方法は、回答プロンプト、回答埋め込みとエンコーダ出力を用いたカスタム製品方法、回答関連情報を有する入力段落からの文の選択、回答に出席するデコーダ内の別個の横断的注意ブロックの使用である。 追加モードなしで回答をプロンプトすると、ルージュ、流星のスコアで最高のスコアが得られます。 さらに、私たちはカスタムメトリックを使用して、生成した質問のどれが同じ回答を持っているかを計算する。

There has been a lot of work in question generation where different methods to provide target answers as input, have been employed. This experimentation has been mostly carried out for RNN based models. We use three different methods and their combinations for incorporating answer information and explore their effect on several automatic evaluation metrics. The methods that are used are answer prompting, using a custom product method using answer embeddings and encoder outputs, choosing sentences from the input paragraph that have answer related information, and using a separate cross-attention attention block in the decoder which attends to the answer. We observe that answer prompting without any additional modes obtains the best scores across rouge, meteor scores. Additionally, we use a custom metric to calculate how many of the generated questions have the same answer, as the answer which is used to generate them.
翻訳日:2023-12-07 14:42:59 公開日:2023-12-06
# 画像が1024 x 1,024ワードである場合:計算病理学のケーススタディ

When an Image is Worth 1,024 x 1,024 Words: A Case Study in Computational Pathology ( http://arxiv.org/abs/2312.03558v1 )

ライセンス: Link先を確認
Wenhui Wang, Shuming Ma, Hanwen Xu, Naoto Usuyama, Jiayu Ding, Hoifung Poon, Furu Wei(参考訳) この技術レポートは、ギガピクセル画像をエンドツーエンドで処理できるビジョントランスフォーマーであるLongViTを提示する。 具体的には、ギガピクセル画像を数百万のパッチに分割し、それらを線形に埋め込みに投影する。 ロングネットは極端に長いシーケンスのモデル化に使われ、短距離と長距離の両方の依存関係をキャプチャする表現を生成する。 LongNetの線形計算複雑性は、分散アルゴリズムとともに、計算とメモリの両方の制約を克服することができる。 我々は,Gigapixel全スライディング画像中の癌診断と予後を目的とし,LongViTを計算病理学の分野に適用した。 実験の結果、LongViTはギガピクセル画像を効果的にエンコードし、がんのサブタイプと生存予測に関する過去の最先端手法より優れていることが示された。 コードとモデルはhttps://aka.ms/LongViT.comで入手できる。

This technical report presents LongViT, a vision Transformer that can process gigapixel images in an end-to-end manner. Specifically, we split the gigapixel image into a sequence of millions of patches and project them linearly into embeddings. LongNet is then employed to model the extremely long sequence, generating representations that capture both short-range and long-range dependencies. The linear computation complexity of LongNet, along with its distributed algorithm, enables us to overcome the constraints of both computation and memory. We apply LongViT in the field of computational pathology, aiming for cancer diagnosis and prognosis within gigapixel whole-slide images. Experimental results demonstrate that LongViT effectively encodes gigapixel images and outperforms previous state-of-the-art methods on cancer subtyping and survival prediction. Code and models will be available at https://aka.ms/LongViT.
翻訳日:2023-12-07 14:38:16 公開日:2023-12-06
# 並列視覚注意による拡散モデルによる顔のパーソナライズ

Personalized Face Inpainting with Diffusion Models by Parallel Visual Attention ( http://arxiv.org/abs/2312.03556v1 )

ライセンス: Link先を確認
Jianjin Xu, Saman Motamed, Praneetha Vaddamanu, Chen Henry Wu, Christian Haene, Jean-Charles Bazin, Fernando de la Torre(参考訳) 顔のインペインティングは、写真復元、画像編集、仮想現実など、さまざまなアプリケーションで重要である。 顔生成モデルが大幅に進歩したにもかかわらず、塗布プロセス中に人の独特の顔のアイデンティティが維持されることは、いまだ明白な目標である。 MyStyleによって実証された現在の最先端技術は、リソース集約的な微調整と、新しいアイデンティティごとにかなりの数の画像を必要とする。 さらに、既存のメソッドは、ひげや表現などのユーザ固有のセマンティック属性の調整に不足することが多い。 そこで本研究では, パラレル視覚意図(PVA)を拡散モデルと組み合わせることで, 塗装結果の改善と, 推論中の計算複雑性の低減を図る。 具体的には、識別エンコーダにより参照画像から抽出された特徴に付随する認知ネットワーク内の各クロスアテンションモジュールに並列アテンション行列を挿入する。 我々はCelebAHQ-IDIで注目モジュールとIDエンコーダをトレーニングする。 実験により、PVAは、MyStyle、Paint by Example、Custom Diffusionなど、さまざまなベンチマークと比較して、顔の塗り絵と顔の塗り絵と言語指導タスクの両方で非並列のアイデンティティ類似性が得られることが示された。 以上の結果から,PVAは効果的な言語制御性を提供しながら,良好なアイデンティティ保護を実現していることが明らかとなった。 さらに、Custom Diffusionとは対照的に、新しいアイデンティティごとに40ステップの微調整が必要であり、これは20倍以上の大幅なスピードアップを意味する。

Face inpainting is important in various applications, such as photo restoration, image editing, and virtual reality. Despite the significant advances in face generative models, ensuring that a person's unique facial identity is maintained during the inpainting process is still an elusive goal. Current state-of-the-art techniques, exemplified by MyStyle, necessitate resource-intensive fine-tuning and a substantial number of images for each new identity. Furthermore, existing methods often fall short in accommodating user-specified semantic attributes, such as beard or expression. To improve inpainting results, and reduce the computational complexity during inference, this paper proposes the use of Parallel Visual Attention (PVA) in conjunction with diffusion models. Specifically, we insert parallel attention matrices to each cross-attention module in the denoising network, which attends to features extracted from reference images by an identity encoder. We train the added attention modules and identity encoder on CelebAHQ-IDI, a dataset proposed for identity-preserving face inpainting. Experiments demonstrate that PVA attains unparalleled identity resemblance in both face inpainting and face inpainting with language guidance tasks, in comparison to various benchmarks, including MyStyle, Paint by Example, and Custom Diffusion. Our findings reveal that PVA ensures good identity preservation while offering effective language-controllability. Additionally, in contrast to Custom Diffusion, PVA requires just 40 fine-tuning steps for each new identity, which translates to a significant speed increase of over 20 times.
翻訳日:2023-12-07 14:38:01 公開日:2023-12-06
# Holmes: 異種NIC環境下でのクラスタ間の分散トレーニングを目指す

Holmes: Towards Distributed Training Across Clusters with Heterogeneous NIC Environment ( http://arxiv.org/abs/2312.03549v1 )

ライセンス: Link先を確認
Fei Yang, Shuang Peng, Ning Sun, Fangyu Wang, Ke Tan, Fu Wu, Jiezhong Qiu, Aimin Pan(参考訳) GPT-3、OPT、LLaMAのような大規模言語モデル(LLM)は、幅広いタスクにおいて顕著な精度を示している。 しかし、これらのモデルのトレーニングにはかなりのコストがかかり、数ヶ月の連続運用には数万のgpuが必要となる。 通常、このトレーニングは、均一な高速リモートダイレクトメモリアクセス(RDMA)ネットワークインターフェースカード(NIC)を備えた専用GPUクラスタで実行される。 このような専用クラスタの獲得とメンテナンスは困難である。 現在のLLMトレーニングフレームワークであるMegatron-LMやMegatron-DeepSpeedは、主に同種クラスタ設定でのトレーニングの最適化に重点を置いている。 本稿では,不均一なNIC環境におけるデータとモデル並列化戦略を念頭に構築したLLMのトレーニングフレームワークであるHolmesを紹介する。 我々の主な技術的貢献は、LLMトレーニングにおける異なる計算タスクレットを、その接続NICの特性に基づいて特定のGPUデバイス群にインテリジェントに割り当てる新しいスケジューリング手法である。 さらに、パイプライン並列技術を利用した提案フレームワークでは、異なるクラスタ内のノード間の高速な相互接続のないシナリオにおいても、複数のGPUクラスタへのスケーラビリティを示す。 我々は異種NIC環境における様々なシナリオを含む包括的実験を行った。 ほとんどの場合、本フレームワークはRDMA対応ネットワーク(InfiniBandまたはRoCE)で達成可能な性能レベルに近い性能を達成し、純粋なイーサネット環境におけるトレーニング効率を大幅に上回る。 さらに,我々のフレームワークが,トレーニング効率の点で異種nic環境下で他の主流のllmフレームワークよりも優れており,それらをシームレスに統合できることを確認した。

Large language models (LLMs) such as GPT-3, OPT, and LLaMA have demonstrated remarkable accuracy in a wide range of tasks. However, training these models can incur significant expenses, often requiring tens of thousands of GPUs for months of continuous operation. Typically, this training is carried out in specialized GPU clusters equipped with homogeneous high-speed Remote Direct Memory Access (RDMA) network interface cards (NICs). The acquisition and maintenance of such dedicated clusters is challenging. Current LLM training frameworks, like Megatron-LM and Megatron-DeepSpeed, focus primarily on optimizing training within homogeneous cluster settings. In this paper, we introduce Holmes, a training framework for LLMs that employs thoughtfully crafted data and model parallelism strategies over the heterogeneous NIC environment. Our primary technical contribution lies in a novel scheduling method that intelligently allocates distinct computational tasklets in LLM training to specific groups of GPU devices based on the characteristics of their connected NICs. Furthermore, our proposed framework, utilizing pipeline parallel techniques, demonstrates scalability to multiple GPU clusters, even in scenarios without high-speed interconnects between nodes in distinct clusters. We conducted comprehensive experiments that involved various scenarios in the heterogeneous NIC environment. In most cases, our framework achieves performance levels close to those achievable with homogeneous RDMA-capable networks (InfiniBand or RoCE), significantly exceeding training efficiency within the pure Ethernet environment. Additionally, we verified that our framework outperforms other mainstream LLM frameworks under heterogeneous NIC environment in terms of training efficiency and can be seamlessly integrated with them.
翻訳日:2023-12-07 14:37:32 公開日:2023-12-06
# ORSI正対象検出のためのテクスチャ・セマンティック協調ネットワーク

Texture-Semantic Collaboration Network for ORSI Salient Object Detection ( http://arxiv.org/abs/2312.03548v1 )

ライセンス: Link先を確認
Gongyang Li, Zhen Bai, Zhi Liu(参考訳) 光リモートセンシング画像(orsis)におけるsalient object detection(sod)が最近普及している。 ORSIの特徴から、ORSI-SODは複数の物体、小さな物体、低い照度、不規則な形状といった課題に満ちている。 これらの課題に対処するために,ORSI-SODのためのテクスチャキューとセマンティックキューの協調を探索する,簡潔で効果的なテクスチャ・セマンティックコラボレーションネットワーク(TSCNet)を提案する。 具体的には、TSCNetは汎用エンコーダデコーダ構造に基づいている。 エンコーダとデコーダに加えて、TSCNetには、重要なTexture-Semantic Collaboration Module (TSCM)が含まれており、エンコーダから抽出した基本機能に対して、重要な機能変調と相互作用を行う。 TSCMの主な考え方は,最も低いレベルのテクスチャ特徴と最も高いレベルのセマンティック特徴を最大限に活用して,特徴量に対する顕著な領域の表現向上を実現することである。 TSCMでは,まず,意味的特徴を用いた潜在的正弦領域の位置を向上する。 次に,テクスチャ機能を用いてオブジェクトの詳細をレンダリングし,復元する。 また,様々なスケールの領域を認識し,異なる領域間の相互作用を構築する。 TSCMと汎用構造の完全な組み合わせにより、当社のTSCNetは、健全なオブジェクトの位置と詳細の両方を処理でき、様々なシーンを効果的に処理できる。 3つのデータセットに対する大規模な実験により、TSCNetは14の最先端手法と比較して競争性能が向上することを示した。 このメソッドのコードと結果は、https://github.com/mathlee/tscnetで入手できます。

Salient object detection (SOD) in optical remote sensing images (ORSIs) has become increasingly popular recently. Due to the characteristics of ORSIs, ORSI-SOD is full of challenges, such as multiple objects, small objects, low illuminations, and irregular shapes. To address these challenges, we propose a concise yet effective Texture-Semantic Collaboration Network (TSCNet) to explore the collaboration of texture cues and semantic cues for ORSI-SOD. Specifically, TSCNet is based on the generic encoder-decoder structure. In addition to the encoder and decoder, TSCNet includes a vital Texture-Semantic Collaboration Module (TSCM), which performs valuable feature modulation and interaction on basic features extracted from the encoder. The main idea of our TSCM is to make full use of the texture features at the lowest level and the semantic features at the highest level to achieve the expression enhancement of salient regions on features. In the TSCM, we first enhance the position of potential salient regions using semantic features. Then, we render and restore the object details using the texture features. Meanwhile, we also perceive regions of various scales, and construct interactions between different regions. Thanks to the perfect combination of TSCM and generic structure, our TSCNet can take care of both the position and details of salient objects, effectively handling various scenes. Extensive experiments on three datasets demonstrate that our TSCNet achieves competitive performance compared to 14 state-of-the-art methods. The code and results of our method are available at https://github.com/MathLee/TSCNet.
翻訳日:2023-12-07 14:37:08 公開日:2023-12-06
# gpt-4 自律走行のためのマルチモーダルグラウンドの強化:大規模言語モデルによるクロスモーダル注意の活用

GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models ( http://arxiv.org/abs/2312.03543v1 )

ライセンス: Link先を確認
Haicheng Liao, Huanming Shen, Zhenning Li, Chengyue Wang, Guofa Li, Yiming Bie, Chengzhong Xu(参考訳) 自律走行車(AV)の分野では、指揮官の意図を正確に把握し、視覚的文脈内で言語コマンドを実行することが大きな課題である。 本稿では,avs.our context-aware visual grounding (cavg) モデルを用いて,マルチモーダルデコーダを用いた5つのコアエンコーダ-テキスト,画像,コンテキスト,クロスモーダルの統合を実現する,高度なエンコーダ-デコーダフレームワークを提案する。 この統合により、CAVGモデルは文脈意味論を積極的に捉え、GPT-4を含む最先端の大規模言語モデル(LLM)によって強化された人間の感情的特徴を学ぶことができる。 cavgのアーキテクチャは、マルチヘッドクロスモーダルアテンション機構と、アテンション変調のための領域特異的ダイナミック(rsd)層の実装によって強化されている。 このアーキテクチャ設計により、モデルは様々なクロスモーダル入力を効率的に処理し、解釈することができ、言語コマンドと対応する視覚シーンの相関を包括的に理解することができる。 実世界のベンチマークであるTalk2Carデータセットに関する実証的な評価は、CAVGが予測精度と運用効率の新たな標準を確立することを実証している。 特にこのモデルは、データセット全体の50%から75%まで、限られたトレーニングデータでも例外的なパフォーマンスを示す。 この機能は、実用的なAVアプリケーションへのデプロイの有効性と可能性を強調している。 さらに、CAVGは、長文コマンド解釈、低照度条件、曖昧なコマンドコンテキスト、インクレーメント気象条件、人口密度の高い都市環境など、困難なシナリオにおいて、顕著な堅牢性と適応性を示した。 提案されたモデルのコードは、githubで入手できます。

In the field of autonomous vehicles (AVs), accurately discerning commander intent and executing linguistic commands within a visual context presents a significant challenge. This paper introduces a sophisticated encoder-decoder framework, developed to address visual grounding in AVs.Our Context-Aware Visual Grounding (CAVG) model is an advanced system that integrates five core encoders-Text, Image, Context, and Cross-Modal-with a Multimodal decoder. This integration enables the CAVG model to adeptly capture contextual semantics and to learn human emotional features, augmented by state-of-the-art Large Language Models (LLMs) including GPT-4. The architecture of CAVG is reinforced by the implementation of multi-head cross-modal attention mechanisms and a Region-Specific Dynamic (RSD) layer for attention modulation. This architectural design enables the model to efficiently process and interpret a range of cross-modal inputs, yielding a comprehensive understanding of the correlation between verbal commands and corresponding visual scenes. Empirical evaluations on the Talk2Car dataset, a real-world benchmark, demonstrate that CAVG establishes new standards in prediction accuracy and operational efficiency. Notably, the model exhibits exceptional performance even with limited training data, ranging from 50% to 75% of the full dataset. This feature highlights its effectiveness and potential for deployment in practical AV applications. Moreover, CAVG has shown remarkable robustness and adaptability in challenging scenarios, including long-text command interpretation, low-light conditions, ambiguous command contexts, inclement weather conditions, and densely populated urban environments. The code for the proposed model is available at our Github.
翻訳日:2023-12-07 14:36:23 公開日:2023-12-06
# 因果ダイヤモンドの熱場二重状態の経路積分による導出

Path integral derivation of the thermofield double state in causal diamonds ( http://arxiv.org/abs/2312.03541v1 )

ライセンス: Link先を確認
Abhijit Chakraborty, Carlos R. Ord\'o\~nez and Gustavo Valdivia-Mera(参考訳) 本稿では、R. Laflamme の論文 Physica A, 158, pg 58-63 (1989) で与えられた枠組みに従い、ユークリッド経路積分形式を用いた因果ダイヤモンドの熱場二重状態の導出を行い、その後、因果ダイヤモンド温度を導出する。 熱場二重状態における物理的および架空の系の解釈は、円柱状背景幾何学のユークリッド断面上で定義される場の境界条件から自然に生じ、ここで$\beta$ はユークリッド時間座標の周期性を定義し、$s^{1}_{\beta}$ は一次元球面(円)である。 静的ダイヤモンド観測者によって検出された温度は、この経路積分法によって導出される熱場二重温度と一致する。

In this article, we follow the framework given in the article Physica A, 158, pg 58-63 (1989) by R. Laflamme to derive the thermofield double state for a causal diamond using the Euclidean path integral formalism, and subsequently derive the causal diamond temperature. The interpretation of the physical and fictitious system in the thermofield double state arises naturally from the boundary conditions of the fields defined on the Euclidean sections of the cylindrical background geometry $S^{1}_{\beta}\times \mathbb{R}$, where $\beta$ defines the periodicity of the Euclidean time coordinate and $S^{1}_{\beta}$ is the one-dimensional sphere (circle). The temperature detected by a static diamond observer at $x=0$ matches with the thermofield double temperature derived via this path integral procedure.
翻訳日:2023-12-07 14:35:32 公開日:2023-12-06
# foodfusion:リアルな食品画像生成のための潜在拡散モデル

FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation ( http://arxiv.org/abs/2312.03540v1 )

ライセンス: Link先を確認
Olivia Markham and Yuhao Chen and Chi-en Amy Tai and Alexander Wong(参考訳) 後期拡散モデル(LDM)のような最先端の画像生成モデルは、視覚的に印象的な食品関連画像を生成する能力を示している。 しかし、これらの画像は、しばしば実世界の食品表現の真正性から逸脱する芸術的または超現実的品質を示す。 この不十分さは、イメージベースの食事アセスメントのトレーニングモデルなど、現実的な食品イメージを必要とするアプリケーションでは実用的ではない。 この制限に対処するために,本研究では,テキスト記述からリアルな食品イメージを忠実に合成するための潜在拡散モデルであるfoodfusionを紹介する。 foodfusionモデルの開発には、さまざまなオープンソース食品データセットを活用することで、30万以上のキュレートされたイメージキャプチャペアが生成される。 さらに,得られた画像とテキストのペアが現実性と正確性を維持するために,二つの異なるデータクリーニング手法を提案する。 このようにトレーニングされたFoodFusionモデルは、公開されている画像生成モデルよりも現実性と多様性の両方において顕著に改善された食品画像を生成する能力を示す。 我々は、この重要な食品画像合成分野の進歩をサポートするために、データセットと微調整されたモデルを、https://bit.ly/genai4good.comでオープンに共有します。

Current state-of-the-art image generation models such as Latent Diffusion Models (LDMs) have demonstrated the capacity to produce visually striking food-related images. However, these generated images often exhibit an artistic or surreal quality that diverges from the authenticity of real-world food representations. This inadequacy renders them impractical for applications requiring realistic food imagery, such as training models for image-based dietary assessment. To address these limitations, we introduce FoodFusion, a Latent Diffusion model engineered specifically for the faithful synthesis of realistic food images from textual descriptions. The development of the FoodFusion model involves harnessing an extensive array of open-source food datasets, resulting in over 300,000 curated image-caption pairs. Additionally, we propose and employ two distinct data cleaning methodologies to ensure that the resulting image-text pairs maintain both realism and accuracy. The FoodFusion model, thus trained, demonstrates a remarkable ability to generate food images that exhibit a significant improvement in terms of both realism and diversity over the publicly available image generation models. We openly share the dataset and fine-tuned models to support advancements in this critical field of food image synthesis at https://bit.ly/genai4good.
翻訳日:2023-12-07 14:35:05 公開日:2023-12-06
# 量子アニーリング技術の検証とベンチマーク

Validation and benchmarking of quantum annealing technology ( http://arxiv.org/abs/2312.03534v1 )

ライセンス: Link先を確認
Konrad Ja{\l}owiecki(参考訳) 本論文では,量子アニーラの検証とベンチマークの問題に焦点をあてる。 そこで本研究では,実世界の問題を解決するための2つのアルゴリズムを提案する。 第一のアルゴリズムは量子系の力学(あるいは実際に任意の力学系)を解くことができる。 提案アルゴリズムの2番目は,特定系統の鉄道送電問題を解くのに適している。 本論文で提示したイジングモデルを解くための2つの新しい古典的手法を用いて,現在のd波量子アニーラにおけるそれらのアルゴリズムの性能を評価する。 第一のテンソルネットワークベースのアプローチは、キメラのようなグラフ上で定義されたインスタンスを解決するために調整されたヒューリスティックなアルゴリズムであり、物理的なアニーラによる結果を比較することができるベースラインを提供するのに理想的である。 もう1つのアプローチは、全解空間における徹底的(ブルートフォース)探索の非常に並列な実装である。 brute-forceアプローチは中程度のインスタンスサイズに限定されているが、低エネルギースペクトルを計算し、解を証明できるという利点がある。 その結果、現在の量子アニーラは上記の問題のサブセットを解くことができることが示唆された。 特に,d-waveアニーラは,パラメータの特定の構造において単純な量子システムのダイナミクスを捉えることができ,鉄道紛争管理問題の良質な解を得るのに利用できることを示す。 最後に, 現状のD-Waveアニーラーは完璧には程遠いことが示唆された。 我々は,アニーラーズがよい解,あるいは実現可能な解を見つけられなかった問題事例について議論する。 我々はまた、可能であれば、提示された問題のいくつかがアニーラーにとって困難である理由について、合理的な説明を提供する。

In this thesis, we focus on the problem of validating and benchmarking quantum annealers. To this end, we propose two algorithms for solving real-world problems and test how they perform on the current generation of quantum annealers. The first algorithm allows for solving the dynamics of quantum systems (or, in fact, any dynamical systems). The second of the proposed algorithms is suitable for solving a particular family of railway dispatching problems. We assess the performance of those algorithms on the current generation of D-Wave quantum annealers with the assistance of two novel, classical strategies for solving an Ising model also presented in the thesis. The first, tensor network-based approach is a heuristic algorithm tailored for solving instances defined on Chimera-like graphs, thus making it ideal for providing a baseline with which the results from physical annealers can be compared. The other presented approach is a massively parallel implementation of the exhaustive (brute-force) search through the whole solution space. Although the brute-force approach is limited to moderate instance sizes, it has the advantage of being able to compute the low energy spectrum and certify the solutions. Our results suggest that present-day quantum annealers are able to solve a subset of the aforementioned problems. In particular, we show that the D-Wave annealers are capable of capturing the dynamics of a simple quantum system in a specific regime of parameters, and can be used to obtain good-quality solutions for instances of railway conflict management problems. Finally, our findings indicate that the current generation of D-Wave annealers is far from perfect. We discuss problem instances for which the annealers failed to find a good or even feasible solution. We also provide, where possible, a plausible explanation of why some of the presented problems might be hard for the annealers.
翻訳日:2023-12-07 14:34:23 公開日:2023-12-06
# 相互排他バイアスを用いた低ショット物体学習

Low-shot Object Learning with Mutual Exclusivity Bias ( http://arxiv.org/abs/2312.03533v1 )

ライセンス: Link先を確認
Anh Thai, Ahmad Humayun, Stefan Stojanov, Zixuan Huang, Bikram Boote, James M. Rehg(参考訳) 本稿では,幼児の単語学習でよく見られる現象である,相互排他バイアス(lsme)を用いた低ショット物体学習について述べる。 我々は、MLコミュニティがこの挑戦的な学習課題に対処できるように、新しいデータセット、包括的なベースライン、最先端の手法を提供する。 lsmeの目標は、複数のオブジェクトを含むシーンのrgbイメージを分析し、既知のオブジェクトインスタンスと提供されたカテゴリラベルを正しく関連付けることである。 このアソシエーションは、カテゴリの一般化をテストするためにローショット学習を行うために使用される。 我々はLSME問題のためのデータ生成パイプラインを提供し、その難しさに寄与する要因を徹底的に分析する。 さらに,最先端基礎モデルを含む複数のベースラインの性能評価を行った。 最後に,低ショット精度で最先端モデルより優れたベースライン手法を提案する。

This paper introduces Low-shot Object Learning with Mutual Exclusivity Bias (LSME), the first computational framing of mutual exclusivity bias, a phenomenon commonly observed in infants during word learning. We provide a novel dataset, comprehensive baselines, and a state-of-the-art method to enable the ML community to tackle this challenging learning task. The goal of LSME is to analyze an RGB image of a scene containing multiple objects and correctly associate a previously-unknown object instance with a provided category label. This association is then used to perform low-shot learning to test category generalization. We provide a data generation pipeline for the LSME problem and conduct a thorough analysis of the factors that contribute to its difficulty. Additionally, we evaluate the performance of multiple baselines, including state-of-the-art foundation models. Finally, we present a baseline approach that outperforms state-of-the-art models in terms of low-shot accuracy.
翻訳日:2023-12-07 14:33:52 公開日:2023-12-06
# カットオフブレーンとカーク・ランダルブレーン--変動するケース

Cutoff brane vs the Karch-Randall brane: the fluctuating case ( http://arxiv.org/abs/2312.03531v1 )

ライセンス: Link先を確認
Jiong Lin, Yizhou Lu, Qiang Wen(参考訳) 近年,ads$_3$/bcft$_2$対応 \cite{basu:2022crn,basu:2023wmv} の主な特徴を捉えるためのホログラフィック変換 cft$_2$ が提案されている。 本稿では,ワイル変換を適用することにより,KR(Karch-Randall)ブレーンの変動を考慮した一般化AdS/BCFTセットアップをシミュレートする。 ワイル変換CFTの重力双対では、ワイル変換によって誘導されるいわゆるカットオフブレーンがKRブレーンと同じ役割を果たす。 変動しない構成とは異なり、2d$の有効理論では、余分なツイスト演算子はブレーンに挿入されたものと異なる場所で挿入される。 これはワイル変換 CFT のセットアップでよく理解されているが、実効理論がブレーン上にあるはずの AdS/BCFT のセットアップでは混乱している。 この混乱は、KRブレーンがワイル変換を介して境界 CFT$_2$ から出現することを示している。 また,変動ブレーン構成における平衡部分絡み合い(bpe)を計算し,絡み合いくさみ断面(ewcs)と一致していることを見いだした。 これは BPE と EWCS の対応に対する非自明なテストであり、ワイル変換 CFT セットアップに対する非自明な整合性チェックである。

Recently, certain holographic Weyl transformed CFT$_2$ is proposed to capture the main features of the AdS$_3$/BCFT$_2$ correspondence \cite{Basu:2022crn,Basu:2023wmv}. In this paper, by adapting the Weyl transformation, we simulate a generalized AdS/BCFT set-up where the fluctuation of the Karch-Randall (KR) brane is considered. In the gravity dual of the Weyl transformed CFT, the so-called cutoff brane induced by the Weyl transformation plays the same role as the KR brane. Unlike the non-fluctuating configuration, in the $2d$ effective theory the additional twist operator is inserted at a different places, compared with the one inserted on the brane. Though this is well-understood in the Weyl transformed CFT set-up, it is confusing in the AdS/BCFT set-up where the effective theory is supposed to locate on the brane. This confusion indicates that the KR brane may be emergent from the boundary CFT$_2$ via the Weyl transformations. We also calculate the balanced partial entanglement (BPE) in the fluctuating brane configurations and find it coincide with the entanglement wedge cross-section (EWCS). This is a non-trivial test for the correspondence between the BPE and the EWCS, and a non-trivial consistency check for the Weyl transformed CFT set-up.
翻訳日:2023-12-07 14:33:15 公開日:2023-12-06
# パーソナライズされたポーズ予測

Personalized Pose Forecasting ( http://arxiv.org/abs/2312.03528v1 )

ライセンス: Link先を確認
Maria Priisalu, Ted Kronvall, Cristian Sminchisescu(参考訳) 人間のポーズ予測(Human pose forecasting)とは、人間の動作の過去の動きを予測するタスクである。 人間のポーズ予測を行うさまざまなモデルの配列を評価する、人気のあるベンチマークが数多く存在する。 これらのベンチマークは、配達ロボットのような人間のインタラクションシステムが、長期間にわたって同じ個人の動きを観察し計画していることを反映していない。 各個人は独自の動きパターンを持っている。 しかし、これはモデルが特定の個人よりも平均的な人間の動きを予測する能力を評価する既存のベンチマークには反映されていない。 本稿では,人間の運動予測問題を再構成し,モデル非依存なパーソナライゼーション手法を提案する。 ニューラルネットワークのポーズ予測をパーソナライズする低パラメータ時系列分析モデルを利用して、動作予測パーソナライズをオンライン上で効率的に行うことができる。

Human pose forecasting is the task of predicting articulated human motion given past human motion. There exists a number of popular benchmarks that evaluate an array of different models performing human pose forecasting. These benchmarks do not reflect that a human interacting system, such as a delivery robot, observes and plans for the motion of the same individual over an extended period of time. Every individual has unique and distinct movement patterns. This is however not reflected in existing benchmarks that evaluate a model's ability to predict an average human's motion rather than a particular individual's. We reformulate the human motion forecasting problem and present a model-agnostic personalization method. Motion forecasting personalization can be performed efficiently online by utilizing a low-parametric time-series analysis model that personalizes neural network pose predictions.
翻訳日:2023-12-07 14:32:47 公開日:2023-12-06
# 蒸留データセットの多様性と現実性:効率的な蒸留パラダイム

On the Diversity and Realism of Distilled Dataset: An Efficient Dataset Distillation Paradigm ( http://arxiv.org/abs/2312.03526v1 )

ライセンス: Link先を確認
Peng Sun, Bei Shi, Daiwei Yu, Tao Lin(参考訳) 現代の機械学習では、大規模なデータセット上で大規模ニューラルネットワークをトレーニングする必要があるため、高い計算要求の課題に直面する。 最近の新興戦略であるデータセット蒸留は、効率的なトレーニングのために現実世界のデータセットを圧縮することを目的としている。 しかし、この一連の研究は大規模で高解像度なデータセットに苦しめられ、その実用性と実現性を妨げている。 この目的のため、既存のデータセット蒸留法を再検討し、大規模な実世界のアプリケーションに必要な3つの特性、すなわちリアリズム、多様性、効率性を特定する。 そこで,我々はrdedを提案する。rdedは計算効率が高く効率的なデータ蒸留パラダイムであり,蒸留データの多様性とリアリズムを両立させる。 1つのrtx-4090 gpu上でresnet-18で注目すべき42%のtop-1精度を達成した(sotaは21%しか達成していないが、6時間を要する)。

Contemporary machine learning requires training large neural networks on massive datasets and thus faces the challenges of high computational demands. Dataset distillation, as a recent emerging strategy, aims to compress real-world datasets for efficient training. However, this line of research currently struggle with large-scale and high-resolution datasets, hindering its practicality and feasibility. To this end, we re-examine the existing dataset distillation methods and identify three properties required for large-scale real-world applications, namely, realism, diversity, and efficiency. As a remedy, we propose RDED, a novel computationally-efficient yet effective data distillation paradigm, to enable both diversity and realism of the distilled data. Extensive empirical results over various neural architectures and datasets demonstrate the advancement of RDED: we can distill the full ImageNet-1K to a small dataset comprising 10 images per class within 7 minutes, achieving a notable 42% top-1 accuracy with ResNet-18 on a single RTX-4090 GPU (while the SOTA only achieves 21% but requires 6 hours).
翻訳日:2023-12-07 14:32:35 公開日:2023-12-06
# Sig-Networks Toolkit: 縦型言語モデリングのための署名ネットワーク

Sig-Networks Toolkit: Signature Networks for Longitudinal Language Modelling ( http://arxiv.org/abs/2312.03523v1 )

ライセンス: Link先を確認
Talia Tseriotou, Ryan Sze-Yin Chan, Adam Tsakalidis, Iman Munire Bilal, Elena Kochkina, Terry Lyons, Maria Liakata(参考訳) Sig-Networksは、長手言語モデリングの第一種として、オープンソースの、ピップインストール可能なツールキットである。 中心的な焦点は署名に基づくニューラルネットワークモデルの導入であり、これは最近、時間的タスクの成功を示している。 我々は、シグネチャベースモデルの全スイートを提供する公開研究を適用し、拡張する。 彼らのコンポーネントは、将来のアーキテクチャでPyTorchビルディングブロックとして使用できる。 sig-networksはタスクに依存しないデータセットプラグイン、シーケンシャルデータのシームレスな前処理、パラメータの柔軟性、さまざまなモデルに対する自動チューニングを可能にする。 ソーシャルメディアスレッドにおけるカウンセリング会話,噂のスタンススイッチ,気分変化など,時間的粒度の異なる3つのNLPタスクのシグネチャネットワークについて検討し,これら3つのタスクのSOTAパフォーマンスを示すとともに,今後のタスクのガイダンスを提供する。 導入ビデオ、プリプロセッシングとモデリングのためのgitリポジトリ、モデリングされたnlpタスクのサンプルノートブックを含む、pytorchパッケージとしてツールキットをリリースします。

We present an open-source, pip installable toolkit, Sig-Networks, the first of its kind for longitudinal language modelling. A central focus is the incorporation of Signature-based Neural Network models, which have recently shown success in temporal tasks. We apply and extend published research providing a full suite of signature-based models. Their components can be used as PyTorch building blocks in future architectures. Sig-Networks enables task-agnostic dataset plug-in, seamless pre-processing for sequential data, parameter flexibility, automated tuning across a range of models. We examine signature networks under three different NLP tasks of varying temporal granularity: counselling conversations, rumour stance switch and mood changes in social media threads, showing SOTA performance in all three, and provide guidance for future tasks. We release the Toolkit as a PyTorch package with an introductory video, Git repositories for preprocessing and modelling including sample notebooks on the modeled NLP tasks.
翻訳日:2023-12-07 14:32:17 公開日:2023-12-06
# 動的火災・煙中におけるドローンの最適避難経路計画

Optimal Wildfire Escape Route Planning for Drones under Dynamic Fire and Smoke ( http://arxiv.org/abs/2312.03521v1 )

ライセンス: Link先を確認
Chang Liu and Tamas Sziranyi(参考訳) 近年、山火事の流行と激しさは、緊急対応チームにとって大きな課題となっている。 無人航空機(UAV)の利用は、一般にドローンとして知られており、山火事管理の取り組みを支援することを約束している。 本研究は,動的火災モデルと煙モデルを考慮した,ドローン専用に設計されたワイルドファイア脱出経路計画システムの開発に焦点を当てたものである。 まず、UAVと衛星との情報融合により、山火事発生源の位置をよく把握することができ、多チャンネルリモートセンシングデータを用いて、火災付近の道路状況を評価し、解析することができる。 第2に、UAVビジョン技術を用いて道路ネットワークをリアルタイムで抽出・分割することができ、道路条件分類の結果に基づいて道路ネットワークマップの各道路に優先順位を付けることができる。 第3に、動的火災の拡散モデルは、火の強度、風速、方向に基づいて火源の新しい位置を計算し、野火が広がるにつれて半径が増加する。 煙は火源の周りで発生し、燃える火の視覚的表現を作成する。 最後に、上記の要因をすべて考慮した改良されたA*アルゴリズムに基づいて、UAVは、発火源の位置と拡散している領域を避ける出発点と目的地の位置に基づいて、避難経路を迅速に計画することができる。 火と煙の動的モデルを考えることで,提案システムは,野火環境におけるドローン操作の安全性と効率を向上させる。

In recent years, the increasing prevalence and intensity of wildfires have posed significant challenges to emergency response teams. The utilization of unmanned aerial vehicles (UAVs), commonly known as drones, has shown promise in aiding wildfire management efforts. This work focuses on the development of an optimal wildfire escape route planning system specifically designed for drones, considering dynamic fire and smoke models. First, the location of the source of the wildfire can be well located by information fusion between UAV and satellite, and the road conditions in the vicinity of the fire can be assessed and analyzed using multi-channel remote sensing data. Second, the road network can be extracted and segmented in real time using UAV vision technology, and each road in the road network map can be given priority based on the results of road condition classification. Third, the spread model of dynamic fires calculates the new location of the fire source based on the fire intensity, wind speed and direction, and the radius increases as the wildfire spreads. Smoke is generated around the fire source to create a visual representation of a burning fire. Finally, based on the improved A* algorithm, which considers all the above factors, the UAV can quickly plan an escape route based on the starting and destination locations that avoid the location of the fire source and the area where it is spreading. By considering dynamic fire and smoke models, the proposed system enhances the safety and efficiency of drone operations in wildfire environments.
翻訳日:2023-12-07 14:31:58 公開日:2023-12-06
# 畳み込みオートエンコーダによる敵攻撃に対する防御

Defense Against Adversarial Attacks using Convolutional Auto-Encoders ( http://arxiv.org/abs/2312.03520v1 )

ライセンス: Link先を確認
Shreyasi Mandal(参考訳) ディープラーニングモデルは、多くのタスクで最先端のパフォーマンスを達成する一方で、アーキテクチャに固有の脆弱性を悪用する敵攻撃の影響を受けやすい。 逆攻撃は入力データを不可避な摂動で操作し、モデルがデータを誤分類したり誤った出力を生成する。 この研究は、敵攻撃に対する標的分類器モデルの堅牢性を高めることに基づいている。 これを実現するために、畳み込みオートエンコーダに基づくアプローチを用いて、入力画像に導入された対向的摂動を効果的に抑制する。 入力画像によく似た画像を生成することにより,提案手法はモデルの精度を回復することを目的としている。

Deep learning models, while achieving state-of-the-art performance on many tasks, are susceptible to adversarial attacks that exploit inherent vulnerabilities in their architectures. Adversarial attacks manipulate the input data with imperceptible perturbations, causing the model to misclassify the data or produce erroneous outputs. This work is based on enhancing the robustness of targeted classifier models against adversarial attacks. To achieve this, an convolutional autoencoder-based approach is employed that effectively counters adversarial perturbations introduced to the input images. By generating images closely resembling the input images, the proposed methodology aims to restore the model's accuracy.
翻訳日:2023-12-07 14:31:34 公開日:2023-12-06
# DiffusionSat: 衛星画像のための生成基盤モデル

DiffusionSat: A Generative Foundation Model for Satellite Imagery ( http://arxiv.org/abs/2312.03606v1 )

ライセンス: Link先を確認
Samar Khanna, Patrick Liu, Linqi Zhou, Chenlin Meng, Robin Rombach, Marshall Burke, David Lobell, Stefano Ermon(参考訳) 拡散モデルは、画像、音声、ビデオを含む多くのモダリティで最先端の結果を得た。 しかし、既存のモデルはリモートセンシングデータをサポートするように調整されておらず、環境モニタリングや収穫量予測といった重要な応用に広く利用されている。 衛星画像は自然画像とは大きく異なる -- マルチスペクトルで、時間をかけて不規則にサンプリングできる -- であり、Webの画像でトレーニングされた既存の拡散モデルはそれらをサポートしない。 さらに、リモートセンシングデータは本質的に時空間であり、キャプションや画像に基づく従来の手法ではサポートされない条件生成タスクを必要とする。 本稿では,広く入手可能な大規模かつ高解像度なリモートセンシングデータセットのコレクション上でトレーニングされた,最大規模の生成基盤モデルである diffusionsat を提案する。 衛星画像にはテキストベースのキャプションが少ないため、位置情報などの関連メタデータを条件情報として組み込む。 本手法は現実的なサンプルを生成し,時間生成,多重スペクトル入力による超解像,イン・ペインティングといった複数の生成タスクを解決できる。 本手法は,従来の衛星画像生成手法よりも優れており,衛星画像の基礎モデルとしては最初の大規模$\textit{generative}$である。

Diffusion models have achieved state-of-the-art results on many modalities including images, speech, and video. However, existing models are not tailored to support remote sensing data, which is widely used in important applications including environmental monitoring and crop-yield prediction. Satellite images are significantly different from natural images -- they can be multi-spectral, irregularly sampled across time -- and existing diffusion models trained on images from the Web do not support them. Furthermore, remote sensing data is inherently spatio-temporal, requiring conditional generation tasks not supported by traditional methods based on captions or images. In this paper, we present DiffusionSat, to date the largest generative foundation model trained on a collection of publicly available large, high-resolution remote sensing datasets. As text-based captions are sparsely available for satellite images, we incorporate the associated metadata such as geolocation as conditioning information. Our method produces realistic samples and can be used to solve multiple generative tasks including temporal generation, superresolution given multi-spectral inputs and in-painting. Our method outperforms previous state-of-the-art methods for satellite image generation and is the first large-scale $\textit{generative}$ foundation model for satellite imagery.
翻訳日:2023-12-07 14:25:26 公開日:2023-12-06
# MMM:生成的マスク運動モデル

MMM: Generative Masked Motion Model ( http://arxiv.org/abs/2312.03596v1 )

ライセンス: Link先を確認
Ekkasit Pinyoanuntapong, Pu Wang, Minwoo Lee, Chen Chen(参考訳) 拡散モデルと自己回帰モデルを用いたテキスト対運動生成の最近の進歩は、有望な結果を示している。 しかし、これらのモデルは、しばしばリアルタイムパフォーマンス、高い忠実度、そして動画編集性の間のトレードオフに苦しむ。 このギャップに対処するために,マスクドモーションモデルに基づいた,新しい,かつシンプルなモーション生成パラダイムmmmを紹介する。 MMMは,(1)3次元人間の動きを潜在空間内の離散トークンの列に変換するモーショントークンライザ,(2)予め計算されたテキストトークンに条件付けされたランダムなマスク付きモーショントークンの予測を学習する条件付きマスク付きモーショントランスフォーマーの2つの重要な構成要素から構成される。 あらゆる方向に動きやテキストトークンに出席することで、MMMはモーショントークン間の固有の依存関係と、モーショントークンとテキストトークン間のセマンティックマッピングを明示的にキャプチャする。 推論の間、これは細かなテキスト記述と高い一貫性を持つ複数の動きトークンの並列および反復的なデコードを可能にするため、忠実度と高速の動作生成を同時に実現する。 さらに、MMMは自然に動きを編集できる。 編集が必要な場所にマスクトークンを配置するだけで、mmmは自動的にギャップを埋めると同時に、編集と非編集間のスムーズな遷移を保証する。 HumanML3D と KIT-ML データセットの大規模な実験により、MMM は高品質な動作(FID スコアが 0.08 と 0.429 より優れていると推定される)を生成する上で、現在の先進的な手法を超越し、ボディ部分修正、モーション・イン・ベントワイニング、ロングモーション・シーケンスの合成などの高度な編集機能を提供する。 さらに、MMMは編集可能な運動拡散モデルよりも1つの中距離GPUで2桁高速である。 プロジェクトページは \url{https://exitudio.github.io/mmm-page} で閲覧できます。

Recent advances in text-to-motion generation using diffusion and autoregressive models have shown promising results. However, these models often suffer from a trade-off between real-time performance, high fidelity, and motion editability. To address this gap, we introduce MMM, a novel yet simple motion generation paradigm based on Masked Motion Model. MMM consists of two key components: (1) a motion tokenizer that transforms 3D human motion into a sequence of discrete tokens in latent space, and (2) a conditional masked motion transformer that learns to predict randomly masked motion tokens, conditioned on the pre-computed text tokens. By attending to motion and text tokens in all directions, MMM explicitly captures inherent dependency among motion tokens and semantic mapping between motion and text tokens. During inference, this allows parallel and iterative decoding of multiple motion tokens that are highly consistent with fine-grained text descriptions, therefore simultaneously achieving high-fidelity and high-speed motion generation. In addition, MMM has innate motion editability. By simply placing mask tokens in the place that needs editing, MMM automatically fills the gaps while guaranteeing smooth transitions between editing and non-editing parts. Extensive experiments on the HumanML3D and KIT-ML datasets demonstrate that MMM surpasses current leading methods in generating high-quality motion (evidenced by superior FID scores of 0.08 and 0.429), while offering advanced editing features such as body-part modification, motion in-betweening, and the synthesis of long motion sequences. In addition, MMM is two orders of magnitude faster on a single mid-range GPU than editable motion diffusion models. Our project page is available at \url{https://exitudio.github.io/MMM-page}.
翻訳日:2023-12-07 14:25:04 公開日:2023-12-06
# タスクは価値ある1ワード:高画質のVersatile Image Inpaintingのためのタスクプロンプトによる学習

A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting ( http://arxiv.org/abs/2312.03594v1 )

ライセンス: Link先を確認
Junhao Zhuang, Yanhong Zeng, Wenran Liu, Chun Yuan, Kai Chen(参考訳) ユーザの指定した領域がユーザの意図に応じて妥当なコンテンツで満たされる、高品質な多彩なイメージインペインティングの実現には、大きな課題がある。 既存の手法では、適切なトレーニング戦略が必要となるため、コンテキスト認識画像の塗り込みとテキスト誘導オブジェクトの塗り込みを同時に扱うのが困難である。 この課題を克服するために、私たちはpowerpaintを紹介します。powerpaintは、両方のタスクに優れた、最初の高品質で多用途なインペインティングモデルです。 まず、学習可能なタスクプロンプトと調整された微調整戦略を導入し、モデルの焦点を異なる塗りつぶしターゲットに明示的に導く。 これによりPowerPaintは、さまざまなタスクプロンプトを利用することで、さまざまなインペイントタスクを達成できる。 第2に,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。 さらに,プロンプト補間手法を活用し,形状誘導型オブジェクトのインパインティングを制御可能とした。 最後に,様々なインパインティングベンチマークでPowerPaintを広範囲に評価し,多彩な画像インパインティングの優れた性能を示す。 当社のプロジェクトページでは、コードとモデルを公開しています。

Achieving high-quality versatile image inpainting, where user-specified regions are filled with plausible content according to user intent, presents a significant challenge. Existing methods face difficulties in simultaneously addressing context-aware image inpainting and text-guided object inpainting due to the distinct optimal training strategies required. To overcome this challenge, we introduce PowerPaint, the first high-quality and versatile inpainting model that excels in both tasks. First, we introduce learnable task prompts along with tailored fine-tuning strategies to guide the model's focus on different inpainting targets explicitly. This enables PowerPaint to accomplish various inpainting tasks by utilizing different task prompts, resulting in state-of-the-art performance. Second, we demonstrate the versatility of the task prompt in PowerPaint by showcasing its effectiveness as a negative prompt for object removal. Additionally, we leverage prompt interpolation techniques to enable controllable shape-guided object inpainting. Finally, we extensively evaluate PowerPaint on various inpainting benchmarks to demonstrate its superior performance for versatile image inpainting. We release our codes and models on our project page: https://powerpaint.github.io/.
翻訳日:2023-12-07 14:24:29 公開日:2023-12-06
# 言語による視覚概念学習

Language-Informed Visual Concept Learning ( http://arxiv.org/abs/2312.03587v1 )

ライセンス: Link先を確認
Sharon Lee, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu(参考訳) 視覚的世界に対する我々の理解は、視覚的実体の異なる側面を特徴付ける様々な概念軸を中心にしている。 異なる概念軸は言語によって容易に特定できるが、例えば色は、それぞれの軸に沿った正確な視覚的ニュアンスはしばしば、特定の絵画様式のような言語的調音の限界を超える。 本研究の目的は,事前学習した視覚言語モデルを用いて,言語に内在する視覚概念表現を学習することである。 具体的には,学習済みのテキスト・トゥ・イメージ(T2I)モデルを用いて,入力画像の再生を目的とした,言語インフォームド・コンセプト・軸の集合に関連する情報を符号化する概念エンコーダのセットを訓練する。 異なる概念エンコーダの絡み合いを改善するために、事前学習された視覚質問応答(vqa)モデルから得られる一連のテキスト埋め込みに概念埋め込みを固定する。 推論時に、新しいテスト画像から様々な軸に沿った概念埋め込みを抽出し、それをリミックスして視覚概念の新規な構成で画像を生成する。 ライトウェイトなテストタイムの微調整手順により、トレーニングで見えない新しい概念にも一般化できる。

Our understanding of the visual world is centered around various concept axes, characterizing different aspects of visual entities. While different concept axes can be easily specified by language, e.g. color, the exact visual nuances along each axis often exceed the limitations of linguistic articulations, e.g. a particular style of painting. In this work, our goal is to learn a language-informed visual concept representation, by simply distilling large pre-trained vision-language models. Specifically, we train a set of concept encoders to encode the information pertinent to a set of language-informed concept axes, with an objective of reproducing the input image through a pre-trained Text-to-Image (T2I) model. To encourage better disentanglement of different concept encoders, we anchor the concept embeddings to a set of text embeddings obtained from a pre-trained Visual Question Answering (VQA) model. At inference time, the model extracts concept embeddings along various axes from new test images, which can be remixed to generate images with novel compositions of visual concepts. With a lightweight test-time finetuning procedure, it can also generalize to novel concepts unseen at training.
翻訳日:2023-12-07 14:24:06 公開日:2023-12-06
# 弱教師付きセマンティックセグメンテーションを支援する基礎モデル

Foundation Model Assisted Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2312.03585v1 )

ライセンス: Link先を確認
Xiaobo Yang and Xiaojin Gong(参考訳) 本研究の目的は, 画像レベルのラベルを用いた弱教師付きセマンティックセマンティックセグメンテーション (WSSS) に対処するために, コントラッシブ言語イメージ事前学習 (CLIP) やSAMセグメンテーションアプライアンスモデル (SAM) などの事前訓練された基礎モデルを活用することである。 そこで本研究では,高品質なセグメンテーション種子を生成するためのCLIPとSAMに基づく粗粒度フレームワークを提案する。 具体的には,CLIPが凍結重量と2組の学習可能なタスク固有のプロンプトで共同で行う画像分類タスクとシードセグメンテーションタスクを構築する。 SAM-based seeding (SAMS) モジュールは、粗いシードマップまたは細かなシードマップを生成するために各タスクに設計および適用される。 さらに,画像レベルラベルに教師付きマルチラベルコントラスト損失と,生成した粗いシードマップに教師付されたカムアクティベーション損失をデザインする。 これらの損失は、私たちのフレームワークで学ぶべき唯一の部分であるプロンプトを学ぶために使用されます。 ひとたびプロンプトが学習されると、学習したセグメンテーション固有のプロンプトとともにCLIPとSAMSモジュールに各イメージを入力し、高品質なセグメンテーションシードを生成する。 これらのシードは、他の2段階のWSSSメソッドと同様に、市販のセグメンテーションネットワークをトレーニングするための擬似ラベルとして機能する。 実験により, PASCAL VOC 2012の最先端性能とMS COCO 2014の競争結果が得られた。

This work aims to leverage pre-trained foundation models, such as contrastive language-image pre-training (CLIP) and segment anything model (SAM), to address weakly supervised semantic segmentation (WSSS) using image-level labels. To this end, we propose a coarse-to-fine framework based on CLIP and SAM for generating high-quality segmentation seeds. Specifically, we construct an image classification task and a seed segmentation task, which are jointly performed by CLIP with frozen weights and two sets of learnable task-specific prompts. A SAM-based seeding (SAMS) module is designed and applied to each task to produce either coarse or fine seed maps. Moreover, we design a multi-label contrastive loss supervised by image-level labels and a CAM activation loss supervised by the generated coarse seed map. These losses are used to learn the prompts, which are the only parts need to be learned in our framework. Once the prompts are learned, we input each image along with the learned segmentation-specific prompts into CLIP and the SAMS module to produce high-quality segmentation seeds. These seeds serve as pseudo labels to train an off-the-shelf segmentation network like other two-stage WSSS methods. Experiments show that our method achieves the state-of-the-art performance on PASCAL VOC 2012 and competitive results on MS COCO 2014.
翻訳日:2023-12-07 14:23:44 公開日:2023-12-06
# コンテキスト拡散:コンテキスト内認識画像生成

Context Diffusion: In-Context Aware Image Generation ( http://arxiv.org/abs/2312.03584v1 )

ライセンス: Link先を確認
Ivona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan, Vignesh Ramanathan, Filip Radenovic(参考訳) コンテキスト拡散(Context Diffusion)は、画像生成モデルがコンテキストで提示された視覚的な例から学習できるようにする拡散ベースのフレームワークである。 近年の作業では、コンテキストサンプルやテキストプロンプトとともにクエリ画像を提供する画像生成のためのコンテキスト内学習に取り組みつつある。 しかし、生成した画像の品質と忠実度は、プロンプトが存在しないときに低下し、これらのモデルが視覚的文脈から真に学習できないことを示す。 そこで本稿では,視覚的コンテキストのエンコーディングを分離し,クエリ画像の構造を保存する新しいフレームワークを提案する。 これにより、視覚的コンテキストやテキストのプロンプトから学ぶことができるだけでなく、どちらかから学ぶこともできる。 さらに,本モデルでは,多種多様なコンテキスト内学習シナリオを効果的に扱うことができる。 実験とユーザスタディにより、コンテキストの拡散がドメイン内タスクとドメイン外タスクの両方において優れていることが示され、その結果、対応するモデルと比較して画質と忠実度が全体的に向上した。

We propose Context Diffusion, a diffusion-based framework that enables image generation models to learn from visual examples presented in context. Recent work tackles such in-context learning for image generation, where a query image is provided alongside context examples and text prompts. However, the quality and fidelity of the generated images deteriorate when the prompt is not present, demonstrating that these models are unable to truly learn from the visual context. To address this, we propose a novel framework that separates the encoding of the visual context and preserving the structure of the query images. This results in the ability to learn from the visual context and text prompts, but also from either one of them. Furthermore, we enable our model to handle few-shot settings, to effectively address diverse in-context learning scenarios. Our experiments and user study demonstrate that Context Diffusion excels in both in-domain and out-of-domain tasks, resulting in an overall enhancement in image quality and fidelity compared to counterpart models.
翻訳日:2023-12-07 14:23:14 公開日:2023-12-06
# 不変性と因果表現学習:展望と限界

Invariance & Causal Representation Learning: Prospects and Limitations ( http://arxiv.org/abs/2312.03580v1 )

ライセンス: Link先を確認
Simon Bing, Jonas Wahl, Urmi Ninad, Jakob Runge(参考訳) 因果モデルでは、与えられたメカニズムは他のメカニズムの変化に不変であると仮定される。 この原理は因果変数が観測される場合の推論に利用されてきたが、興味のある変数が潜在している場合の理論的な洞察はほとんど失われている。 因果変数を識別するには不変性のみが不十分であることを示す不確実性結果を確立することにより,不分散と因果表現学習の関係を検証した。 実用的考察とともに,これらの理論的な知見を用いて,不変性を利用して表現を識別するための追加的な制約の必要性を強調する。

In causal models, a given mechanism is assumed to be invariant to changes of other mechanisms. While this principle has been utilized for inference in settings where the causal variables are observed, theoretical insights when the variables of interest are latent are largely missing. We assay the connection between invariance and causal representation learning by establishing impossibility results which show that invariance alone is insufficient to identify latent causal variables. Together with practical considerations, we use these theoretical findings to highlight the need for additional constraints in order to identify representations by exploiting invariance.
翻訳日:2023-12-07 14:22:55 公開日:2023-12-06
# 自然言語理解におけるバイアスエキスパートによるバイアス軽減

Improving Bias Mitigation through Bias Experts in Natural Language Understanding ( http://arxiv.org/abs/2312.03577v1 )

ライセンス: Link先を確認
Eojin Jeon, Mingyu Lee, Juhyeong Park, Yeachan Kim, Wing-Lam Mok, SangKeun Lee(参考訳) データセット内のバイアスにより、しばしばモデルが分散データで高いパフォーマンスを達成できるが、分散データでは不十分である。 ネットワーク上のバイアスの有害な影響を軽減するため、従来の研究は、明示的なバイアスラベルで訓練された補助モデルによって識別されるバイアスの例を減じるデバイアス手法を提案している。 しかし、データセットにバイアスのタイプを見つけるのはコストのかかるプロセスです。 そこで,近年の研究では,モデルの学習環境やモデル自体の能力を制限することで,バイアスラベルの指導(あるいはアノテーション)なしに補助モデルに偏りを持たせようとしている。 近年の研究で有望な偏りがあるにもかかわらず、補助モデルの訓練に自然に用いられてきた多クラス学習目標は、その正規化効果とクラス間の競合性によってバイアス緩和効果を損なう可能性がある。 代替として、補助モデルと主モデルの間の二項分類を導入し、バイアスエキスパートをつくりだす新しいデバイアス化フレームワークを提案する。 具体的には、各バイアスエキスパートは、One-vs-Restアプローチを介して、多クラス分類タスクから派生したバイナリ分類タスクで訓練される。 実験の結果,提案手法は補助モデルのバイアス識別能力を向上することが示された。 その結果、デバイアスモデルは、さまざまなチャレンジデータセットで最先端を一貫して上回っています。

Biases in the dataset often enable the model to achieve high performance on in-distribution data, while poorly performing on out-of-distribution data. To mitigate the detrimental effect of the bias on the networks, previous works have proposed debiasing methods that down-weight the biased examples identified by an auxiliary model, which is trained with explicit bias labels. However, finding a type of bias in datasets is a costly process. Therefore, recent studies have attempted to make the auxiliary model biased without the guidance (or annotation) of bias labels, by constraining the model's training environment or the capability of the model itself. Despite the promising debiasing results of recent works, the multi-class learning objective, which has been naively used to train the auxiliary model, may harm the bias mitigation effect due to its regularization effect and competitive nature across classes. As an alternative, we propose a new debiasing framework that introduces binary classifiers between the auxiliary model and the main model, coined bias experts. Specifically, each bias expert is trained on a binary classification task derived from the multi-class classification task via the One-vs-Rest approach. Experimental results demonstrate that our proposed strategy improves the bias identification ability of the auxiliary model. Consequently, our debiased model consistently outperforms the state-of-the-art on various challenge datasets.
翻訳日:2023-12-07 14:22:45 公開日:2023-12-06
# 蛍光寿命のホン・ウー・マンデルセンシング

Fluorescence Lifetime Hong-Ou-Mandel Sensing ( http://arxiv.org/abs/2312.03575v1 )

ライセンス: Link先を確認
Ashley Lyons, Vytautas Zickus, Ra\'ul \'Alvarez-Mendoza, Danilo Triggiani, Vincenzo Tamma, Niclas Westerberg, Manlio Tassieri, Daniele Faccio(参考訳) 時間領域における蛍光寿命イメージング顕微鏡は通常、電子タイムタグまたはゲート検出器を用いて光子の到着時刻を記録することによって行われる。 このように、時間分解能はエレクトロニクスの性能によって100ピコ秒に制限される。 本稿では,1~0.1ピコ秒の時間スケールに容易に到達できる基準光子またはレーザーパルスの持続時間のみに依存する分解能を持つ光束統計に基づく蛍光寿命測定手法を示す。 1.6ピコ秒から7ピコ秒の寿命を持つ蛍光染料の範囲は、わずか1秒程度の測定期間で測定されている。 本手法の有効性は, グリセロール/水混合物のニュートン粘度を, 分子ローターを用いて測定することで評価し, 接触のない新しいナノレオロジー法を提案する。 このような高時間分解能で蛍光寿命情報にアクセスすると、未探索の高速生物過程の研究や共鳴プラズモンデバイスにおける寿命短縮などの基本的な相互作用に採用すべき幅広い蛍光マーカーの扉が開く。

Fluorescence Lifetime Imaging Microscopy in the time domain is typically performed by recording the arrival time of photons either by using electronic time tagging or a gated detector. As such the temporal resolution is limited by the performance of the electronics to 100's of picoseconds. Here, we demonstrate a fluorescence lifetime measurement technique based on photon-bunching statistics with a resolution that is only dependent on the duration of the reference photon or laser pulse, which can readily reach the 1-0.1 picosecond timescale. A range of fluorescent dyes having lifetimes spanning from 1.6 to 7 picoseconds have been here measured with only ~1 second measurement duration. We corroborate the effectiveness of the technique by measuring the Newtonian viscosity of glycerol/water mixtures by means of a molecular rotor having over an order of magnitude variability in lifetime, thus introducing a new method for contact-free nanorheology. Accessing fluorescence lifetime information at such high temporal resolution opens a doorway for a wide range of fluorescent markers to be adopted for studying yet unexplored fast biological processes, as well as fundamental interactions such as lifetime shortening in resonant plasmonic devices.
翻訳日:2023-12-07 14:22:23 公開日:2023-12-06
# 一般化された$\alpha$-observational entropy

Generalized $\alpha$-Observational Entropy ( http://arxiv.org/abs/2312.03572v1 )

ライセンス: Link先を確認
Shivam Sinha and S. Aravinda(参考訳) 熱力学的エントロピーの既存の測定方法の不十分さを認識した最近の研究は、観測的エントロピー(OE)を有望な代替手段として、実用的な適用性と理論的洞察を提供する。 本研究では、観測エントロピーの範囲を$\alpha$-Observational entropy ("\alpha$-OE")と呼ばれるパラメータ化バージョンに一般化することで拡張する。 $\alpha$-OE は、量子-古典チャネルが適用される状態の間のペッツ-R\'{e}nyi相対エントロピーで表される。 また、サンドウィッチの相対エントロピーを用いて表現する。 我々は,粗粒微細化の関数として,単調に増加する$\alpha$-oe を含む,oe の性質の一般化である $\alpha$-oe の諸性質を証明した。 一般化された量子相対エントロピーは、量子情報理論の多くの分野において中心的な役割を果たす。

Recognizing the inadequacy of existing measures for thermodynamic entropy, recent research focuses on observational Eetropy (OE) as a promising alternative, offering practical applicability and theoretical insights. In this work, we extend the scope of observational entropy by generalizing it to a parameterized version called $\alpha$-Observational entropy ($\alpha$-OE). $\alpha$-OE is expressed in terms of the Petz-R\'{e}nyi relative entropy between the states on which a quantum-to-classical channel is applied. It is also expressed by using Sandwitched relative entropy. We prove various properties of the $\alpha$-OE, which are the generalization of the properties of OE, including the monotonically increasing of $\alpha$-OE as a function of refinement of coarse-graining. The generalized quantum relative entropies play a central role in many areas of quantum information theory, and we provide a connection of these entropic quantities to thermodynamic properties.
翻訳日:2023-12-07 14:22:04 公開日:2023-12-06
# 合流ハウン方程式としてのシュレーディンガー方程式

Schroedinger equation as a confluent Heun equation ( http://arxiv.org/abs/2312.03569v1 )

ライセンス: Link先を確認
Bartolomeu Donatila Bonorino Figueiredo(参考訳) 本論文は、一次元シュレーディンガー方程式が、独立変数が有限値のみを取るconfluent heun方程式(che)に還元される、準正則可解(qes)三角ポテンシャルの2つのクラスを扱う。 che のパワー級数は有限級数と無限級数の固有関数を得るために用いられる。 有限級数はパラメータの特別な集合に対してのみ存在し、準実可解性を特徴づける。 無限級数は(有限級数を含む値であっても)パラメータのすべての許容値に対して起こり、独立変数の範囲内で有界かつ収束する。 さらに、本論文全体を通して、他のQES三角および双曲ポテンシャルについて検討する。 すべての場合において、有限級数に対して収束無限級数が存在する。

This article deals with two classes of quasi-exactly solvable (QES) trigonometric potentials for which the one-dimensional Schroedinger equation reduces to a confluent Heun equation (CHE) where the independent variable takes only finite values. Power series for the CHE are used to get finite- and infinite-series eigenfunctions. Finite series occur only for special sets of parameters and characterize the quasi-exact solvability. Infinite series occur for all admissible values of the parameters (even values involving finite series), and are bounded and convergent in the entire range of the independent variable. Moreover, throughout the article we examine other QES trigonometric and hyperbolic potentials. In all cases, for a finite series there is a convergent infinite series.
翻訳日:2023-12-07 14:21:43 公開日:2023-12-06
# DocBinFormer: 効果的な文書画像バイナリ化のための2レベルトランスフォーマネットワーク

DocBinFormer: A Two-Level Transformer Network for Effective Document Image Binarization ( http://arxiv.org/abs/2312.03568v1 )

ライセンス: Link先を確認
Risab Biswas, Swalpa Kumar Roy, Ning Wang, Umapada Pal, Guang-Bin Huang(参考訳) 実生活では、文書解析タスクにおいて最も最適なパフォーマンスを達成するための基本的かつ決定的なステップとして、文書画像に損傷を与える様々な劣化シナリオが存在し、認識と解析が困難になる。 そこで本稿では,視覚トランスフォーマに基づく新しい2レベル視覚トランスフォーマ(tl-vit)アーキテクチャであるdocbinformer (document binarization transformer)を提案する。 提案アーキテクチャでは、2レベルトランスフォーマーエンコーダを用いて、入力画像からグローバル特徴表現とローカル特徴表現の両方を効果的にキャプチャする。 これらの補足的バイレベル特徴は、効率的な文書画像バイナライゼーションに活用され、システム生成および手書き文書画像の総合的なアプローチによる結果が改善される。 畳み込み層がないため、トランスフォーマーエンコーダはピクセルパッチとサブパッチをそれらの位置情報と共に直接操作し、デコーダはパッチの潜在表現からクリーンな(バイナリ化された)出力画像を生成する。 画像パッチから情報を取り出すために単純な視覚変換ブロックを使う代わりに、提案アーキテクチャは2つのトランスフォーマーブロックを使用して、抽出した特徴空間をグローバルおよびローカルスケールでカバーする。 符号化された特徴表現はデコーダブロックによって、対応する二項化出力を生成する。 様々なDIBCOおよびH-DIBCOベンチマークの大規模な実験により、提案モデルが4つのメトリクスの最先端技術より優れていることが示された。 ソースコードはhttps://github.com/RisabBiswas/DocBinFormerで入手できる。

In real life, various degradation scenarios exist that might damage document images, making it harder to recognize and analyze them, thus binarization is a fundamental and crucial step for achieving the most optimal performance in any document analysis task. We propose DocBinFormer (Document Binarization Transformer), a novel two-level vision transformer (TL-ViT) architecture based on vision transformers for effective document image binarization. The presented architecture employs a two-level transformer encoder to effectively capture both global and local feature representation from the input images. These complimentary bi-level features are exploited for efficient document image binarization, resulting in improved results for system-generated as well as handwritten document images in a comprehensive approach. With the absence of convolutional layers, the transformer encoder uses the pixel patches and sub-patches along with their positional information to operate directly on them, while the decoder generates a clean (binarized) output image from the latent representation of the patches. Instead of using a simple vision transformer block to extract information from the image patches, the proposed architecture uses two transformer blocks for greater coverage of the extracted feature space on a global and local scale. The encoded feature representation is used by the decoder block to generate the corresponding binarized output. Extensive experiments on a variety of DIBCO and H-DIBCO benchmarks show that the proposed model outperforms state-of-the-art techniques on four metrics. The source code will be made available at https://github.com/RisabBiswas/DocBinFormer.
翻訳日:2023-12-07 14:21:33 公開日:2023-12-06
# XAIQA: 抽出質問回答のための説明者に基づくデータ拡張

XAIQA: Explainer-Based Data Augmentation for Extractive Question Answering ( http://arxiv.org/abs/2312.03567v1 )

ライセンス: Link先を確認
Joel Stremmel, Ardavan Saeedi, Hamid Hassanzadeh, Sanjit Batra, Jeffrey Hertzberg, Jaime Murillo, Eran Halperin(参考訳) 抽出質問応答(QA)システムは、医師や研究者が臨床研究を設計し、患者の医療史を理解するための基礎的能力である医療記録を照会することができる。 しかしながら、これらのシステムを構築するには、一般的に専門家によるQAペアが必要です。 抽出QAが可能な大規模言語モデル(LLM)は、アプリケーションドメインに特化したプロンプト内の高品質なデータに依存する。 電子カルテで自然に利用できるデータから合成QAペアを大規模に生成するための新しい手法XAIQAを導入する。 本手法では,分類モデル説明器の考え方を用いて,医学的概念に関する質問や回答を生成する。 2人の医師による専門的な評価において、本手法は、文変換器を用いてQAペアを作成する2つの一般的なアプローチよりも、2.2\times$より多くの意味マッチングと3.8\times$以上の臨床的略語を識別する。 ML評価では,難解な質問を含む抽出QAモデルとして,GPT-4の性能向上を図る。 エキスパート評価とml評価の両方において,質問の難易度に応じて,qaペア生成のための文変換器と手法のトレードオフについて検討した。

Extractive question answering (QA) systems can enable physicians and researchers to query medical records, a foundational capability for designing clinical studies and understanding patient medical history. However, building these systems typically requires expert-annotated QA pairs. Large language models (LLMs), which can perform extractive QA, depend on high quality data in their prompts, specialized for the application domain. We introduce a novel approach, XAIQA, for generating synthetic QA pairs at scale from data naturally available in electronic health records. Our method uses the idea of a classification model explainer to generate questions and answers about medical concepts corresponding to medical codes. In an expert evaluation with two physicians, our method identifies $2.2\times$ more semantic matches and $3.8\times$ more clinical abbreviations than two popular approaches that use sentence transformers to create QA pairs. In an ML evaluation, adding our QA pairs improves performance of GPT-4 as an extractive QA model, including on difficult questions. In both the expert and ML evaluations, we examine trade-offs between our method and sentence transformers for QA pair generation depending on question difficulty.
翻訳日:2023-12-07 14:21:05 公開日:2023-12-06
# マルチスケールレチネックスと複合ディープシャロー特徴による関係検証の強化

Enhancing Kinship Verification through Multiscale Retinex and Combined Deep-Shallow features ( http://arxiv.org/abs/2312.03562v1 )

ライセンス: Link先を確認
El Ouanas Belabbaci, Mohammed Khammari, Ammar Chouchane, Mohcene Bessaoudi, Abdelmalik Ouamane, Yassine Himeur, Shadi Atalla and Wathiq Mansoor(参考訳) 顔画像からの親族関係検証の課題は、パターン認識とコンピュータビジョンの領域における最先端と強迫的なフロンティアを表している。 この研究分野は、画像の注釈や法医学的分析からソーシャルメディアの研究まで、無数の応用可能性を持っている。 我々の研究は、画像の品質を高めコントラストを増幅するMultiscale Retinex (MSR) という事前処理手法を統合することで、最終的に結果の裏付けとなる。 戦略的には, 深層と浅層テクスチャ記述子の調和度を活かし, ロジスティック回帰 (lr) 法を用いて, スコアレベルで巧みに融合する手法である。 そこで我々は, 局所位相量子化(LPQ)ディスクリプタを用いて, 浅いテクスチャ特性を抽出する。 深い特徴抽出のために、畳み込みニューラルネットワーク(cnn)上で事前学習されたvgg16モデルの確率に目を向ける。 本手法のロバスト性と有効性は,3つの厳密な親和性データセット(コーネルキンフェイス,UBキンフェイス,TSキンフェイス)の厳密な実験により検証された。

The challenge of kinship verification from facial images represents a cutting-edge and formidable frontier in the realms of pattern recognition and computer vision. This area of study holds a myriad of potential applications, spanning from image annotation and forensic analysis to social media research. Our research stands out by integrating a preprocessing method named Multiscale Retinex (MSR), which elevates image quality and amplifies contrast, ultimately bolstering the end results. Strategically, our methodology capitalizes on the harmonious blend of deep and shallow texture descriptors, merging them proficiently at the score level through the Logistic Regression (LR) method. To elucidate, we employ the Local Phase Quantization (LPQ) descriptor to extract shallow texture characteristics. For deep feature extraction, we turn to the prowess of the VGG16 model, which is pre-trained on a convolutional neural network (CNN). The robustness and efficacy of our method have been put to the test through meticulous experiments on three rigorous kinship datasets, namely: Cornell Kin Face, UB Kin Face, and TS Kin Face.
翻訳日:2023-12-07 14:20:44 公開日:2023-12-06
# blueprinting the future: 階層型ゼロショットと少数ショット分類器を用いたアイテムの自動分類

Blueprinting the Future: Automatic Item Categorization using Hierarchical Zero-Shot and Few-Shot Classifiers ( http://arxiv.org/abs/2312.03561v1 )

ライセンス: Link先を確認
Ting Wang, Keith Stelter, Jenn Floyd, Thomas O'Neill, Nathaniel Hendrix, Andrew Bazemore, Kevin Rode, Warren Newton(参考訳) テスト業界では、評価青写真に記載された指定内容領域と試験質問を整合させるため、正確な項目分類が重要となる。 従来の手法では、手動の分類は面倒でエラーを起こしやすいか、あるいは広範囲のトレーニングデータを必要とする機械学習を利用する。 本研究では,ゼロショットおよび少数ショット生成事前学習型変換器(GPT)を階層的項目分類に適用し,学習データの必要性を最小限に抑え,カテゴリ定義に人間的な言語記述を活用する新しいアプローチを明らかにする。 構造化python辞書を通じて、検査ブループリントの階層的性質はシームレスにナビゲートされ、複数のレベルにわたる項目の階層的分類が可能になる。 人工データによる初期シミュレーションは、この方法の有効性を示し、F1スコアで測定された平均精度92.91%を達成する。 この方法は、米国家庭医学会(ABFM)が実施した2022年の内科試験(ITE)の実際の試験項目にも適用され、15分で新たに作成した青写真に基づいて200項目を再分類し、伝統的に編集者や医師の間で数日にわたるタスクとなった。 この革新的なアプローチは、分類時間を劇的に削減するだけでなく、一貫性のある原則駆動の分類を保証する。 定義を調整して分類を洗練する能力は、その堅牢性と持続可能性を高める。

In testing industry, precise item categorization is pivotal to align exam questions with the designated content domains outlined in the assessment blueprint. Traditional methods either entail manual classification, which is laborious and error-prone, or utilize machine learning requiring extensive training data, often leading to model underfit or overfit issues. This study unveils a novel approach employing the zero-shot and few-shot Generative Pretrained Transformer (GPT) classifier for hierarchical item categorization, minimizing the necessity for training data, and instead, leveraging human-like language descriptions to define categories. Through a structured python dictionary, the hierarchical nature of examination blueprints is navigated seamlessly, allowing for a tiered classification of items across multiple levels. An initial simulation with artificial data demonstrates the efficacy of this method, achieving an average accuracy of 92.91% measured by the F1 score. This method was further applied to real exam items from the 2022 In-Training Examination (ITE) conducted by the American Board of Family Medicine (ABFM), reclassifying 200 items according to a newly formulated blueprint swiftly in 15 minutes, a task that traditionally could span several days among editors and physicians. This innovative approach not only drastically cuts down classification time but also ensures a consistent, principle-driven categorization, minimizing human biases and discrepancies. The ability to refine classifications by adjusting definitions adds to its robustness and sustainability.
翻訳日:2023-12-07 14:20:22 公開日:2023-12-06
# MotionCtrl:ビデオ生成のための統一型フレキシブルモーションコントローラ

MotionCtrl: A Unified and Flexible Motion Controller for Video Generation ( http://arxiv.org/abs/2312.03641v1 )

ライセンス: Link先を確認
Zhouxia Wang, Ziyang Yuan, Xintao Wang, Tianshui Chen, Menghan Xia, Ping Luo, and Ying Shan(参考訳) ビデオ中の動きは、主にカメラの動きによって引き起こされるカメラの動きと、オブジェクトの動きから生じるオブジェクトの動きからなる。 映像生成にはカメラと物体の動きの正確な制御が不可欠である。 しかし、既存の作品は主に1種類の動きに焦点を当てたものか、両者を明確に区別せず、制御能力と多様性を制限している。 そこで本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合フレキシブルモーションコントローラであるMotionCtrlを提案する。 MotionCtrlのアーキテクチャとトレーニング戦略は、カメラモーション、オブジェクトモーション、および不完全なトレーニングデータの性質を考慮して慎重に考案されている。 従来の方法と比較して、MotionCtrlには3つの大きな利点がある。 1) カメラの動きと物体の動きを効果的かつ独立に制御し, よりきめ細かい動き制御を可能にし, 両動作の柔軟性と多様な組み合わせを容易にする。 2) 動作条件はカメラのポーズや軌跡によって決定され, 映像中の物体の外観や形状に最小限に影響を及ぼす。 3)広範に訓練されたカメラのポーズや軌跡に適応できる比較的一般化可能なモデルである。 既存の手法よりもMotionCtrlの方が優れていることを示すために、大規模な定性的および定量的実験が行われた。

Motions in a video primarily consist of camera motion, induced by camera movement, and object motion, resulting from object movement. Accurate control of both camera and object motion is essential for video generation. However, existing works either mainly focus on one type of motion or do not clearly distinguish between the two, limiting their control capabilities and diversity. Therefore, this paper presents MotionCtrl, a unified and flexible motion controller for video generation designed to effectively and independently control camera and object motion. The architecture and training strategy of MotionCtrl are carefully devised, taking into account the inherent properties of camera motion, object motion, and imperfect training data. Compared to previous methods, MotionCtrl offers three main advantages: 1) It effectively and independently controls camera motion and object motion, enabling more fine-grained motion control and facilitating flexible and diverse combinations of both types of motion. 2) Its motion conditions are determined by camera poses and trajectories, which are appearance-free and minimally impact the appearance or shape of objects in generated videos. 3) It is a relatively generalizable model that can adapt to a wide array of camera poses and trajectories once trained. Extensive qualitative and quantitative experiments have been conducted to demonstrate the superiority of MotionCtrl over existing methods.
翻訳日:2023-12-07 14:14:13 公開日:2023-12-06
# 修復作業のためのRAWおよびHDR画像に基づくニューラルネットワークの訓練

Training Neural Networks on RAW and HDR Images for Restoration Tasks ( http://arxiv.org/abs/2312.03640v1 )

ライセンス: Link先を確認
Lei Luo, Alexandre Chapiro, Xiaoyu Xiang, Yuchen Fan, Rakesh Ranjan, Rafal Mantiuk(参考訳) オンラインで利用可能な標準画像やビデオコンテンツの大部分はディスプレイエンコードされた色空間で表現され、ピクセル値は限られた範囲 (0-1) に便利にスケールされ、色分布はほぼ一様である。 対照的に、カメラrawおよびハイダイナミックレンジ(hdr)画像は、しばしば直線的な色空間で表現され、色値は光の測色量と線形に関係している。 一般に利用可能なディスプレイエンコード画像のトレーニングは、確立されたプラクティスであるが、線形色空間における生およびhdr画像のタスクに対するニューラルネットワークのトレーニング方法に関するコンセンサスはない。 本研究では,3種類の画像復元アプリケーション(デノイジング,デブラリング,シングルイメージ・スーパーレゾリューション)について,いくつかのアプローチをテストした。 我々は,一般的な伝達関数(PQ,PU21,mu-law)を用いてHDR/RAW画像を表示符号化する必要があるか,線形色空間でのトレーニングが望ましいかを検討する。 以上の結果から,ニューラルネットワークは,ディスプレイエンコードされたカラー空間で表現されたhdrやraw画像上で,線形空間よりも知覚的均一性が向上することが示唆された。 トレーニング戦略へのこの小さな変更は、最大10~15dBのパフォーマンスを大幅に向上させることができます。

The vast majority of standard image and video content available online is represented in display-encoded color spaces, in which pixel values are conveniently scaled to a limited range (0-1) and the color distribution is approximately perceptually uniform. In contrast, both camera RAW and high dynamic range (HDR) images are often represented in linear color spaces, in which color values are linearly related to colorimetric quantities of light. While training on commonly available display-encoded images is a well-established practice, there is no consensus on how neural networks should be trained for tasks on RAW and HDR images in linear color spaces. In this work, we test several approaches on three popular image restoration applications: denoising, deblurring, and single-image super-resolution. We examine whether HDR/RAW images need to be display-encoded using popular transfer functions (PQ, PU21, mu-law), or whether it is better to train in linear color spaces, but use loss functions that correct for perceptual non-uniformity. Our results indicate that neural networks train significantly better on HDR and RAW images represented in display-encoded color spaces, which offer better perceptual uniformity than linear spaces. This small change to the training strategy can bring a very substantial gain in performance, up to 10-15 dB.
翻訳日:2023-12-07 14:13:52 公開日:2023-12-06
# 全大言語モデル(LLM)が「逆曲線」に収まるわけではない:BERTモデルとGPTモデルにおける推論論理的推論の比較

Not All Large Language Models (LLMs) Succumb to the "Reversal Curse": A Comparative Study of Deductive Logical Reasoning in BERT and GPT Models ( http://arxiv.org/abs/2312.03633v1 )

ライセンス: Link先を確認
Jingye Yang, Da Wu, Kai Wang(参考訳) 逆カース(Reversal Curse)とは、"A is B"で訓練されたChatGPTのような自動回帰デコーダ(LLM)が"B is A"を学習できず、論理的推論の基本的な失敗を示すシナリオを指す。 このことは、知識グラフの構成のようなある種の一般的なタスクにGPTモデルを使用する際に、この対称原理に固執することを考慮して赤旗を掲げる。 そこで本研究では,両方向性 LLM であるBERT について検討し,逆行性呪いに対する免疫性が確認された。 LLMを用いて生物医学知識グラフを構築するための継続的な取り組みによって、我々はさらに複雑だが本質的な推論能力の評価にも取り組みました。 このプロセスには、最初のトレーニングエンコーダとデコーダ言語モデルが含まれており、2つのセットの交差点($\cap$)とユニオン($\cup$)の操作をマスターし、3つの新しく作成されたセットのユニオン($\cup$)と交差点($\cap$)の異なる組み合わせを推測する能力の評価を行う。 その結果、エンコーダとデコーダの両方の言語モデルでは、2つのセット(結合/相互作用)を含むタスクを訓練する一方で、3つのセット(結合と交叉のさまざまな組み合わせ)を含む操作を扱う場合の困難さに遭遇した。 本研究では,エンコーダモデルとデコーダモデルの異なる特徴を,単純かつ複雑な論理推論で強調する。 実際には、BERT と GPT の選択は、そのタスクの具体的な要件と性質によって導かれるべきであり、それぞれの強みを双方向のコンテキスト理解とシーケンス予測に活用する。

The "Reversal Curse" refers to the scenario where auto-regressive decoder large language models (LLMs), such as ChatGPT, trained on "A is B" fail to learn "B is A", demonstrating a basic failure of logical deduction. This raises a red flag in the use of GPT models for certain general tasks such as constructing knowledge graphs, considering their adherence to this symmetric principle. In our study, we examined a bidirectional LLM, BERT, and found that it is immune to the reversal curse. Driven by ongoing efforts to construct biomedical knowledge graphs with LLMs, we also embarked on evaluating more complex but essential deductive reasoning capabilities. This process included first training encoder and decoder language models to master the intersection ($\cap$) and union ($\cup$) operations on two sets and then moving on to assess their capability to infer different combinations of union ($\cup$) and intersection ($\cap$) operations on three newly created sets. The findings showed that while both encoder and decoder language models, trained for tasks involving two sets (union/intersection), were proficient in such scenarios, they encountered difficulties when dealing with operations that included three sets (various combinations of union and intersection). Our research highlights the distinct characteristics of encoder and decoder models in simple and complex logical reasoning. In practice, the choice between BERT and GPT should be guided by the specific requirements and nature of the task at hand, leveraging their respective strengths in bidirectional context comprehension and sequence prediction.
翻訳日:2023-12-07 14:13:26 公開日:2023-12-06
# 大規模基礎モデルを用いたマルチモーダルデータと資源効率の高いデバイス指向音声検出

Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models ( http://arxiv.org/abs/2312.03632v1 )

ライセンス: Link先を確認
Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Panayiotis Georgiou, Matt Mirsamadi, Aarshee Mishra, Erik Marchi(参考訳) 仮想アシスタントとのインタラクションは通常、トリガーフレーズから始まり、コマンドが続く。 本研究では,トリガー句の必要性を排除し,これらの相互作用をより自然にすることの可能性を探る。 我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。 本稿では,音声認識システムからの1-best仮説とデコーダ信号と,音声エンコーダからの音響表現を入力特徴として,大言語モデル(llm)に組み合わせることで,この課題を解決する。 特に、少量のトレーニングデータのみを必要とするデータとリソース効率の良いシステムに興味を持ち、デバイス上で利用可能な単一の凍結LDMだけでシナリオで運用できます。 このため,本モデルは低ランク適応とプレフィックスチューニングを組み合わせた80k以下のマルチモーダルデータの例に基づいて訓練されている。 提案手法を単調なベースラインと比較し,トレーニングデータのごく一部を使用しながら,マルチモーダル手法が低い等エラーレート(EER)を実現することを示す。 また,低次元音声表現は高次元音声表現よりもEERが低いことを示す。

Interactions with virtual assistants typically start with a trigger phrase followed by a command. In this work, we explore the possibility of making these interactions more natural by eliminating the need for a trigger phrase. Our goal is to determine whether a user addressed the virtual assistant based on signals obtained from the streaming audio recorded by the device microphone. We address this task by combining 1-best hypotheses and decoder signals from an automatic speech recognition system with acoustic representations from an audio encoder as input features to a large language model (LLM). In particular, we are interested in data and resource efficient systems that require only a small amount of training data and can operate in scenarios with only a single frozen LLM available on a device. For this reason, our model is trained on 80k or less examples of multimodal data using a combination of low-rank adaptation and prefix tuning. We compare the proposed system to unimodal baselines and show that the multimodal approach achieves lower equal-error-rates (EERs), while using only a fraction of the training data. We also show that low-dimensional specialized audio representations lead to lower EERs than high-dimensional general audio representations.
翻訳日:2023-12-07 14:12:50 公開日:2023-12-06
# MOCHa: カプセル幻覚を緩和する多目的強化

MOCHa: Multi-Objective Reinforcement Mitigating Caption Hallucinations ( http://arxiv.org/abs/2312.03631v1 )

ライセンス: Link先を確認
Assaf Ben-Kish, Moran Yanuka, Morris Alper, Raja Giryes, Hadar Averbuch-Elor(参考訳) 近年,イメージコンディショルドテキスト生成が急速に進展しているが,画像キャプションは依然として幻覚の根本的な問題や,与えられた画像から推測できない散発的な詳細の生成に苦しめられている。 画像キャプションにおける幻覚を減らすための専用手法は、実際に発生するほとんどの種類の幻覚を無視して、主に閉語彙オブジェクトトークンに焦点を当てる。 そこで本研究では,実世界における幻覚のシーケンスレベルの性質に対処するため,強化学習(RL)の進歩を生かしたMOCHaを提案する。 入力画像に対するキャプションの忠実度を最適化するために,接地参照キャプションをプロキシとして活用し,生成キャプションの論理的一貫性を計測する。 しかし, キャプションの忠実度のみを最適化することは, 世代ごとの意味的妥当性を保たないため, 強い監督を必要とせず, 共同でこれらの品質を目標とする多目的報酬関数を提案する。 我々は,これらの目標をフレームワークで同時に最適化し,様々なスケールのキャプションモデルの性能を向上させることを実証した。 定性的かつ定量的な結果は、MOCHaの様々な確立された指標における優れた性能を示している。 また,オープン語彙設定における手法の利点を実証する。 この目的のために,画像キャプションモデルにおける開放性幻覚の定量化のための新しいベンチマークであるopenchairを,生成的基礎モデルを用いて構築した。 コード、ベンチマーク、トレーニングされたモデルをリリースします。

While recent years have seen rapid progress in image-conditioned text generation, image captioning still suffers from the fundamental issue of hallucinations, the generation of spurious details that cannot be inferred from the given image. Dedicated methods for reducing hallucinations in image captioning largely focus on closed-vocabulary object tokens, ignoring most types of hallucinations that occur in practice. In this work, we propose MOCHa, an approach that harnesses advancements in reinforcement learning (RL) to address the sequence-level nature of hallucinations in an open-world setup. To optimize for caption fidelity to the input image, we leverage ground-truth reference captions as proxies to measure the logical consistency of generated captions. However, optimizing for caption fidelity alone fails to preserve the semantic adequacy of generations; therefore, we propose a multi-objective reward function that jointly targets these qualities, without requiring any strong supervision. We demonstrate that these goals can be simultaneously optimized with our framework, enhancing performance for various captioning models of different scales. Our qualitative and quantitative results demonstrate MOCHa's superior performance across various established metrics. We also demonstrate the benefit of our method in the open-vocabulary setting. To this end, we contribute OpenCHAIR, a new benchmark for quantifying open-vocabulary hallucinations in image captioning models, constructed using generative foundation models. We will release our code, benchmark, and trained models.
翻訳日:2023-12-07 14:12:30 公開日:2023-12-06
# Open-Vocabulary Learningに向けたセグメンテーションモデルの構築

Boosting Segment Anything Model Towards Open-Vocabulary Learning ( http://arxiv.org/abs/2312.03628v1 )

ライセンス: Link先を確認
Xumeng Han, Longhui Wei, Xuehui Yu, Zhiyang Dou, Xin He, Kuiran Wang, Zhenjun Han, Qi Tian(参考訳) 最近のSegment Anything Model (SAM)は、強力なゼロショット一般化とフレキシブルプロンプトを示す新しいパラダイムビジョン基盤モデルとして登場した。 SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。 本稿では,Samborを用いて,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合する。 SAM固有の特筆すべき機能をすべて保持しながら、カテゴリ名や参照式といった人間の入力に基づいて任意のオブジェクトを検出する能力を強化します。 そこで本研究では,ゼロショットオブジェクトのローカライゼーションを容易にし,オープン語彙認識のための包括的意味情報を注入するSideFormerモジュールを提案する。 さらに、オープンセット領域提案ネットワーク(Open-set RPN)を考案し、SAMによって生成されたオープンセットの提案を取得する。 Sambor はCOCO や LVIS などベンチマーク全体で優れたゼロショット性能を示し、従来の SoTA メソッドと高い競争力を示した。 本研究は,多様な対象カテゴリの認識と,視覚基盤モデルのサポートによるオープン語彙学習の促進にSAMを貢献する上で,意義ある取り組みとなることを目的としている。

The recent Segment Anything Model (SAM) has emerged as a new paradigmatic vision foundation model, showcasing potent zero-shot generalization and flexible prompting. Despite SAM finding applications and adaptations in various domains, its primary limitation lies in the inability to grasp object semantics. In this paper, we present Sambor to seamlessly integrate SAM with the open-vocabulary object detector in an end-to-end framework. While retaining all the remarkable capabilities inherent to SAM, we enhance it with the capacity to detect arbitrary objects based on human inputs like category names or reference expressions. To accomplish this, we introduce a novel SideFormer module that extracts SAM features to facilitate zero-shot object localization and inject comprehensive semantic information for open-vocabulary recognition. In addition, we devise an open-set region proposal network (Open-set RPN), enabling the detector to acquire the open-set proposals generated by SAM. Sambor demonstrates superior zero-shot performance across benchmarks, including COCO and LVIS, proving highly competitive against previous SoTA methods. We aspire for this work to serve as a meaningful endeavor in endowing SAM to recognize diverse object categories and advancing open-vocabulary learning with the support of vision foundation models.
翻訳日:2023-12-07 14:12:05 公開日:2023-12-06
# TokenCompose:Token-level Supervisionによる接地拡散

TokenCompose: Grounding Diffusion with Token-level Supervision ( http://arxiv.org/abs/2312.03626v1 )

ライセンス: Link先を確認
Zirui Wang, Zhizhou Sha, Zheng Ding, Yilin Wang, Zhuowen Tu(参考訳) ユーザ指定テキストプロンプトとモデル生成画像との整合性を向上するテキスト・画像生成のための遅延拡散モデルであるTokenComposeを提案する。 その大きな成功にもかかわらず、潜在拡散モデルにおける標準雑音化プロセスは、テキストプロンプトを条件のみとして、テキストプロンプトと画像コンテンツとの一貫性に対する明示的な制約を欠き、複数のオブジェクトカテゴリを構成する結果に満足できない結果をもたらす。 TokenComposeは、画像の内容とオブジェクトのセグメンテーションマップ間のトークンワイド整合項を微調整段階で導入することにより、マルチカテゴリのインスタンス構成を改善することを目的としている。 TokenComposeは、人間のラベル付け情報なしで、テキスト条件の拡散モデルの既存のトレーニングパイプラインに直接適用することができる。 安定拡散を微調整することにより、モデルが生成した画像に対して、多カテゴリのインスタンス構成と拡張されたフォトリアリズムの大幅な改善を示す。

We present TokenCompose, a Latent Diffusion Model for text-to-image generation that achieves enhanced consistency between user-specified text prompts and model-generated images. Despite its tremendous success, the standard denoising process in the Latent Diffusion Model takes text prompts as conditions only, absent explicit constraint for the consistency between the text prompts and the image contents, leading to unsatisfactory results for composing multiple object categories. TokenCompose aims to improve multi-category instance composition by introducing the token-wise consistency terms between the image content and object segmentation maps in the finetuning stage. TokenCompose can be applied directly to the existing training pipeline of text-conditioned diffusion models without extra human labeling information. By finetuning Stable Diffusion, the model exhibits significant improvements in multi-category instance composition and enhanced photorealism for its generated images.
翻訳日:2023-12-07 14:11:43 公開日:2023-12-06
# 多体ボソニックモデルにおける超固体秩序の促進に向けた経路としてのコヒーレント対注入

Coherent pair injection as a route towards the enhancement of supersolid order in many-body bosonic models ( http://arxiv.org/abs/2312.03624v1 )

ライセンス: Link先を確認
Emmanouil Grigoriou, Zhiyao Ning, Hang Su, Benjamin L\"ockler, Ming Li, Yoshitomo Kamiya, Carlos Navarrete-Benlloch(参考訳) 過去数十年間、量子シミュレーターは前例のないレベルの制御で量子多体物理学を探求してきた。 これまでの主な焦点は、凝縮物質モデルに関連する新しい観測可能条件と動的条件へのアクセスであった。 しかし、量子シミュレータのポテンシャルは凝縮マッター物理学の伝統的な範囲を超えており、量子シミュレータは、凝縮マッター物理学では一般的に考慮されない過程を可能にする。 これらのプロセスは、確立されたモデルの位相図を未検討の方法で豊かにすることができる。 本研究では,bose-hubbardモデルを拡張して,例えば超伝導回路アレイにおいて容易に使用可能なコヒーレント対注入の影響について検討する。 この過程の背景にある興味は、単一励起の標準的な注入とは対照的に、モデルの基礎となるu(1)対称性を保存するように構成できることである。 このプロセスは絶縁状態や均質状態とは対照的に,超流動秩序と密度波秩序の両方が好ましいことを証明し,格子超固体のアクセスに向けた新たな経路を提供する。

Over the last couple of decades, quantum simulators have been probing quantum many-body physics with unprecedented levels of control. So far, the main focus has been on the access to novel observables and dynamical conditions related to condensed-matter models. However, the potential of quantum simulators goes beyond the traditional scope of condensed-matter physics: Being based on driven-dissipative quantum optical platforms, quantum simulators allow for processes that are typically not considered in condensed-matter physics. These processes can enrich in unexplored ways the phase diagram of well-established models. Taking the extended Bose-Hubbard model as the guiding example, in this work we examine the impact of coherent pair injection, a process readily available in, for example, superconducting circuit arrays. The interest behind this process is that, in contrast to the standard injection of single excitations, it can be configured to preserve the U(1) symmetry underlying the model. We prove that this process favors both superfluid and density-wave order, as opposed to insulation or homogeneous states, thereby providing a novel route towards the access of lattice supersolidity.
翻訳日:2023-12-07 14:11:25 公開日:2023-12-06
# ブラウンSYKの再検討とド・ジッターとの関係

Revisiting Brownian SYK and its possible relations to de Sitter ( http://arxiv.org/abs/2312.03623v1 )

ライセンス: Link先を確認
Alexey Milekhin, Jiuci Xu(参考訳) 我々はBrownian Sachdev-Ye-Kitaevモデルを再検討し、それ以前に文献で見過ごされたエネルギー保存の出現を論じる。 このモデルを二重スケールで解き、超高速スクランブル、相関関数の指数的減衰、有界スペクトル、高点関数の予期せぬ分解を示す。 これらの結果はde sitter holographyとの関連性についてコメントする。

We revisit Brownian Sachdev-Ye-Kitaev model and argue that it has emergent energy conservation overlooked in the literature before. We solve this model in the double-scaled regime and demonstrate hyperfast scrambling, exponential decay of correlation functions, bounded spectrum and unexpected factorization of higher-point functions. We comment on how these results are related to de Sitter holography.
翻訳日:2023-12-07 14:11:07 公開日:2023-12-06
# 静的特徴設定のためのアクティブ特徴獲得手法の評価

Evaluation of Active Feature Acquisition Methods for Static Feature Settings ( http://arxiv.org/abs/2312.03619v1 )

ライセンス: Link先を確認
Henrik von Kleist, Alireza Zamanian, Ilya Shpitser, Narges Ahmidi(参考訳) afa(active feature acquisition)エージェントは、機能獲得がコスト的あるいは有害なヘルスケアなどの領域で重要なエージェントであり、次の分類タスクで最適な機能セットを決定する。 afaエージェントのデプロイは不足分散のシフトをもたらすため、レトロスペクティブデータを使用してデプロイ時に期待されるパフォーマンスを評価することが不可欠である。 本稿では,時間依存型と推定される機能獲得性能評価(AFAPE)のための半オフライン強化学習(RL)フレームワークを提案する。 ここでは,特徴が時間不変である静的機能設定をカバーするために,afape問題を研究し,拡張することで,afaエージェントが獲得順序を決定する際の柔軟性を高める。 本稿では,新しい逆確率重み付け (IPW), 直接法 (DM), 二重強化学習 (DRL) 推定器を半オフラインRLフレームワーク内で導出し適応する。 これらの推定器は、レトロスペクティブデータセットの欠如がMAR( missing-at-random)パターンに従えば適用できる。 これらはまた、適切な既存の欠落データ技術と組み合わせて、欠落しない(mnar)パターンにも適用できる。 合成MARとMNARの欠如下での合成および実世界のデータ実験において,半オフラインRL推定器によって提供されるデータ効率の改善について述べる。

Active feature acquisition (AFA) agents, crucial in domains like healthcare where acquiring features is often costly or harmful, determine the optimal set of features for a subsequent classification task. As deploying an AFA agent introduces a shift in missingness distribution, it's vital to assess its expected performance at deployment using retrospective data. In a companion paper, we introduce a semi-offline reinforcement learning (RL) framework for active feature acquisition performance evaluation (AFAPE) where features are assumed to be time-dependent. Here, we study and extend the AFAPE problem to cover static feature settings, where features are time-invariant, and hence provide more flexibility to the AFA agents in deciding the order of the acquisitions. In this static feature setting, we derive and adapt new inverse probability weighting (IPW), direct method (DM), and double reinforcement learning (DRL) estimators within the semi-offline RL framework. These estimators can be applied when the missingness in the retrospective dataset follows a missing-at-random (MAR) pattern. They also can be applied to missing-not-at-random (MNAR) patterns in conjunction with appropriate existing missing data techniques. We illustrate the improved data efficiency offered by the semi-offline RL estimators in synthetic and real-world data experiments under synthetic MAR and MNAR missingness.
翻訳日:2023-12-07 14:10:58 公開日:2023-12-06
# アンハーモニックポテンシャルに閉じ込められた回転量子液滴

Rotating quantum droplets confined in an anharmonic potential ( http://arxiv.org/abs/2312.03615v1 )

ライセンス: Link先を確認
S. Nikolaou, G. M. Kavoulakis, M. Ogren(参考訳) 2つのボース・アインシュタイン凝縮体で形成される量子滴の回転特性について,無調波トラップ電位の存在下で検討する。 トラップの原子数と角運動量/角速度が異なるため,様々な位相を同定する。 これらの相には、中心の質量のような励起(または渦無し)、単一および多重量子化の渦などが含まれる。 最後に,この結果と単一成分問題との比較を行った。

We investigate the rotational properties of quantum droplets, which form in a mixture of two Bose-Einstein condensates, in the presence of an anharmonic trapping potential. We identify various phases as the atom number and the angular momentum/angular velocity of the trap vary. These phases include center-of-mass-like excitation (without, or with vortices), vortices of single and multiple quantization, etc. Finally, we compare our results with those of the single-component problem.
翻訳日:2023-12-07 14:10:38 公開日:2023-12-06
# 物理記号最適化

Physical Symbolic Optimization ( http://arxiv.org/abs/2312.03612v1 )

ライセンス: Link先を確認
Wassim Tenachi, Rodrigo Ibata, Foivos I. Diakogiannis(参考訳) 本稿では,次元解析の規則に従うために,方程式の自動逐次生成を制約する枠組みを提案する。 このアプローチと強化学習を組み合わせることで、単位制約を利用した物理データから解析関数を回復するための物理記号最適化手法である$\phi$-soを構築した。 シンボリック回帰アルゴリズムは,変数や定数が物理単位を知っているコンテキストにおいて,ノイズ(約0.1%)の存在下でのsrbench's feynmanベンチマークの他の手法を上回り,有意な(10%)ノイズの存在下でも回復力を示す。

We present a framework for constraining the automatic sequential generation of equations to obey the rules of dimensional analysis by construction. Combining this approach with reinforcement learning, we built $\Phi$-SO, a Physical Symbolic Optimization method for recovering analytical functions from physical data leveraging units constraints. Our symbolic regression algorithm achieves state-of-the-art results in contexts in which variables and constants have known physical units, outperforming all other methods on SRBench's Feynman benchmark in the presence of noise (exceeding 0.1%) and showing resilience even in the presence of significant (10%) levels of noise.
翻訳日:2023-12-07 14:10:29 公開日:2023-12-06
# DreamComposer:マルチビュー条件による制御可能な3Dオブジェクト生成

DreamComposer: Controllable 3D Object Generation via Multi-View Conditions ( http://arxiv.org/abs/2312.03611v1 )

ライセンス: Link先を確認
Yunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu(参考訳) 事前訓練された2次元大規模生成モデルを利用することで、近年の研究では、単一の内像から高品質な新規ビューを生成することができる。 しかし、複数の視点からの情報がないため、これらは制御可能な新しい視点を生み出すのに困難に直面する。 本稿では,マルチビュー条件を注入することで既存のビューアウェア拡散モデルを拡張可能な,フレキシブルでスケーラブルなフレームワークdreamcomposerを提案する。 具体的には、DreamComposerは最初にビュー対応の3Dリフトモジュールを使用して、複数のビューからオブジェクトの3D表現を取得する。 そして、マルチビュー機能融合モジュールを用いて、3D表現からターゲットビューの潜伏した特徴をレンダリングする。 最後に、マルチビュー入力から抽出したターゲットビュー特徴を事前学習した拡散モデルに注入する。 実験により、DreamComposerはゼロショットノベルビュー合成のための最先端拡散モデルと互換性があり、さらに高忠実なノベルビュー画像を多視点条件で生成し、制御可能な3Dオブジェクト再構成や他の様々な応用が可能であることが示された。

Utilizing pre-trained 2D large-scale generative models, recent works are capable of generating high-quality novel views from a single in-the-wild image. However, due to the lack of information from multiple views, these works encounter difficulties in generating controllable novel views. In this paper, we present DreamComposer, a flexible and scalable framework that can enhance existing view-aware diffusion models by injecting multi-view conditions. Specifically, DreamComposer first uses a view-aware 3D lifting module to obtain 3D representations of an object from multiple views. Then, it renders the latent features of the target view from 3D representations with the multi-view feature fusion module. Finally the target view features extracted from multi-view inputs are injected into a pre-trained diffusion model. Experiments show that DreamComposer is compatible with state-of-the-art diffusion models for zero-shot novel view synthesis, further enhancing them to generate high-fidelity novel view images with multi-view conditions, ready for controllable 3D object reconstruction and various other applications.
翻訳日:2023-12-07 14:10:16 公開日:2023-12-06
# 屋内測位システムを用いたキャリブレーションによる自動マルチモーダルデータアノテーション

Automated Multimodal Data Annotation via Calibration With Indoor Positioning System ( http://arxiv.org/abs/2312.03608v1 )

ライセンス: Link先を確認
Ryan Rubel and Andrew Dudash and Mohammad Goli and James O'Hara and Karl Wunderlich(参考訳) LiDARとカメラデータの融合に基づく学習対象検出方法はラベル付きトレーニングサンプルを必要とするが、倉庫ロボットや自動化インフラのようなニッチなアプリケーションは、大規模な既存のデータセットでは利用できないセマンティッククラスを必要とする。 そこで本研究では,マルチモーダルオブジェクト検出データセットの迅速な作成と,人間のラベル付けの負担を軽減するため,新しい自動アノテーションパイプラインを提案する。 本手法では,屋内位置決めシステム(IPS)を用いて点群と画像の正確な検出ラベルを作成し,手動による注釈を完全に除去する。 実験では、システムは人間のベースラインの261.8倍の速さで関心のあるオブジェクトを注釈し、エンドツーエンドのデータセット作成を61.5%高速化する。

Learned object detection methods based on fusion of LiDAR and camera data require labeled training samples, but niche applications, such as warehouse robotics or automated infrastructure, require semantic classes not available in large existing datasets. Therefore, to facilitate the rapid creation of multimodal object detection datasets and alleviate the burden of human labeling, we propose a novel automated annotation pipeline. Our method uses an indoor positioning system (IPS) to produce accurate detection labels for both point clouds and images and eliminates manual annotation entirely. In an experiment, the system annotates objects of interest 261.8 times faster than a human baseline and speeds up end-to-end dataset creation by 61.5%.
翻訳日:2023-12-07 14:09:43 公開日:2023-12-06
# コンクリート混合物から構造設計へ -不確実性の存在下での全体最適化手法-

From concrete mixture to structural design -- a holistic optimization procedure in the presence of uncertainties ( http://arxiv.org/abs/2312.03607v1 )

ライセンス: Link先を確認
Atul Agrawal, Erik Tamsen, Phaedon-Stelios Koutsourelakis, Joerg F. Unger(参考訳) 橋、ダム、建物などの土木構造物の設計は、複数の専門家による多くのシナジーを必要とする複雑な作業である。 それぞれがプロセスのさまざまな部分に責任を持つ。 例えば、構造エンジニアは、特定の材料特性(例えば、コンクリートの強度クラス)の仮定の下で設計を行い、その後、材料エンジニアは、これらの制限により材料を最適化する。 本稿では, 最終的に逆転を目指す共同作業ワークフローにおいて, コンクリートの混合設計と構造シミュレーションを組み合わせた総合最適化手法を提案する。 このように、標準範囲を超える新しい混合物を考えることができる。 物理的なモデルを校正したり、ワークフローの欠落したリンクを埋めるモデルを特定するためにデータが使用される場合のように、不確実性の存在を考慮しなくてはならない。 因果関係の反転は、特に、しばしば微分や感度を提供しない物理モデルや設計上の制約が存在する場合に、いくつかの問題を引き起こす。 この目的のために、我々は、上記の課題を克服するために提案された拡張と適切な選択されたヒューリスティックを用いて変分最適化を提唱する。 提案手法は,28日後の耐荷重性能,複雑な非線形有限要素モデルで計算される破砕時間,水和時の最大温度といった制約を満たしながら,温暖化ポテンシャルを最小化することを目的としたプレキャストコンクリート梁の設計を用いたものである。

Designing civil structures such as bridges, dams or buildings is a complex task requiring many synergies from several experts. Each is responsible for different parts of the process. This is often done in a sequential manner, e.g. the structural engineer makes a design under the assumption of certain material properties (e.g. the strength class of the concrete), and then the material engineer optimizes the material with these restrictions. This paper proposes a holistic optimization procedure, which combines the concrete mixture design and structural simulations in a joint, forward workflow that we ultimately seek to invert. In this manner, new mixtures beyond standard ranges can be considered. Any design effort should account for the presence of uncertainties which can be aleatoric or epistemic as when data is used to calibrate physical models or identify models that fill missing links in the workflow. Inverting the causal relations established poses several challenges especially when these involve physics-based models which most often than not do not provide derivatives/sensitivities or when design constraints are present. To this end, we advocate Variational Optimization, with proposed extensions and appropriately chosen heuristics to overcome the aforementioned challenges. The proposed methodology is illustrated using the design of a precast concrete beam with the objective to minimize the global warming potential while satisfying a number of constraints associated with its load-bearing capacity after 28days according to the Eurocode, the demoulding time as computed by a complex nonlinear Finite Element model, and the maximum temperature during the hydration.
翻訳日:2023-12-07 14:09:20 公開日:2023-12-06
# ロボット操作学習とsim-to-real転送における行動空間の役割について

On the Role of the Action Space in Robot Manipulation Learning and Sim-to-Real Transfer ( http://arxiv.org/abs/2312.03673v1 )

ライセンス: Link先を確認
Elie Aljalbout, Felix Frank, Maximilian Karl, and Patrick van der Smagt(参考訳) ロボット操作学習とsim-to-real転送における行動空間の選択について検討した。 我々は、パフォーマンスを評価するメトリクスを定義し、異なるアクション空間における新しい特性を調べる。 我々は、13の異なる制御空間を用いて、250以上の強化学習〜(RL)エージェントを訓練する。 アクション空間の選択は、文学における一般的な選択と、共通のデザイン特性の新しい組み合わせにまたがる。 シミュレーションにおけるトレーニング性能と実環境への移動を評価する。 ロボット行動空間の良質な特徴と悪質な特徴を特定し,今後の設計を推奨する。 本研究は,ロボット操作タスクにおけるRLアルゴリズムの設計に重要な意味を持ち,実世界のロボット工学におけるRLエージェントのトレーニングおよび転送において,アクション空間の注意深い検討の必要性を強調した。

We study the choice of action space in robot manipulation learning and sim-to-real transfer. We define metrics that assess the performance, and examine the emerging properties in the different action spaces. We train over 250 reinforcement learning~(RL) agents in simulated reaching and pushing tasks, using 13 different control spaces. The choice of action spaces spans popular choices in the literature as well as novel combinations of common design characteristics. We evaluate the training performance in simulation and the transfer to a real-world environment. We identify good and bad characteristics of robotic action spaces and make recommendations for future designs. Our findings have important implications for the design of RL algorithms for robot manipulation tasks, and highlight the need for careful consideration of action spaces when training and transferring RL agents for real-world robotics.
翻訳日:2023-12-07 14:02:16 公開日:2023-12-06
# 深部畳み込み画像再構成(コンストラクト)による直接外惑星検出 : 高速コントラスト画像に対する新しいアルゴリズム

Direct Exoplanet Detection Using Deep Convolutional Image Reconstruction (ConStruct): A New Algorithm for Post-Processing High-Contrast Images ( http://arxiv.org/abs/2312.03671v1 )

ライセンス: Link先を確認
Trevor N. Wolf, Brandon A. Jones, Brendan P. Bowler(参考訳) 本稿では,高コントラスト適応光学画像データセットにおけるかすかな点源検出のための機械学習手法を提案する。 最も広く使われている一次サブトラクションアルゴリズムは、各フレームから時間的に変化する恒星ノイズの近似を画像シーケンスで抽出することで、明るい恒星スペックルノイズを惑星のシグネチャから切り離すことである。 提案手法は,新しい直接撮像後処理アルゴリズムの深層学習を活用し,恒星ノイズ近似の改善と惑星検出感度の向上を目的とする。 畳み込み型自己エンコーダニューラルネットワークは、実画像シーケンスの広範な参照ライブラリに基づいて訓練され、潜在的な惑星信号の位置にある恒星スペックルノイズを正確に再構成する。 このツールは、畳み込み画像再構成を伴う直接外惑星検出または構成と呼ばれる後処理アルゴリズムで使用される。 実際のkeck/nirc2角微分画像データセットを用いて構成の信頼性と感度を評価する。 調査した30の点源のうち、ConStructは従来のPCAベースの処理よりもS/Nの高い67$\%のコストで処理し、相対コントラストを最大2.6倍改善する。 この研究は、ポイントスプレッド関数実現の多様な参照ライブラリを活用するためのディープラーニングの価値と可能性を示し、直接イメージング後処理を改善する。 コンストラクトとその将来的な改良は、ジェームズ・ウェッブ宇宙望遠鏡の高コントラスト画像を後処理するためのツールや、現在の世代と今後の30メートル級望遠鏡のために設計された極端適応光学機器として特に有用である。

We present a novel machine-learning approach for detecting faint point sources in high-contrast adaptive optics imaging datasets. The most widely used algorithms for primary subtraction aim to decouple bright stellar speckle noise from planetary signatures by subtracting an approximation of the temporally evolving stellar noise from each frame in an imaging sequence. Our approach aims to improve the stellar noise approximation and increase the planet detection sensitivity by leveraging deep learning in a novel direct imaging post-processing algorithm. We show that a convolutional autoencoder neural network, trained on an extensive reference library of real imaging sequences, accurately reconstructs the stellar speckle noise at the location of a potential planet signal. This tool is used in a post-processing algorithm we call Direct Exoplanet Detection with Convolutional Image Reconstruction, or ConStruct. The reliability and sensitivity of ConStruct are assessed using real Keck/NIRC2 angular differential imaging datasets. Of the 30 unique point sources we examine, ConStruct yields a higher S/N than traditional PCA-based processing for 67$\%$ of the cases and improves the relative contrast by up to a factor of 2.6. This work demonstrates the value and potential of deep learning to take advantage of a diverse reference library of point spread function realizations to improve direct imaging post-processing. ConStruct and its future improvements may be particularly useful as tools for post-processing high-contrast images from the James Webb Space Telescope and extreme adaptive optics instruments, both for the current generation and those being designed for the upcoming 30 meter-class telescopes.
翻訳日:2023-12-07 14:02:02 公開日:2023-12-06
# エンドツーエンド音声認識のための事前学習音声と言語モデルの統合

An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition ( http://arxiv.org/abs/2312.03668v1 )

ライセンス: Link先を確認
Yukiya Hono, Koh Mitsuda, Tianyu Zhao, Kentaro Mitsui, Toshiaki Wakatsuki, Kei Sawada(参考訳) 機械学習の進歩により、自動音声認識(ASR)を含む様々なテキストおよび音声処理タスクをエンドツーエンド(E2E)で実行できるようになった。 典型的なE2Eアプローチは大量のトレーニングデータとリソースを必要とするため、スクラッチからのトレーニングではなく、事前トレーニングされた基礎モデルを活用することが注目されている。 ASRには事前訓練された音声モデルと言語モデルを使用する試みがあるが、そのほとんどはどちらも使用に限られている。 本稿では,E2E ASR のための言語モデル (LLM) と事前学習した音声表現モデルを統合する可能性について検討する。 提案モデルでは,LLMが提供する膨大な知識を活用し,音声のプロンプトとしてテキストトークンを自動回帰的に生成することで,E2E ASRを実現する。 さらに,提案モデルでは,推論最適化やパラメータ効率のよい領域適応など,LLM利用のための顕著な開発を取り入れることができる。 実験結果から,提案モデルは現代のE2E ASRモデルに匹敵する性能を示した。

Advances in machine learning have made it possible to perform various text and speech processing tasks, including automatic speech recognition (ASR), in an end-to-end (E2E) manner. Since typical E2E approaches require large amounts of training data and resources, leveraging pre-trained foundation models instead of training from scratch is gaining attention. Although there have been attempts to use pre-trained speech and language models in ASR, most of them are limited to using either. This paper explores the potential of integrating a pre-trained speech representation model with a large language model (LLM) for E2E ASR. The proposed model enables E2E ASR by generating text tokens in an autoregressive manner via speech representations as speech prompts, taking advantage of the vast knowledge provided by the LLM. Furthermore, the proposed model can incorporate remarkable developments for LLM utilization, such as inference optimization and parameter-efficient domain adaptation. Experimental results show that the proposed model achieves performance comparable to modern E2E ASR models.
翻訳日:2023-12-07 14:01:30 公開日:2023-12-06
# ワープ拡散:高忠実度仮想試行のための効率的な拡散モデル

WarpDiffusion: Efficient Diffusion Model for High-Fidelity Virtual Try-on ( http://arxiv.org/abs/2312.03667v1 )

ライセンス: Link先を確認
xujie zhang, Xiu Li, Michael Kampffmeyer, Xin Dong, Zhenyu Xie, Feida Zhu, Haoye Dong, Xiaodan Liang(参考訳) 画像ベースの仮想トライオン(VITON)は、ホップ内の衣服イメージを対象人物に転送することを目的としている。 既存の手法では、衣服が身体のポーズに合うように反動することに集中しているが、衣服と肌の境界の合成品質や、反りや影のような現実的な効果を見落としていることが多い。 これらの制限は生成した結果の現実性を大幅に低下させ、VITON技術の実用化を妨げる。 クロスモーダル画像合成における拡散ベースモデルの顕著な成功を利用して、最近の拡散ベース手法がこの問題に取り組み始めている。 しかし、彼らはかなりの量のトレーニングリソースを消費するか、現実的な試行錯誤と衣服の詳細を維持するのに苦労する傾向がある。 効率的かつ高忠実なVITONのために,新しい情報的・局所的な衣服特徴注意機構を通じてワーピングと拡散に基づくパラダイムを橋渡しするWarpDiffusionを提案する。 具体的には、warpdiffusionはリソース消費を減らすために局所的なテクスチャを取り入れ、非現実的または誤った部分を無視しながら、反りのある衣服の重要な部分のみを効果的に保持する新しいオートマスクモジュールを使用している。 特に、warpdiffusionはプラグアンドプレイコンポーネントとして既存のviton方法論に統合することができ、その合成品質を高めることができる。 高分解能VITONベンチマークの広範囲な実験と、WarpDiffusionの優位性を実証し、定性的かつ定量的に最先端の手法を超越した。

Image-based Virtual Try-On (VITON) aims to transfer an in-shop garment image onto a target person. While existing methods focus on warping the garment to fit the body pose, they often overlook the synthesis quality around the garment-skin boundary and realistic effects like wrinkles and shadows on the warped garments. These limitations greatly reduce the realism of the generated results and hinder the practical application of VITON techniques. Leveraging the notable success of diffusion-based models in cross-modal image synthesis, some recent diffusion-based methods have ventured to tackle this issue. However, they tend to either consume a significant amount of training resources or struggle to achieve realistic try-on effects and retain garment details. For efficient and high-fidelity VITON, we propose WarpDiffusion, which bridges the warping-based and diffusion-based paradigms via a novel informative and local garment feature attention mechanism. Specifically, WarpDiffusion incorporates local texture attention to reduce resource consumption and uses a novel auto-mask module that effectively retains only the critical areas of the warped garment while disregarding unrealistic or erroneous portions. Notably, WarpDiffusion can be integrated as a plug-and-play component into existing VITON methodologies, elevating their synthesis quality. Extensive experiments on high-resolution VITON benchmarks and an in-the-wild test set demonstrate the superiority of WarpDiffusion, surpassing state-of-the-art methods both qualitatively and quantitatively.
翻訳日:2023-12-07 14:01:10 公開日:2023-12-06
# 音響生体多様性モニタリングのための小型・高精度畳み込みニューラルネットワーク

Towards small and accurate convolutional neural networks for acoustic biodiversity monitoring ( http://arxiv.org/abs/2312.03666v1 )

ライセンス: Link先を確認
Serge Zaugg, Mike van der Schaar, Florence Erbs, Antonio Sanchez, Joan V. Castell, Emiliano Ramallo, Michel Andr\'e(参考訳) 動物の音の自動分類は、生物多様性の大規模モニタリングに必須である。 畳み込みニューラルネットワーク(CNN)は最も有望なアルゴリズムであるが、遅いため、しばしば分野の分類が不十分で、通常は大規模なトレーニングデータセットを必要とする。 我々の目的は,中程度のデータから学習しながら,推論時に高速なCNNを設計し,優れた分類性能を実現することであった。 熱帯雨林からの録音が使用された。 20種の鳥の音の開始と終了を手動で注釈した。 10秒セグメントのスペクトルをCNN入力として使用した。 周波数アンラッピング層(simp-fuモデル)を持つ単純なcnnを設計し、全ての出力ユニットは全てのスペクトログラム周波数に接続されたが、サブリージョンであるレセプティブフィールド(rf)にのみ接続された。 我々のモデルは異なるRF持続時間での実験を可能にした。 モデルは、音の開始点と終了点をエンコードするタイムインデックスラベルまたはより単純なセグメントレベルラベルを使用する。 タイムインデックスラベルから学ぶモデルは、セグメントレベルのラベルよりもかなりよく機能しました。 中間RF持続時間1.5秒のモデルでは, 最高の分類性能が得られた。 最高のSIMP-FUモデルはテストセットの20クラス中18クラスで0.95以上のAUCを達成した。 小型の低価格ハードウェアでは、最高のSIMP-FUモデルはリアルタイムデータ取得の7倍の速度で評価された。 RF持続時間は分類性能の主要な要因であった。 1.5秒の最適値は音の持続時間と同じ範囲であった。 我々のモデルは中等級の訓練データから学習しながら優れた分類性能を得た。 これは、トレーニング中のタイムインデックスラベルの使用と適切なサイズのRFによって説明される。 その結果,小型低コストデバイス上での分類性能に優れた小型cnnの展開が可能となった。

Automated classification of animal sounds is a prerequisite for large-scale monitoring of biodiversity. Convolutional Neural Networks (CNNs) are among the most promising algorithms but they are slow, often achieve poor classification in the field and typically require large training data sets. Our objective was to design CNNs that are fast at inference time and achieve good classification performance while learning from moderate-sized data. Recordings from a rainforest ecosystem were used. Start and end-point of sounds from 20 bird species were manually annotated. Spectrograms from 10 second segments were used as CNN input. We designed simple CNNs with a frequency unwrapping layer (SIMP-FU models) such that any output unit was connected to all spectrogram frequencies but only to a sub-region of time, the Receptive Field (RF). Our models allowed experimentation with different RF durations. Models either used the time-indexed labels that encode start and end-point of sounds or simpler segment-level labels. Models learning from time-indexed labels performed considerably better than their segment-level counterparts. Best classification performances was achieved for models with intermediate RF duration of 1.5 seconds. The best SIMP-FU models achieved AUCs over 0.95 in 18 of 20 classes on the test set. On compact low-cost hardware the best SIMP-FU models evaluated up to seven times faster than real-time data acquisition. RF duration was a major driver of classification performance. The optimum of 1.5 s was in the same range as the duration of the sounds. Our models achieved good classification performance while learning from moderate-sized training data. This is explained by the usage of time-indexed labels during training and adequately sized RF. Results confirm the feasibility of deploying small CNNs with good classification performance on compact low-cost devices.
翻訳日:2023-12-07 14:00:41 公開日:2023-12-06
# コンコルディアを用いた身体的, 社会的, デジタル空間に接する行動による生成エージェントに基づくモデリング

Generative agent-based modeling with actions grounded in physical, social, or digital space using Concordia ( http://arxiv.org/abs/2312.03664v1 )

ライセンス: Link先を確認
Alexander Sasha Vezhnevets, John P. Agapiou, Avia Aharon, Ron Ziv, Jayd Matyas, Edgar A. Du\'e\~nez-Guzm\'an, William A. Cunningham, Simon Osindero, Danny Karmon, Joel Z. Leibo(参考訳) エージェントベースのモデリングは数十年前からあり、社会科学や自然科学に広く応用されている。 大規模言語モデル(LLM)によって提供される新しい余裕を吸収するため,本研究のスコープは劇的に拡大する傾向にある。 GABM(Generative Agent-Based Models)は、エージェントが互いに対話する従来のエージェントベースモデル(ABM)ではない。 GABMは、LCMを使用して、状況に共通感覚を適用し、"合理的に行動し、共通の意味知識をリコールし、アプリのようなデジタル技術を制御するためのAPIコールを生成し、シミュレーションと外部から見る研究者の両方に通信する。 本稿では,GABMの構築と作業を容易にするライブラリであるConcordiaを紹介する。 Concordiaは、物理的またはデジタル的な地上環境の言語によるシミュレーションを簡単に構築できる。 concordiaエージェントは、llm呼び出しと連想メモリ検索の2つの基本的な操作を仲介するフレキシブルなコンポーネントシステムを使用して振る舞いを生成する。 Game Master(GM)と呼ばれる特殊なエージェントは、テーブルトップロールプレイングゲームに触発され、エージェントが相互作用する環境をシミュレートする役割を担っている。 エージェントは自然言語で何をしたいのかを説明することで行動を起こす。 gmはそのアクションを適切な実装に翻訳する。 シミュレーションされた物理的世界では、GMはエージェントアクションの物理的妥当性を確認し、その効果を説明する。 アプリやサービスなどの技術をシミュレートするデジタル環境では、GMは一般的なAIアシスタント(Bard、ChatGPTなど)やデジタルアプリ(カレンダー、メール、検索など)といった外部ツールとの統合のためにAPIコールを処理することができる。 Concordiaは、科学研究と、ユーザをシミュレートしたり、合成データを生成することによって、実際のデジタルサービスの性能を評価するための幅広いアプリケーションをサポートするように設計されている。

Agent-based modeling has been around for decades, and applied widely across the social and natural sciences. The scope of this research method is now poised to grow dramatically as it absorbs the new affordances provided by Large Language Models (LLM)s. Generative Agent-Based Models (GABM) are not just classic Agent-Based Models (ABM)s where the agents talk to one another. Rather, GABMs are constructed using an LLM to apply common sense to situations, act "reasonably", recall common semantic knowledge, produce API calls to control digital technologies like apps, and communicate both within the simulation and to researchers viewing it from the outside. Here we present Concordia, a library to facilitate constructing and working with GABMs. Concordia makes it easy to construct language-mediated simulations of physically- or digitally-grounded environments. Concordia agents produce their behavior using a flexible component system which mediates between two fundamental operations: LLM calls and associative memory retrieval. A special agent called the Game Master (GM), which was inspired by tabletop role-playing games, is responsible for simulating the environment where the agents interact. Agents take actions by describing what they want to do in natural language. The GM then translates their actions into appropriate implementations. In a simulated physical world, the GM checks the physical plausibility of agent actions and describes their effects. In digital environments simulating technologies such as apps and services, the GM may handle API calls to integrate with external tools such as general AI assistants (e.g., Bard, ChatGPT), and digital apps (e.g., Calendar, Email, Search, etc.). Concordia was designed to support a wide array of applications both in scientific research and for evaluating performance of real digital services by simulating users and/or generating synthetic data.
翻訳日:2023-12-07 14:00:14 公開日:2023-12-06
# reason2drive: 自動運転のための解釈可能・チェーンベース推論に向けて

Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving ( http://arxiv.org/abs/2312.03661v1 )

ライセンス: Link先を確認
Ming Nie, Renyuan Peng, Chunwei Wang, Xinyue Cai, Jianhua Han, Hang Xu, Li Zhang(参考訳) 大型ビジョン言語モデル(vlms)は、高度に自律的な車両行動に必要な複雑な推論タスクの高度な能力により、自動運転分野への関心が高まっている。 その可能性にもかかわらず、自律システムの研究は、運転中の意思決定プロセスを説明する注釈付き推論チェーンによるデータセットの欠如によって妨げられている。 このギャップを埋めるために、複雑な運転環境における解釈可能な推論の研究を容易にすることを目的とした、600万以上のビデオテキストペアを備えたベンチマークデータセットであるReason2Driveを紹介する。 我々は、自律運転過程を知覚、予測、推論ステップの逐次組み合わせとして特徴付け、質問と回答のペアは、nuScenes、Waymo、ONCEを含む様々なオープンソース屋外運転データセットから自動的に収集される。 さらに, bleu や cider などの既存指標の意味的曖昧さに対処し, 自律システムにおける連鎖的推論性能を評価するための新しい総合評価指標を提案する。 提案するベンチマークに基づいて,既存のvlmの評価実験を行い,その推論能力に関する知見を明らかにする。 さらに,VLMが特徴抽出と予測の両方においてオブジェクトレベルの知覚的要素を活用するための効率的なアプローチを開発し,その推論精度をさらに高める。 コードとデータセットがリリースされる。

Large vision-language models (VLMs) have garnered increasing interest in autonomous driving areas, due to their advanced capabilities in complex reasoning tasks essential for highly autonomous vehicle behavior. Despite their potential, research in autonomous systems is hindered by the lack of datasets with annotated reasoning chains that explain the decision-making processes in driving. To bridge this gap, we present Reason2Drive, a benchmark dataset with over 600K video-text pairs, aimed at facilitating the study of interpretable reasoning in complex driving environments. We distinctly characterize the autonomous driving process as a sequential combination of perception, prediction, and reasoning steps, and the question-answer pairs are automatically collected from a diverse range of open-source outdoor driving datasets, including nuScenes, Waymo and ONCE. Moreover, we introduce a novel aggregated evaluation metric to assess chain-based reasoning performance in autonomous systems, addressing the semantic ambiguities of existing metrics such as BLEU and CIDEr. Based on the proposed benchmark, we conduct experiments to assess various existing VLMs, revealing insights into their reasoning capabilities. Additionally, we develop an efficient approach to empower VLMs to leverage object-level perceptual elements in both feature extraction and prediction, further enhancing their reasoning accuracy. The code and dataset will be released.
翻訳日:2023-12-07 13:59:39 公開日:2023-12-06
# 単純化モデルの一般化における解釈可能性錯覚

Interpretability Illusions in the Generalization of Simplified Models ( http://arxiv.org/abs/2312.03656v1 )

ライセンス: Link先を確認
Dan Friedman, Andrew Lampinen, Lucas Dixon, Danqi Chen, Asma Ghandeharioun(参考訳) ディープラーニングシステムを研究する一般的な方法は、単純化されたモデル表現(例えば、低次元空間におけるモデルの隠れ状態の可視化に特異値分解を使用する)を使用することである。 このアプローチは、これらの単純化の結果が元のモデルに忠実であると仮定する。 ここでは、この仮定に重要な注意が必要である: 単純化された表現がトレーニングセットの完全なモデルを正確に近似できるとしても、モデルの振る舞いを分布から正確に捉えることができないかもしれない。 系統的な一般化分割を伴う制御データセット上でのTransformerモデルのトレーニングによってこれを説明できる。 まず、dyck balanced-parenthesis言語でモデルをトレーニングします。 次元の縮小やクラスタリングといったツールを使用してこれらのモデルを単純化し、これらの単純化されたプロキシが様々な分散テストセット上の元のモデルの振る舞いにどのようにマッチするかを明示的にテストします。 単純化されたプロキシは一般に分布から外れた忠実さを欠いている。 元のモデルが新しい構造や深い深さに一般化する場合、単純化されたバージョンは失敗するか、より良く一般化する。 この発見は、単純化された表現がトレーニング分布に直接依存していない場合でも成り立つ。 次に、コンピュータコードのデータセットで次の文字を予測するという、より自然なタスクについて研究する。 元のモデルと単純化されたプロキシの類似した一般化ギャップを発見し、コード補完タスクのどの側面が最大のギャップと関連しているかを更に分析する。 この結果から,SVD などのツールを用いた機械的解釈が,新しい状況下でモデルがどのように機能するかを確実に予測できるかどうか,という疑問が浮かび上がっている。

A common method to study deep learning systems is to use simplified model representations -- for example, using singular value decomposition to visualize the model's hidden states in a lower dimensional space. This approach assumes that the results of these simplified are faithful to the original model. Here, we illustrate an important caveat to this assumption: even if the simplified representations can accurately approximate the full model on the training set, they may fail to accurately capture the model's behavior out of distribution -- the understanding developed from simplified representations may be an illusion. We illustrate this by training Transformer models on controlled datasets with systematic generalization splits. First, we train models on the Dyck balanced-parenthesis languages. We simplify these models using tools like dimensionality reduction and clustering, and then explicitly test how these simplified proxies match the behavior of the original model on various out-of-distribution test sets. We find that the simplified proxies are generally less faithful out of distribution. In cases where the original model generalizes to novel structures or deeper depths, the simplified versions may fail, or generalize better. This finding holds even if the simplified representations do not directly depend on the training distribution. Next, we study a more naturalistic task: predicting the next character in a dataset of computer code. We find similar generalization gaps between the original model and simplified proxies, and conduct further analysis to investigate which aspects of the code completion task are associated with the largest gaps. Together, our results raise questions about the extent to which mechanistic interpretations derived using tools like SVD can reliably predict what a model will do in novel situations.
翻訳日:2023-12-07 13:59:17 公開日:2023-12-06
# 多元性シミュレーション、機械学習、探索空間削減戦略による効率的な逆設計最適化

Efficient Inverse Design Optimization through Multi-fidelity Simulations, Machine Learning, and Search Space Reduction Strategies ( http://arxiv.org/abs/2312.03654v1 )

ライセンス: Link先を確認
Luka Grbcic, Juliane M\"uller and Wibe Albert de Jong(参考訳) 本稿では,マルチ忠実度評価,機械学習モデル,最適化アルゴリズムの戦略的シナジーを通じて,限られた計算量で制約されたシナリオにおいて逆設計最適化プロセスを補強する手法を提案する。 提案手法はエアフォイル逆設計とスカラーフィールド再構成の2つの異なる工学的逆設計問題について解析する。 最適化サイクル毎に、低忠実度シミュレーションデータでトレーニングされた機械学習モデルを利用して、ターゲット変数を十分に予測し、高忠実度シミュレーションが必要かどうかを判断する。 さらに、機械学習モデルを最適化に先立って戦略的に展開し、探索空間を減らし、最適解への収束をさらに加速する。 この手法は微分進化と粒子群最適化という2つの最適化アルゴリズムを強化するために用いられてきた。 比較分析は両アルゴリズムのパフォーマンス改善を示す。 特に、この方法は任意の逆設計アプリケーションに対してうまく適応でき、代表的な低忠実度機械学習モデルと高忠実度シミュレーションとの調和性が容易であり、あらゆる種類の人口ベースの最適化アルゴリズムにシームレスに適用することができる。

This paper introduces a methodology designed to augment the inverse design optimization process in scenarios constrained by limited compute, through the strategic synergy of multi-fidelity evaluations, machine learning models, and optimization algorithms. The proposed methodology is analyzed on two distinct engineering inverse design problems: airfoil inverse design and the scalar field reconstruction problem. It leverages a machine learning model trained with low-fidelity simulation data, in each optimization cycle, thereby proficiently predicting a target variable and discerning whether a high-fidelity simulation is necessitated, which notably conserves computational resources. Additionally, the machine learning model is strategically deployed prior to optimization to reduce the search space, thereby further accelerating convergence toward the optimal solution. The methodology has been employed to enhance two optimization algorithms, namely Differential Evolution and Particle Swarm Optimization. Comparative analyses illustrate performance improvements across both algorithms. Notably, this method is adeptly adaptable across any inverse design application, facilitating a harmonious synergy between a representative low-fidelity machine learning model, and high-fidelity simulation, and can be seamlessly applied across any variety of population-based optimization algorithms.
翻訳日:2023-12-07 13:58:49 公開日:2023-12-06
# 量子ピクトラリズム:高校における量子理論の学習

Quantum Picturalism: Learning Quantum Theory in High School ( http://arxiv.org/abs/2312.03653v1 )

ライセンス: Link先を確認
Selma D\"undar-Coecke, Lia Yeh, Caterina Puca, Sieglinde M.-L. Pfaendler, Muhammad Hamza Waseem, Thomas Cervoni, Aleks Kissinger, Stefano Gogioso, Bob Coecke(参考訳) 量子論は、複素数や確率論から行列乗法、ベクトル空間代数、ヒルベルト空間形式論における記号的操作まで、高度な数学的前提条件によって、学び、教えることが難しいとみなされる。 伝統的に上級の学部または大学院レベルの科目とみなされる。 本研究では,量子論と計算の基本的な概念を教える新しいアプローチとして「量子ピクトラル主義」を提案することにより,従来の考え方に挑戦する。 我々は,現在進行中の教育実験の基礎と方法論を確立し,「図式的アプローチを用いて教えた場合,学生は量子論を学べる年齢から」という問いを考察する。 概念的には直観的だが数学的に厳密なダイアグラム的アプローチを利用する主な利点は、この課題の教えや学習において最も厄介な障壁を排除しつつ、若い学習者が高度な問題に熟達することを可能にすることである。 シンボリックプレゼンテーションからピクチャリアルプレゼンテーションへの移行は、STEM教育の魅力を高め、より多様なオーディエンスを惹きつけると仮定する。

Quantum theory is often regarded as challenging to learn and teach, with advanced mathematical prerequisites ranging from complex numbers and probability theory to matrix multiplication, vector space algebra and symbolic manipulation within the Hilbert space formalism. It is traditionally considered an advanced undergraduate or graduate-level subject. In this work, we challenge the conventional view by proposing "Quantum Picturalism" as a new approach to teaching the fundamental concepts of quantum theory and computation. We establish the foundations and methodology for an ongoing educational experiment to investigate the question "From what age can students learn quantum theory if taught using a diagrammatic approach?". We anticipate that the primary benefit of leveraging such a diagrammatic approach, which is conceptually intuitive yet mathematically rigorous, will be eliminating some of the most daunting barriers to teaching and learning this subject while enabling young learners to reason proficiently about high-level problems. We posit that transitioning from symbolic presentations to pictorial ones will increase the appeal of STEM education, attracting more diverse audience.
翻訳日:2023-12-07 13:58:30 公開日:2023-12-06
# MICRACLE:人間に触発された移動ロボットナビゲーションのための逆強化とカリキュラム学習モデル

MICRACLE: Inverse Reinforcement and Curriculum Learning Model for Human-inspired Mobile Robot Navigation ( http://arxiv.org/abs/2312.03651v1 )

ライセンス: Link先を確認
Nihal Gunukula, Kshitij Tiwari, Aniket Bera(参考訳) 緊急時、移動ロボットは人間のように移動し、最初の応答者と干渉することなく、潜在的な犠牲者を素早く見つけるために刺激を解釈しなければならない。 既存のソーシャルアウェアナビゲーションアルゴリズムは、計算と適応性の課題に直面している。 そこで本研究では,ゲーミフィケーション学習を用いて刺激駆動型ナビゲーションデータを集める逆強化学習モデルであるMIRACLEを提案する。 このデータは、逆最大エントロピー強化学習モデルのトレーニングに使用され、デモストラクタ能力への依存を減らす。 テストでは400サイズの環境で2.7717の損失が低く、人間のような反応の複製を示す。 現在のデータベースには包括的な刺激駆動データがなく、アプローチを必要としています。 そうすることで、ロボットは人間のような感覚で緊急事態をナビゲートし、救命能力を高めることができる。

In emergency scenarios, mobile robots must navigate like humans, interpreting stimuli to locate potential victims rapidly without interfering with first responders. Existing socially-aware navigation algorithms face computational and adaptability challenges. To overcome these, we propose a solution, MIRACLE -- an inverse reinforcement and curriculum learning model, that employs gamified learning to gather stimuli-driven human navigational data. This data is then used to train a Deep Inverse Maximum Entropy Reinforcement Learning model, reducing reliance on demonstrator abilities. Testing reveals a low loss of 2.7717 within a 400-sized environment, signifying human-like response replication. Current databases lack comprehensive stimuli-driven data, necessitating our approach. By doing so, we enable robots to navigate emergency situations with human-like perception, enhancing their life-saving capabilities.
翻訳日:2023-12-07 13:58:12 公開日:2023-12-06
# Rydberg超原子を用いた量子光学

Quantum Optics with Rydberg Superatoms ( http://arxiv.org/abs/2312.03649v1 )

ライセンス: Link先を確認
Jan Kumlin, Christoph Braun, Christoph Tresp, Nina Stiesdal, Sebastian Hofferberth, Asaf Paris-Mandoki(参考訳) 高励起原子(ライドバーグ原子とも呼ばれる)に基づく量子光学は、数光子レベルで光を操作する強力なプラットフォームとして自身を固めた。 ライドバーグの封鎖は、個々のライドバーグ原子間の強い相互作用から生じ、大きな原子のアンサンブルを単一の2レベルエミッター(いわゆるライドバーグ超原子)に総じて類似した系にすることができる。 この人工エミッタの駆動フォトニックモードへの結合は、ライドバーグ相互作用によって総じて強化され、自由空間における最小フォトニックレベルでの強いコヒーレント結合を可能にする。 これを通じて実現可能な精巧な制御レベルは、量子コンピューティングと情報処理の応用において、すでにその有用性を実証している。 本稿では、ライドバーグ超原子と単一光モードの集団結合の導出を考察し、この自由空間構成とフォトニック導波路に結合した量子エミッタの導波路量子電磁力学系との類似性について論じる。 また、Rydberg超原子の単一光子生成や単光子サブトラクションなどの量子光学への応用についても概説した。

Quantum optics based on highly excited atoms, also known as Rydberg atoms, has cemented itself as a powerful platform for the manipulation of light at the few-photon level. The Rydberg blockade, resulting from the strong interaction between individual Rydberg atoms, can turn a large ensemble of atoms into a system which collectively resembles a single two-level emitter, a so-called Rydberg superatom. The coupling of this artificial emitter to a driving photonic mode is collectively enhanced by Rydberg interactions, enabling strong coherent coupling at the few-photon level in free-space. The exquisite level of control achievable through this has already demonstrated its utility in applications of quantum computing and information processing. Here, we review the derivation of the collective coupling between a Rydberg superatom and a single light mode and discuss the similarity of this free-space setup to waveguide quantum electrodynamics systems of quantum emitters coupled to photonic waveguides. We also briefly review applications of Rydberg superatoms to quantum optics such as single-photon generation and single-photon subtraction.
翻訳日:2023-12-07 13:57:56 公開日:2023-12-06
# アンペアGANを用いた組織像の編集可能なステイン変換

Editable Stain Transformation Of Histological Images Using Unpaired GANs ( http://arxiv.org/abs/2312.03647v1 )

ライセンス: Link先を確認
Tibor Sloboda, Luk\'a\v{s} Hudec, Wanda Bene\v{s}ov\'a(参考訳) 病理組織学、特に異形成乳癌における二重染色は、通常h&eとp63染料を用いる。 しかし、P63の組織損傷と高コストの代替方法が必要であった。 本研究では,Mask CycleGANと説明可能性機能とH&E染色胸部組織像をP63様画像に変換する構造保存機能を組み合わせた高度なアーキテクチャであるxAI-CycleGANを紹介する。 このアーキテクチャは出力編集を可能にし、実際の画像との類似性を高め、さらなるモデルの改良を可能にする。 我々は,XAI-CycleGANが構造整合性を維持し,高品質な画像を生成する上で有効であることを示す。 さらに、病理学者による調査では、生成された画像のリアリズムは実際の画像に匹敵することが多く、モデルの高品質な出力を検証する。

Double staining in histopathology, particularly for metaplastic breast cancer, typically employs H&E and P63 dyes. However, P63's tissue damage and high cost necessitate alternative methods. This study introduces xAI-CycleGAN, an advanced architecture combining Mask CycleGAN with explainability features and structure-preserving capabilities for transforming H&E stained breast tissue images into P63-like images. The architecture allows for output editing, enhancing resemblance to actual images and enabling further model refinement. We showcase xAI-CycleGAN's efficacy in maintaining structural integrity and generating high-quality images. Additionally, a histopathologist survey indicates the generated images' realism is often comparable to actual images, validating our model's high-quality output.
翻訳日:2023-12-07 13:57:36 公開日:2023-12-06
# MACCA:Causal Credit Assignmentによるオフラインマルチエージェント強化学習

MACCA: Offline Multi-agent Reinforcement Learning with Causal Credit Assignment ( http://arxiv.org/abs/2312.03644v1 )

ライセンス: Link先を確認
Ziyan Wang, Yali Du, Yudi Zhang, Meng Fang, Biwei Huang(参考訳) オフラインマルチエージェント強化学習(MARL)は、オンラインインタラクションが非現実的またはリスクのあるシナリオで有用である。 MARLの独立学習は柔軟性とスケーラビリティを提供するが、オフライン設定で個々のエージェントにクレジットを正確に割り当てることは、部分的な可観測性と創発的な振る舞いによる課題を引き起こす。 オンラインのクレジット代入メソッドを直接オフラインに転送すると、リアルタイムフィードバックの欠如と複雑なエージェントのインタラクションにより、最適な結果が得られる。 我々のアプローチであるMACCAは、生成過程を動的ベイズネットワークとして特徴づけ、環境変数、状態、行動、報酬の関係を捉える。 このモデルをオフラインデータ上で推定すると、MACCAは個々の報酬の因果関係を分析し、正確かつ解釈可能なクレジット割り当てを確実にすることで、各エージェントの貢献を学習することができる。 さらに、このアプローチのモジュラリティにより、様々なオフラインMARLメソッドとシームレスに統合できます。 理論的には、オフラインデータセットの設定の下では、基礎となる因果構造とエージェントの個々の報酬を生成する関数が識別可能であることが証明され、モデリングの正確性の基礎となった。 実験では,離散的および連続的な動作設定を含む2つの環境でMACCAを試験した。 その結果,MACCAはSOTA法より優れ,背骨の性能が向上した。

Offline Multi-agent Reinforcement Learning (MARL) is valuable in scenarios where online interaction is impractical or risky. While independent learning in MARL offers flexibility and scalability, accurately assigning credit to individual agents in offline settings poses challenges due to partial observability and emergent behavior. Directly transferring the online credit assignment method to offline settings results in suboptimal outcomes due to the absence of real-time feedback and intricate agent interactions. Our approach, MACCA, characterizing the generative process as a Dynamic Bayesian Network, captures relationships between environmental variables, states, actions, and rewards. Estimating this model on offline data, MACCA can learn each agent's contribution by analyzing the causal relationship of their individual rewards, ensuring accurate and interpretable credit assignment. Additionally, the modularity of our approach allows it to seamlessly integrate with various offline MARL methods. Theoretically, we proved that under the setting of the offline dataset, the underlying causal structure and the function for generating the individual rewards of agents are identifiable, which laid the foundation for the correctness of our modeling. Experimentally, we tested MACCA in two environments, including discrete and continuous action settings. The results show that MACCA outperforms SOTA methods and improves performance upon their backbones.
翻訳日:2023-12-07 13:57:23 公開日:2023-12-06
# 超限定データを用いたICFシミュレーション実験ギャップを閉鎖する変圧器駆動サロゲート

Transformer-Powered Surrogates Close the ICF Simulation-Experiment Gap with Extremely Limited Data ( http://arxiv.org/abs/2312.03642v1 )

ライセンス: Link先を確認
Matthew L. Olson, Shusen Liu, Jayaraman J. Thiagarajan, Bogdan Kustowski, Weng-Keen Wong, Rushil Anirudh(参考訳) 最近の機械学習、特にトランスフォーマーアーキテクチャの進歩は、商用ドメインの大幅な進歩をもたらした。 これらの強力なモデルは複雑な関係を学習する優れた能力を示しており、しばしば新しいデータや問題に対してより一般化している。 本稿では,シミュレーションデータでスパース実験データを補足するマルチモーダル出力シナリオにおいて,予測精度を向上させるためのトランスフォーマーを用いた新しい手法を提案する。 提案手法はトランスフォーマーアーキテクチャと新しいグラフベースハイパーパラメータ最適化手法を統合する。 その結果,シミュレーションバイアスを効果的に低減するだけでなく,従来の手法と比較して予測精度も向上する。 実世界のデータ10枚と,これらの実験の合成版が利用可能である慣性閉じ込め核融合実験に対する我々のアプローチの有効性を実証する。

Recent advances in machine learning, specifically transformer architecture, have led to significant advancements in commercial domains. These powerful models have demonstrated superior capability to learn complex relationships and often generalize better to new data and problems. This paper presents a novel transformer-powered approach for enhancing prediction accuracy in multi-modal output scenarios, where sparse experimental data is supplemented with simulation data. The proposed approach integrates transformer-based architecture with a novel graph-based hyper-parameter optimization technique. The resulting system not only effectively reduces simulation bias, but also achieves superior prediction accuracy compared to the prior method. We demonstrate the efficacy of our approach on inertial confinement fusion experiments, where only 10 shots of real-world data are available, as well as synthetic versions of these experiments.
翻訳日:2023-12-07 13:57:02 公開日:2023-12-06
# 楽しいガウス型コーデックアバター

Relightable Gaussian Codec Avatars ( http://arxiv.org/abs/2312.03704v1 )

ライセンス: Link先を確認
Shunsuke Saito, Gabriel Schwartz, Tomas Simon, Junxuan Li, Giljoo Nam(参考訳) 喜びの忠実さは、幾何学的表現と外観表現の両方によって制限される。 幾何学において、メッシュと体積のアプローチは3次元ヘア幾何学のような複雑な構造をモデル化することが困難である。 外観に関しては、既存のリライトモデルは忠実度に制限があり、高精細な連続環境でリアルタイムにレンダリングするには遅すぎることが多い。 本研究では,新しい表現を生成するためにアニメーション可能な高忠実なヘッドアバターを構築する手法であるRelightable Gaussian Codec Avatarsを提案する。 3次元ガウシアンに基づく幾何学モデルは, 動的顔列上のヘアストランドや細孔などの3次元連続したサブミリ細部を捉えることができる。 目,皮膚,毛髪などの頭部の多様な材料を統一的に支援するために,学習可能な放射率伝達に基づく新しい可照性外見モデルを提案する。 拡散成分に対する大域照明対応球面高調波と共に,球面ガウスを用いた空間的全周波数反射による実時間照明を実現する。 この外観モデルは点灯と連続照明の両方で効率よく信頼することができる。 視線反射の忠実度をさらに向上し、光沢のある視線モデルを導入することで視線制御を可能にする。 提案手法は,リアルタイム性能を損なうことなく既存の手法より優れている。 また、テザリングされた消費者向けvrヘッドセットでアバターのリアルタイムのリライトをデモし、アバターの効率と忠実性を示している。

The fidelity of relighting is bounded by both geometry and appearance representations. For geometry, both mesh and volumetric approaches have difficulty modeling intricate structures like 3D hair geometry. For appearance, existing relighting models are limited in fidelity and often too slow to render in real-time with high-resolution continuous environments. In this work, we present Relightable Gaussian Codec Avatars, a method to build high-fidelity relightable head avatars that can be animated to generate novel expressions. Our geometry model based on 3D Gaussians can capture 3D-consistent sub-millimeter details such as hair strands and pores on dynamic face sequences. To support diverse materials of human heads such as the eyes, skin, and hair in a unified manner, we present a novel relightable appearance model based on learnable radiance transfer. Together with global illumination-aware spherical harmonics for the diffuse components, we achieve real-time relighting with spatially all-frequency reflections using spherical Gaussians. This appearance model can be efficiently relit under both point light and continuous illumination. We further improve the fidelity of eye reflections and enable explicit gaze control by introducing relightable explicit eye models. Our method outperforms existing approaches without compromising real-time performance. We also demonstrate real-time relighting of avatars on a tethered consumer VR headset, showcasing the efficiency and fidelity of our avatars.
翻訳日:2023-12-07 13:50:16 公開日:2023-12-06
# スケルトン・イン・コンテクスト:インコンテキスト学習を用いた統一スケルトンシーケンスモデリング

Skeleton-in-Context: Unified Skeleton Sequence Modeling with In-Context Learning ( http://arxiv.org/abs/2312.03703v1 )

ライセンス: Link先を確認
Xinshun Wang, Zhongbin Fang, Xia Li, Xiangtai Li, Chen Chen, Mengyuan Liu(参考訳) In-context Learningは、視覚とNLPのためのマルチタスクモデリングの新しい視点を提供する。 この設定では、モデルはプロンプトからタスクを知覚し、追加のタスク固有のヘッド予測やモデルの微調整なしでそれらを達成することができる。 しかし、文脈内学習によるスケルトンシーケンスモデリングは未検討のままである。 他の領域からスケルトンシーケンスに既存のin-contextモデルを直接適用することは、フレーム間およびクロスタスクが類似しているために失敗し、微妙なコンテキストからタスクを正しく認識することが極めて困難になる。 この課題に対処するために,テキスト内スケルトンシーケンスモデリングに有効なフレームワークであるSkeleton-in-Context(SiC)を提案する。 私たちのSiCは、単一のトレーニングプロセス後に複数のスケルトンベースのタスクを同時に処理し、与えられたプロンプトに従ってコンテキストから各タスクを達成できます。 カスタマイズされたプロンプトに従って、新しい、目に見えないタスクにさらに一般化することができる。 文脈認識を容易にするために,部分的な関節レベル生成やシーケンスレベルの予測,2次元から3次元の動作予測など,異なる性質のタスクを適応的に学習するタスク統一プロンプトを提案する。 動作予測,ポーズ推定,ジョイント・コンプリート,将来のポーズ推定など,複数のタスクにおけるsicの有効性を評価するための広範な実験を行った。 また,その一般化能力についても検討した。 これらの実験により,本モデルは最先端のマルチタスク性能を達成し,特定のタスクにおけるシングルタスクメソッドよりも優れることを示した。

In-context learning provides a new perspective for multi-task modeling for vision and NLP. Under this setting, the model can perceive tasks from prompts and accomplish them without any extra task-specific head predictions or model fine-tuning. However, Skeleton sequence modeling via in-context learning remains unexplored. Directly applying existing in-context models from other areas onto skeleton sequences fails due to the inter-frame and cross-task pose similarity that makes it outstandingly hard to perceive the task correctly from a subtle context. To address this challenge, we propose Skeleton-in-Context (SiC), an effective framework for in-context skeleton sequence modeling. Our SiC is able to handle multiple skeleton-based tasks simultaneously after a single training process and accomplish each task from context according to the given prompt. It can further generalize to new, unseen tasks according to customized prompts. To facilitate context perception, we additionally propose a task-unified prompt, which adaptively learns tasks of different natures, such as partial joint-level generation, sequence-level prediction, or 2D-to-3D motion prediction. We conduct extensive experiments to evaluate the effectiveness of our SiC on multiple tasks, including motion prediction, pose estimation, joint completion, and future pose estimation. We also evaluate its generalization capability on unseen tasks such as motion-in-between. These experiments show that our model achieves state-of-the-art multi-task performance and even outperforms single-task methods on certain tasks.
翻訳日:2023-12-07 13:49:56 公開日:2023-12-06
# 表現生成による自己条件画像生成

Self-conditioned Image Generation via Generating Representations ( http://arxiv.org/abs/2312.03701v1 )

ライセンス: Link先を確認
Tianhong Li, Dina Katabi, Kaiming He(参考訳) 本稿では,クラス無条件画像生成の新しいベンチマークを設定する簡易かつ効果的な画像生成フレームワークである,$\textbf{r}$epresentation-$\textbf{c}$onditioned image $\textbf{g}$eneration (rcg)を提案する。 RCGは人間のアノテーションを条件にしていない。 代わりに、事前訓練されたエンコーダを用いて画像分布からマップされる自己教師付き表現分布を条件とする。 生成中、RCGは、表現拡散モデル(RDM)を用いて、そのような表現分布からサンプルをサンプリングし、サンプル表現に条件付けされた画像ピクセルを作成する。 このような設計は生成過程においてかなりのガイダンスを与え、高品質な画像生成をもたらす。 ImageNet 256$\times$256でテストした結果、RCGは3.31のFrechet Inception Distance(FID)と253.4のInception Score(IS)を達成した。 これらの結果は、クラス非条件画像生成の最先端性を著しく向上するだけでなく、クラス非条件画像生成における現在の先行手法に匹敵するものであり、これらの2つのタスク間の長期的なパフォーマンスギャップを埋めるものである。 コードはhttps://github.com/lth14/rcgで入手できる。

This paper presents $\textbf{R}$epresentation-$\textbf{C}$onditioned image $\textbf{G}$eneration (RCG), a simple yet effective image generation framework which sets a new benchmark in class-unconditional image generation. RCG does not condition on any human annotations. Instead, it conditions on a self-supervised representation distribution which is mapped from the image distribution using a pre-trained encoder. During generation, RCG samples from such representation distribution using a representation diffusion model (RDM), and employs a pixel generator to craft image pixels conditioned on the sampled representation. Such a design provides substantial guidance during the generative process, resulting in high-quality image generation. Tested on ImageNet 256$\times$256, RCG achieves a Frechet Inception Distance (FID) of 3.31 and an Inception Score (IS) of 253.4. These results not only significantly improve the state-of-the-art of class-unconditional image generation but also rival the current leading methods in class-conditional image generation, bridging the long-standing performance gap between these two tasks. Code is available at https://github.com/LTH14/rcg.
翻訳日:2023-12-07 13:49:30 公開日:2023-12-06
# OneLLM:全てのモダリティを言語で調整するフレームワーク

OneLLM: One Framework to Align All Modalities with Language ( http://arxiv.org/abs/2312.03700v1 )

ライセンス: Link先を確認
Jiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang, Kaipeng Zhang, Dahua Lin, Yu Qiao, Peng Gao, Xiangyu Yue(参考訳) マルチモーダル大言語モデル (MLLM) は, 強力なマルチモーダル理解能力によって注目されている。 しかしながら、既存の作品は、アーキテクチャでは通常異なり、共通のモダリティに限定されるモダリティ固有のエンコーダに大きく依存している。 本稿では、8つのモーダルを統一フレームワークを用いて言語に整合させるMLLMであるOneLLMを提案する。 我々はこれを統一マルチモーダルエンコーダとプログレッシブマルチモーダルアライメントパイプラインによって達成する。 詳しくは、まず画像投影モジュールを訓練し、視覚エンコーダとLLMを接続する。 次に、複数の画像投影モジュールと動的ルーティングを混合して、ユニバーサルプロジェクションモジュール(upm)を構築する。 最後に, LLM と UPM とを漸進的に一致させる。 また, 画像, 音声, ビデオ, 点雲, 深度/正規マップ, IMU, fMRI脳活動から得られた2M項目を含む, 総合的なマルチモーダル・インストラクション・データセットについても検討した。 OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含み、優れたパフォーマンスを提供する。 コード、データ、モデル、オンラインのデモはhttps://github.com/csuhan/onellm

Multimodal large language models (MLLMs) have gained significant attention due to their strong multimodal understanding capability. However, existing works rely heavily on modality-specific encoders, which usually differ in architecture and are limited to common modalities. In this paper, we present OneLLM, an MLLM that aligns eight modalities to language using a unified framework. We achieve this through a unified multimodal encoder and a progressive multimodal alignment pipeline. In detail, we first train an image projection module to connect a vision encoder with LLM. Then, we build a universal projection module (UPM) by mixing multiple image projection modules and dynamic routing. Finally, we progressively align more modalities to LLM with the UPM. To fully leverage the potential of OneLLM in following instructions, we also curated a comprehensive multimodal instruction dataset, including 2M items from image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activity. OneLLM is evaluated on 25 diverse benchmarks, encompassing tasks such as multimodal captioning, question answering and reasoning, where it delivers excellent performance. Code, data, model and online demo are available at https://github.com/csuhan/OneLLM
翻訳日:2023-12-07 13:49:04 公開日:2023-12-06
# promise: モデル駆動ステートフルプロンプトオーケストレーションのためのフレームワーク

PROMISE: A Framework for Model-Driven Stateful Prompt Orchestration ( http://arxiv.org/abs/2312.03699v1 )

ライセンス: Link先を確認
Wenyuan Wu, Jasmin Heierli, Max Meisterhans, Adrian Moser, Andri F\"arber, Mateusz Dolata, Elena Gavagnin, Alexandre de Spindler, and Gerhard Schwabe(参考訳) ますます強力な言語モデルの出現は、言語ベースの相互作用に対する期待を高めた。 しかし、これらのモデルを制御することは困難であり、アプリケーションの実現可能性と価値を調査できる必要性を強調している。 本稿では,情報システムとの複雑な言語によるインタラクションを開発するためのフレームワークであるPROMISEを提案する。 ステートマシンモデリングの概念を使用することで、階層的にネストされた状態と遷移にわたるモデル駆動の動的プロンプトオーケストレーションが可能になる。 これにより、言語モデルの動作制御が改善され、効果的で効率的な使用が可能になる。 本稿では、健康情報システムにおけるアプリケーションシナリオの文脈におけるPROMISEの利点を示し、複雑なインタラクションを扱う能力を示す。

The advent of increasingly powerful language models has raised expectations for language-based interactions. However, controlling these models is a challenge, emphasizing the need to be able to investigate the feasibility and value of their application. We present PROMISE, a framework that facilitates the development of complex language-based interactions with information systems. Its use of state machine modeling concepts enables model-driven, dynamic prompt orchestration across hierarchically nested states and transitions. This improves the control of the behavior of language models and thus enables their effective and efficient use. We show the benefits of PROMISE in the context of application scenarios within health information systems and demonstrate its ability to handle complex interactions.
翻訳日:2023-12-07 13:48:44 公開日:2023-12-06
# 照明・照明コンポジテーションにおける固有調和

Intrinsic Harmonization for Illumination-Aware Compositing ( http://arxiv.org/abs/2312.03698v1 )

ライセンス: Link先を確認
Chris Careaga, Ya\u{g}{\i}z Aksoy, S. Mahdi H. Miangoleh(参考訳) ネットワークベースのイメージ調和技術の大幅な進歩にもかかわらず、推論中に遭遇する典型的なトレーニングペアと現実世界の複合物との間にはドメイン格差が存在する。 既存の手法のほとんどは、分割された画像領域で作成されたグローバル編集をリバースするように訓練されており、合成画像に見られる前景と背景の照明の不一致を正確に捉えることができない。 本稿では,本質的画像領域で定式化された自己教師付き照明調和手法を提案する。 まず、中レベルの視覚表現から単純なグローバル照明モデルを推定し、前景領域の粗陰影を生成する。 ネットワークはこの推論シェーディングを洗練し、背景のシーンに合わせて調和した再シェーディングを生成する。 本研究では,前景と背景の色調に合わせるために,先行調和方式のアイデアを用いて,アルベド領域でパラメータ化画像編集を行う。 本手法の有効性を検証するために,実世界の複合材料に挑戦する結果を示し,実世界の調和手法と比較して達成された拡張現実感を客観的に測定するユーザスタディを行った。

Despite significant advancements in network-based image harmonization techniques, there still exists a domain disparity between typical training pairs and real-world composites encountered during inference. Most existing methods are trained to reverse global edits made on segmented image regions, which fail to accurately capture the lighting inconsistencies between the foreground and background found in composited images. In this work, we introduce a self-supervised illumination harmonization approach formulated in the intrinsic image domain. First, we estimate a simple global lighting model from mid-level vision representations to generate a rough shading for the foreground region. A network then refines this inferred shading to generate a harmonious re-shading that aligns with the background scene. In order to match the color appearance of the foreground and background, we utilize ideas from prior harmonization approaches to perform parameterized image edits in the albedo domain. To validate the effectiveness of our approach, we present results from challenging real-world composites and conduct a user study to objectively measure the enhanced realism achieved compared to state-of-the-art harmonization methods.
翻訳日:2023-12-07 13:48:33 公開日:2023-12-06
# メモリトリガー:単語レベルの重複によるテキストから画像への生成モデルの記憶

Memory Triggers: Unveiling Memorization in Text-To-Image Generative Models through Word-Level Duplication ( http://arxiv.org/abs/2312.03692v1 )

ライセンス: Link先を確認
Ali Naseh, Jaechul Roh, Amir Houmansadr(参考訳) 安定拡散モデルのような拡散に基づくモデルは、高品質で高解像度の画像を生成する能力によって、テキストと画像の合成に革命をもたらした。 これらの進歩は画像生成と編集タスクに大きな進歩をもたらした。 しかし、これらのモデルは、正確なトレーニングサンプルを記憶し、複製する傾向があり、プライバシーのリスクを装い、敵の攻撃を可能にするため、懸念も高める。 トレーニングデータセットの複製は記憶に寄与する主要な要因として認識され、様々な形態の記憶が研究されている。 本稿では, 拡散に基づくモデル, 特に安定拡散モデルにおいて, 推論中に複製につながる2つの異なる, 未熟な重複に着目する。 様々な応用において、より安全でより責任のある生成モデルの利用に寄与することを目的として、2つのケーススタディを通じて、より研究の少ない重複現象とその影響を考察した。

Diffusion-based models, such as the Stable Diffusion model, have revolutionized text-to-image synthesis with their ability to produce high-quality, high-resolution images. These advancements have prompted significant progress in image generation and editing tasks. However, these models also raise concerns due to their tendency to memorize and potentially replicate exact training samples, posing privacy risks and enabling adversarial attacks. Duplication in training datasets is recognized as a major factor contributing to memorization, and various forms of memorization have been studied so far. This paper focuses on two distinct and underexplored types of duplication that lead to replication during inference in diffusion-based models, particularly in the Stable Diffusion model. We delve into these lesser-studied duplication phenomena and their implications through two case studies, aiming to contribute to the safer and more responsible use of generative models in various applications.
翻訳日:2023-12-07 13:48:15 公開日:2023-12-06
# グラフ生成モデルにおけるエッジ依存性の役割について

On the Role of Edge Dependency in Graph Generative Models ( http://arxiv.org/abs/2312.03691v1 )

ライセンス: Link先を確認
Sudhanshu Chanpuriya, Cameron Musco, Konstantinos Sotiropoulos, Charalampos Tsourakakis(参考訳) 本研究では,グラフの生成モデルに対する新たな評価フレームワークを導入し,モデル生成グラフの重複の重要性を強調した(Chanpuriya et al., 2021)。 グラフ生成モデルの階層構造を,エッジ独立,ノード独立,完全依存の3段階の複雑性に分類する。 この階層は広く普及しているメソッドをカプセル化する。 我々は、モデルの重なりに応じて、階層のレベルごとに再現可能な三角形の数とその他の短周期の理論的境界を導出する。 境界の漸近的最適性を示す例を提供する。 さらに, 高密度サブグラフの発見(gionis & tsourakakis, 2015)を活用し, 3階層それぞれに新しい生成モデルを導入する。 実世界のデータセットで実施した評価では,提案モデルの出力品質と重なりを評価し,他の一般的なモデルと比較した。 我々の単純な解釈可能なモデルは、一般的な生成モデルと競合するベースラインを提供することを示す。 本研究では,構造化フレームワークとロバストな評価指標を提供することにより,高精度かつエッジ・ディバースグラフを生成可能なモデルの開発を促進することにより,グラフ生成モデルの進展を促進することを目的とする。

In this work, we introduce a novel evaluation framework for generative models of graphs, emphasizing the importance of model-generated graph overlap (Chanpuriya et al., 2021) to ensure both accuracy and edge-diversity. We delineate a hierarchy of graph generative models categorized into three levels of complexity: edge independent, node independent, and fully dependent models. This hierarchy encapsulates a wide range of prevalent methods. We derive theoretical bounds on the number of triangles and other short-length cycles producible by each level of the hierarchy, contingent on the model overlap. We provide instances demonstrating the asymptotic optimality of our bounds. Furthermore, we introduce new generative models for each of the three hierarchical levels, leveraging dense subgraph discovery (Gionis & Tsourakakis, 2015). Our evaluation, conducted on real-world datasets, focuses on assessing the output quality and overlap of our proposed models in comparison to other popular models. Our results indicate that our simple, interpretable models provide competitive baselines to popular generative models. Through this investigation, we aim to propel the advancement of graph generative models by offering a structured framework and robust evaluation metrics, thereby facilitating the development of models capable of generating accurate and edge-diverse graphs.
翻訳日:2023-12-07 13:47:59 公開日:2023-12-06
# 分子動力学と生成モデルによるビトリメリック高分子の逆設計

Inverse Design of Vitrimeric Polymers by Molecular Dynamics and Generative Modeling ( http://arxiv.org/abs/2312.03690v1 )

ライセンス: Link先を確認
Yiwen Zheng, Prakash Thakolkaran, Jake A. Smith, Ziheng Lu, Shuxin Zheng, Bichlien H. Nguyen, Siddhant Kumar, Aniruddh Vashisth(参考訳) ビトリマー(vitrimer)は、動的共有結合型適応ネットワークの再構成を通じて自己修復することのできる、持続可能なポリマーの新しいクラスである。 しかし、構成分子の限られた選択は、その性質空間を制限し、潜在的な応用を完全に実現することを禁じている。 分子動力学(MD)シミュレーションと機械学習(ML)、特に新しいグラフ変分オートエンコーダ(VAE)モデルを組み合わせることで、新しいビトリマーを生成し、所望のガラス転移温度(Tg)に基づいてその逆設計を導く方法を確立した。 我々は,100万のビトリマーの最初のデータセットを構築し,その内8,424個のTgをガウス過程モデルでキャリブレーションした高スループットMDシミュレーションにより計算する。 提案するvaeは、双対グラフエンコーダと、多成分ビトリマーの個別表現を可能にする潜在次元重複スキームを用いる。 ビトリマーに必要な情報を含む連続的潜在空間を構築することにより,訓練体制を超えて望ましいtgを持つ新規ビトリマーを発見するための枠組みの精度と効率性を示す。 合理的な合成性を有するビトリマーは、幅広いtgをカバーし、ビトリメリック材料の潜在的に広範な使用を広げる。

Vitrimer is a new class of sustainable polymers with the ability of self-healing through rearrangement of dynamic covalent adaptive networks. However, a limited choice of constituent molecules restricts their property space, prohibiting full realization of their potential applications. Through a combination of molecular dynamics (MD) simulations and machine learning (ML), particularly a novel graph variational autoencoder (VAE) model, we establish a method for generating novel vitrimers and guide their inverse design based on desired glass transition temperature (Tg). We build the first vitrimer dataset of one million and calculate Tg on 8,424 of them by high-throughput MD simulations calibrated by a Gaussian process model. The proposed VAE employs dual graph encoders and a latent dimension overlapping scheme which allows for individual representation of multi-component vitrimers. By constructing a continuous latent space containing necessary information of vitrimers, we demonstrate high accuracy and efficiency of our framework in discovering novel vitrimers with desirable Tg beyond the training regime. The proposed vitrimers with reasonable synthesizability cover a wide range of Tg and broaden the potential widespread usage of vitrimeric materials.
翻訳日:2023-12-07 13:47:37 公開日:2023-12-06
# 言語モデル決定における差別の評価と緩和

Evaluating and Mitigating Discrimination in Language Model Decisions ( http://arxiv.org/abs/2312.03689v1 )

ライセンス: Link先を確認
Alex Tamkin, Amanda Askell, Liane Lovitt, Esin Durmus, Nicholas Joseph, Shauna Kravec, Karina Nguyen, Jared Kaplan, Deep Ganguli(参考訳) 言語モデル(LM)が進むにつれて、金融や住宅の適格性などの高い社会的決定にそれらを適用することへの関心が高まっている。 しかし、そのような文脈における差別の可能性は倫理的な懸念を生じさせ、これらのリスクを評価するためのより良い方法の必要性を動機付ける。 本報告では, lmsの潜在的な差別的影響を, 適用されていない仮説的ユースケースを含め, 広範囲のユースケースで積極的に評価する方法を提案する。 具体的には、LMを用いて、意思決定者がLMに入力し、社会全体で70の多様な決定シナリオにまたがって、各プロンプトの人口統計情報を体系的に変化させる、幅広い可能性のプロンプトを生成する。 この方法論を適用すると、介入が適用されない場合の選択設定において、Claude 2.0モデルにおける正と負の区別の両方のパターンが明らかになる。 リスクの高いユースケースに対しては,言語モデルの使用を推奨したり許可したりしないが,慎重なプロンプトエンジニアリングを通じて,肯定的かつ否定的な差別を著しく低減し,適切なユースケースにおける安全なデプロイメントへの道筋を提供する技術を示す。 私たちの仕事により、開発者や政策立案者は、言語モデルの機能とアプリケーションが拡大し続けるにつれて、差別を予測、測定、対処することができます。 私たちはデータセットとプロンプトをhttps://huggingface.co/datasets/anthropic/discrim-evalでリリースします。

As language models (LMs) advance, interest is growing in applying them to high-stakes societal decisions, such as determining financing or housing eligibility. However, their potential for discrimination in such contexts raises ethical concerns, motivating the need for better methods to evaluate these risks. We present a method for proactively evaluating the potential discriminatory impact of LMs in a wide range of use cases, including hypothetical use cases where they have not yet been deployed. Specifically, we use an LM to generate a wide array of potential prompts that decision-makers may input into an LM, spanning 70 diverse decision scenarios across society, and systematically vary the demographic information in each prompt. Applying this methodology reveals patterns of both positive and negative discrimination in the Claude 2.0 model in select settings when no interventions are applied. While we do not endorse or permit the use of language models to make automated decisions for the high-risk use cases we study, we demonstrate techniques to significantly decrease both positive and negative discrimination through careful prompt engineering, providing pathways toward safer deployment in use cases where they may be appropriate. Our work enables developers and policymakers to anticipate, measure, and address discrimination as language model capabilities and applications continue to expand. We release our dataset and prompts at https://huggingface.co/datasets/Anthropic/discrim-eval
翻訳日:2023-12-07 13:47:15 公開日:2023-12-06
# MatterGen: 無機材料設計のための生成モデル

MatterGen: a generative model for inorganic materials design ( http://arxiv.org/abs/2312.03687v1 )

ライセンス: Link先を確認
Claudio Zeni, Robert Pinsler, Daniel Z\"ugner, Andrew Fowler, Matthew Horton, Xiang Fu, Sasha Shysheya, Jonathan Crabb\'e, Lixin Sun, Jake Smith, Ryota Tomioka, Tian Xie(参考訳) 機能性材料の設計は、エネルギー貯蔵、触媒、炭素捕獲といった分野における技術進歩の推進に不可欠である。 生成モデルは、望まれる特性制約を直接生成することによって、材料設計の新しいパラダイムを提供する。 最近の進歩にもかかわらず、現在の生成モデルは安定結晶の提案において成功率が低いか、非常に限られた性質制約しか満たせない。 本稿では,安定かつ多様な無機物質を周期表上で生成するモデルであるMatterGenについて述べる。 そこで本研究では, 原子型, 座標, 周期格子を徐々に精錬し, 結晶構造を生成する新しい拡散系生成法を提案する。 さらに、ラベル付きデータセットで任意のプロパティ制約に対して微調整を可能にするアダプタモジュールを導入します。 以前の生成モデルと比較すると、マターゲンが生成する構造は、新規で安定である確率が2倍以上であり、局所エネルギー最小値の15倍以上である。 微調整後、マターゲンは、機械的、電子的、磁気的性質だけでなく、所望の化学、対称性を持つ安定で新しい材料を作り出すことに成功した。 最後に, 高密度構造とサプライチェーンリスクの低い化学組成を同時に提案することにより, 多特性材料設計能力を示す。 我々は,生成材料の品質とMatterGenの能力の広さが,材料設計の普遍的生成モデル構築への大きな進展を示していると考えている。

The design of functional materials with desired properties is essential in driving technological advances in areas like energy storage, catalysis, and carbon capture. Generative models provide a new paradigm for materials design by directly generating entirely novel materials given desired property constraints. Despite recent progress, current generative models have low success rate in proposing stable crystals, or can only satisfy a very limited set of property constraints. Here, we present MatterGen, a model that generates stable, diverse inorganic materials across the periodic table and can further be fine-tuned to steer the generation towards a broad range of property constraints. To enable this, we introduce a new diffusion-based generative process that produces crystalline structures by gradually refining atom types, coordinates, and the periodic lattice. We further introduce adapter modules to enable fine-tuning towards any given property constraints with a labeled dataset. Compared to prior generative models, structures produced by MatterGen are more than twice as likely to be novel and stable, and more than 15 times closer to the local energy minimum. After fine-tuning, MatterGen successfully generates stable, novel materials with desired chemistry, symmetry, as well as mechanical, electronic and magnetic properties. Finally, we demonstrate multi-property materials design capabilities by proposing structures that have both high magnetic density and a chemical composition with low supply-chain risk. We believe that the quality of generated materials and the breadth of MatterGen's capabilities represent a major advancement towards creating a universal generative model for materials design.
翻訳日:2023-12-07 13:46:51 公開日:2023-12-06
# リレーショナルニューラルネットワークが解決できる計画上の問題

What Planning Problems Can A Relational Neural Network Solve? ( http://arxiv.org/abs/2312.03682v1 )

ライセンス: Link先を確認
Jiayuan Mao, Tom\'as Lozano-P\'erez, Joshua B. Tenenbaum, Leslie Pack Kaelbling(参考訳) ゴール条件付きポリシーは一般に、現在の状態と目標仕様から次のアクションにマップされるニューラルネットワークの形で、"フィードフォワード"回路であると理解されている。 しかし、どのような状況でそのような政策が学べるか、その政策がいかに効率的に行われるかはよく分かっていない。 本稿では,連続目標回帰探索(S-GRS)との接続を描画することにより,計画上の問題を表す関係ニューラルネットワーク(グラフニューラルネットワークやトランスフォーマーなど)の回路複雑性解析を行う。 回路幅と深さの増大を対象物の数と計画水平線の関数として考慮し, 構成的証明を提供することで, 計画問題の一般的なクラスが3つ存在することを示す。 また、政策学習のためのニューラルネットワーク設計におけるこの分析の有用性についても解説する。

Goal-conditioned policies are generally understood to be "feed-forward" circuits, in the form of neural networks that map from the current state and the goal specification to the next action to take. However, under what circumstances such a policy can be learned and how efficient the policy will be are not well understood. In this paper, we present a circuit complexity analysis for relational neural networks (such as graph neural networks and transformers) representing policies for planning problems, by drawing connections with serialized goal regression search (S-GRS). We show that there are three general classes of planning problems, in terms of the growth of circuit width and depth as a function of the number of objects and planning horizon, providing constructive proofs. We also illustrate the utility of this analysis for designing neural networks for policy learning.
翻訳日:2023-12-07 13:46:26 公開日:2023-12-06
# 単一イオン光オートコレレータ

Single-ion optical autocorrelator ( http://arxiv.org/abs/2312.03679v1 )

ライセンス: Link先を確認
M. I. Hussain, M. Guevara-Bertsch, E. Torrontegui, J. J. Garc{\i}a-Ripoll, R. Blatt, and C. F. Roos(参考訳) よく単離された量子システムは、電磁場の精巧なセンサーである。 本研究では,紫外光パルス(UV)ピコ秒レーザーパルスをキャラクタリゼーションするために,単一トラップイオンを用いる。 周波数スワップパルスは、急速断熱通過を介して強い双極子遷移を共鳴的に駆動し、光子の吸収または励起放出によって生じるほぼ決定論的集団交換をもたらす。 パルス対を逆伝搬するパルス対にイオンを照射すると、ピークパワーが非常に低いUVパルスの周波数チャープによる時間パルス拡大の定量化を可能にするパルス対空間オーバーラップの関数として原子コヒーレンスの損失と回復が観察される。 測定値と適用値の一致は良好である。 超高速集団交換器は、2対のパルスに対して平均フォノン数0.5の平均変化を推定する衝撃力を付与する。 共鳴超高速キックは物質波干渉実験に応用でき、閉じ込められたイオンにおける超高速エンタングルメント操作に向けたステップを示す。

Well isolated quantum systems are exquisite sensors of electromagnetic fields. In this work, we use a single trapped ion for characterizing chirped ultraviolet (UV) picosecond laser pulses. The frequency swept pulses resonantly drive a strong dipole transition via rapid adiabatic passage, resulting in near deterministic population exchange caused by absorption or stimulated emission of photons. When subjecting an ion to counterpropagating pulse pairs, we observe the loss and revival of atomic coherence as a function of the pulse pair spatial overlap enabling quantification of the temporal pulse broadening caused by a frequency chirp in shaped UV pulses with a very low peak power. We find good agreement between measured and applied chirp. The ultrafast population exchange imparts an impulsive force where the estimated change in the mean phonon numbers of 0.5 is measured for two pairs of pulses. The resonant ultrafast kicks could be applied to matter wave interferometry experiments and present a step towards ultrafast entanglement operations in trapped ions.
翻訳日:2023-12-07 13:46:12 公開日:2023-12-06
# 折り目認識非等尺形状マッチングのためのハイブリッド機能マップ

Hybrid Functional Maps for Crease-Aware Non-Isometric Shape Matching ( http://arxiv.org/abs/2312.03678v1 )

ライセンス: Link先を確認
Lennart Bastian, Yizheng Xie, Nassir Navab, Zorah L\"ahner(参考訳) 非等尺形状対応はコンピュータビジョンの基本的な課題である。 Laplace-Beltrami演算子 (LBO) を用いた従来の手法は、曲げやクレーゼのような高周波外形変化を特徴付けるために、限界に直面している。 本研究では, 弾性薄殻ヘッシアンの固有関数とlboの固有関数の非オルトゴナル外接基底とを結合する新しいアプローチを提案し, 関数写像を構成するハイブリッドスペクトル空間を作成する。 そこで本研究では,非直交基底関数をディスクリプタおよび学習ベースの関数マップ法に効果的に統合する理論的枠組みを提案する。 我々のアプローチは、様々なアプリケーションにまたがる既存の機能的マップパイプラインに簡単に組み込むことができ、イソメトリーを超えた複雑な変形を処理できる。 我々は,様々な教師付き設定と教師なし設定の広範囲な評価を行い,大幅な改善を示す。 提案手法は,非等尺対応設定における測地誤差を最大15%改善し,トポロジカルノイズのあるシナリオでは最大45%改善した。

Non-isometric shape correspondence remains a fundamental challenge in computer vision. Traditional methods using Laplace-Beltrami operator (LBO) eigenmodes face limitations in characterizing high-frequency extrinsic shape changes like bending and creases. We propose a novel approach of combining the non-orthogonal extrinsic basis of eigenfunctions of the elastic thin-shell hessian with the intrinsic ones of the LBO, creating a hybrid spectral space in which we construct functional maps. To this end, we present a theoretical framework to effectively integrate non-orthogonal basis functions into descriptor- and learning-based functional map methods. Our approach can be incorporated easily into existing functional map pipelines across varying applications and is able to handle complex deformations beyond isometries. We show extensive evaluations across various supervised and unsupervised settings and demonstrate significant improvements. Notably, our approach achieves up to 15% better mean geodesic error for non-isometric correspondence settings and up to 45% improvement in scenarios with topological noise.
翻訳日:2023-12-07 13:45:55 公開日:2023-12-06
# GeoShapley: 機械学習モデルにおける空間効果測定のためのゲーム理論アプローチ

GeoShapley: A Game Theory Approach to Measuring Spatial Effects in Machine Learning Models ( http://arxiv.org/abs/2312.03675v1 )

ライセンス: Link先を確認
Ziqi Li(参考訳) 本稿では,機械学習モデルにおける空間効果を測定するゲーム理論であるGeoShapleyを紹介する。 geoshapleyは、モデル予測ゲームにおけるプレイヤーとしての位置の概念化により、ノーベル賞を受賞したシャプリー価値フレームワークを拡張し、モデルにおける位置の重要性と位置とその他の特徴の相乗効果を定量化することができる。 GeoShapleyはモデルに依存しないアプローチであり、様々な構造の統計モデルやブラックボックス機械学習モデルに適用することができる。 GeoShapleyの解釈は、空間効果を説明するための空間変化係数モデルと非空間効果を説明するための付加モデルと直接リンクしている。 シミュレーションデータを用いて、GeoShapley値は既知のデータ生成プロセスに対して検証され、7つの統計モデルと機械学習モデルの相互比較に使用される。 住宅価格モデリングの実証的な例は、GeoShapleyの実用性と解釈を実世界のデータで説明するために用いられる。 このメソッドはgeoshapleyというオープンソースのPythonパッケージとして利用できる。

This paper introduces GeoShapley, a game theory approach to measuring spatial effects in machine learning models. GeoShapley extends the Nobel Prize-winning Shapley value framework in game theory by conceptualizing location as a player in a model prediction game, which enables the quantification of the importance of location and the synergies between location and other features in a model. GeoShapley is a model-agnostic approach and can be applied to statistical or black-box machine learning models in various structures. The interpretation of GeoShapley is directly linked with spatially varying coefficient models for explaining spatial effects and additive models for explaining non-spatial effects. Using simulated data, GeoShapley values are validated against known data-generating processes and are used for cross-comparison of seven statistical and machine learning models. An empirical example of house price modeling is used to illustrate GeoShapley's utility and interpretation with real world data. The method is available as an open-source Python package named geoshapley.
翻訳日:2023-12-07 13:45:37 公開日:2023-12-06
# 正確な予測モデルが有害な自己充足予言をもたらすとき

When accurate prediction models yield harmful self-fulfilling prophecies ( http://arxiv.org/abs/2312.01210v2 )

ライセンス: Link先を確認
Wouter A.C. van Amsterdam, Nan van Geloven, Jesse H. Krijthe, Rajesh Ranganath, Giovanni Cin\'a(参考訳) 予測モデルは医学研究や実践で人気がある。 特定の患者に対する関心の結果を予測することによって、これらのモデルは困難な治療決定に役立ち、パーソナライズされたデータ駆動医療のポスターとしてしばしば賞賛される。 しかし, 予測モデルを用いて意思決定を行うと, 予測が展開後に良質な差別を示す場合であっても, 有害な決定につながる可能性が示唆された。 これらのモデルは有害な自己充足的予言であり、その展開は患者のグループに害を与えるが、これらの患者の悪影響はモデルの予測力を無効にしない。 我々の主な結果は、そのような予測モデルの集合の形式的特徴付けである。 次に,配置前後で十分に調整されたモデルが,データ分布の変化を起こさなかったため,意思決定に役に立たないことを示す。 これらの結果は、医療判断に使用される予測モデルの検証、展開、評価のための標準プラクティスを改訂する必要があることを示している。

Prediction models are popular in medical research and practice. By predicting an outcome of interest for specific patients, these models may help inform difficult treatment decisions, and are often hailed as the poster children for personalized, data-driven healthcare. We show however, that using prediction models for decision making can lead to harmful decisions, even when the predictions exhibit good discrimination after deployment. These models are harmful self-fulfilling prophecies: their deployment harms a group of patients but the worse outcome of these patients does not invalidate the predictive power of the model. Our main result is a formal characterization of a set of such prediction models. Next we show that models that are well calibrated before and after deployment are useless for decision making as they made no change in the data distribution. These results point to the need to revise standard practices for validation, deployment and evaluation of prediction models that are used in medical decisions.
翻訳日:2023-12-07 11:59:41 公開日:2023-12-06
# 進化的アルゴリズムによるポインタネットワークの学習

Pointer Networks Trained Better via Evolutionary Algorithms ( http://arxiv.org/abs/2312.01150v2 )

ライセンス: Link先を確認
Muyao Zhong, Shengcai Liu, Bingdong Li, Haobo Fu, Chao Qian, Ke Tang, Peng Yang(参考訳) Pointer Network (PtrNet) は、組合せ最適化問題(COP)を解決するためのニューラルネットワークである。 PtrNetsは複雑なCOPsインスタンスに対してリアルタイムフィードフォワード推論を提供するが、結果の品質は満足できない傾向にある。 一つの考えられる理由は、このような問題は勾配降下のグローバルな探索能力の欠如に苦しんでおり、教師付き学習と強化学習の両方を含む伝統的なptrnetトレーニング手法で頻繁に使われている。 PtrNetの性能向上のために,PtrNetと進化的アルゴリズム(EA)の訓練の利点を深く研究した。 トラベリングセールスマン問題(TSP)に基づく広範な実証研究が実施されている。 その結果、EAでトレーニングされたPtrNetは、様々な問題スケールで8つの最先端手法よりもずっと優れた推論結果が得られることが示された。 勾配降下に基づくPtrNetトレーニング手法と比較して、EAは同じ計算時間でソリューションの品質を最大30.21 %向上させる。 この利点を活かして,同じ次元でptrnetをトレーニングすることにより,1000次元tspの解法を初めて報告することが可能であり,高次元copsの解法においてptrnetの性能を向上させるためには,トレーニングインスタンスのスケールアップが必要であることを強く示唆する。

Pointer Network (PtrNet) is a specific neural network for solving Combinatorial Optimization Problems (COPs). While PtrNets offer real-time feed-forward inference for complex COPs instances, its quality of the results tends to be less satisfactory. One possible reason is that such issue suffers from the lack of global search ability of the gradient descent, which is frequently employed in traditional PtrNet training methods including both supervised learning and reinforcement learning. To improve the performance of PtrNet, this paper delves deeply into the advantages of training PtrNet with Evolutionary Algorithms (EAs), which have been widely acknowledged for not easily getting trapped by local optima. Extensive empirical studies based on the Travelling Salesman Problem (TSP) have been conducted. Results demonstrate that PtrNet trained with EA can consistently perform much better inference results than eight state-of-the-art methods on various problem scales. Compared with gradient descent based PtrNet training methods, EA achieves up to 30.21\% improvement in quality of the solution with the same computational time. With this advantage, this paper is able to at the first time report the results of solving 1000-dimensional TSPs by training a PtrNet on the same dimensionality, which strongly suggests that scaling up the training instances is in need to improve the performance of PtrNet on solving higher-dimensional COPs.
翻訳日:2023-12-07 11:59:26 公開日:2023-12-06
# 人間のフィードバックから学ぶnash

Nash Learning from Human Feedback ( http://arxiv.org/abs/2312.00886v3 )

ライセンス: Link先を確認
R\'emi Munos, Michal Valko, Daniele Calandriello, Mohammad Gheshlaghi Azar, Mark Rowland, Zhaohan Daniel Guo, Yunhao Tang, Matthieu Geist, Thomas Mesnard, Andrea Michi, Marco Selvi, Sertan Girgin, Nikola Momchev, Olivier Bachem, Daniel J. Mankowitz, Doina Precup, Bilal Piot(参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を整合させる主要なパラダイムとして現れている。 典型的には、RLHFは人間のフィードバックから報酬モデルを学ぶ最初のステップであり、しばしば事前訓練されたLLMによって生成されるテキスト世代間の好みとして表現される。 その後、LLMのポリシーは強化学習アルゴリズムにより報酬モデルを最大限に最適化することで微調整される。 しかし、現在の報酬モデルの本質的な制限は、人間の嗜好の豊かさとサンプリング分布への依存を完全に表現できないことである。 本研究では,対人フィードバックを用いたllmの微調整のための代替パイプラインを提案する。 提案手法は,提案する2つの入力に条件付けされた嗜好モデルの初期学習を伴い,その後に,競合する政策よりも好まれる応答を一貫して生成するポリシーを追求し,この選好モデルのナッシュ均衡を定義する。 このアプローチをnash learning from human feedback(nlhf)と呼んでいる。 表形式のポリシー表現の文脈において,ミラー降下の原理に基づく新しいアルゴリズム解nash-mdを提案する。 このアルゴリズムは一連のポリシーを生成し、最後の繰り返しは正規化されたナッシュ平衡に収束する。 さらに,ポリシーのパラメトリック表現を探索し,ディープラーニングアーキテクチャに勾配降下アルゴリズムを導入する。 提案手法の有効性を示すために,テキスト要約タスクにおけるLLMの微調整を含む実験結果を提案する。 我々はNLHFが、LLMと人間の嗜好を整合させる分野を前進させる可能性を秘め、嗜好学習と政策最適化のための魅力的な道を提供すると考えている。

Reinforcement learning from human feedback (RLHF) has emerged as the main paradigm for aligning large language models (LLMs) with human preferences. Typically, RLHF involves the initial step of learning a reward model from human feedback, often expressed as preferences between pairs of text generations produced by a pre-trained LLM. Subsequently, the LLM's policy is fine-tuned by optimizing it to maximize the reward model through a reinforcement learning algorithm. However, an inherent limitation of current reward models is their inability to fully represent the richness of human preferences and their dependency on the sampling distribution. In this study, we introduce an alternative pipeline for the fine-tuning of LLMs using pairwise human feedback. Our approach entails the initial learning of a preference model, which is conditioned on two inputs given a prompt, followed by the pursuit of a policy that consistently generates responses preferred over those generated by any competing policy, thus defining the Nash equilibrium of this preference model. We term this approach Nash learning from human feedback (NLHF). In the context of a tabular policy representation, we present a novel algorithmic solution, Nash-MD, founded on the principles of mirror descent. This algorithm produces a sequence of policies, with the last iteration converging to the regularized Nash equilibrium. Additionally, we explore parametric representations of policies and introduce gradient descent algorithms for deep-learning architectures. To demonstrate the effectiveness of our approach, we present experimental results involving the fine-tuning of a LLM for a text summarization task. We believe NLHF offers a compelling avenue for preference learning and policy optimization with the potential of advancing the field of aligning LLMs with human preferences.
翻訳日:2023-12-07 11:59:07 公開日:2023-12-06
# 複素力学系からデータ中の多様体次元と座標を検出するオートエンコーダ

Autoencoders for discovering manifold dimension and coordinates in data from complex dynamical systems ( http://arxiv.org/abs/2305.01090v3 )

ライセンス: Link先を確認
Kevin Zeng, Carlos E. P\'erez De Jes\'us, Andrew J. Fox, Michael D. Graham(参考訳) 物理学や工学における多くの現象は形式的には高次元であるが、その長期ダイナミクスはしばしば低次元多様体上に存在する。 本研究は,暗黙の正則化と内部線形層,および$L_2$正則化(重崩壊)を組み合わせて,データセットの基底次元を自動的に推定し,直交多様体座標系を作成し,周囲空間と多様体空間の間の写像関数を提供し,サンプル外射影を可能にするオートエンコーダフレームワークを提案する。 様々な複雑度の力学系から一連のデータセットの多様体次元を推定し、他の最先端推定器と比較するフレームワークの能力を検証する。 ネットワークのトレーニングダイナミクスを分析して、低ランク学習のメカニズムを把握し、暗黙の正規化レイヤが、トレーニング中に低ランク表現と自己正当性を組み合わせていることを確認する。 線形の場合におけるこのアーキテクチャの勾配降下ダイナミクスの解析は、全ての層を包含する「集合的重み変数」のより早い崩壊に導く内部線形層の役割と、破壊的縮退における重み減少の役割を明らかにした。 本研究では, 時空間的カオス偏微分方程式のデータ駆動動的モデルを生成することにより, 状態空間モデリングと予測の適用を自然に拡張できることを示す。 最後に、ハイパーパラメータの選択にロバストなフレームワークであることを示します。

While many phenomena in physics and engineering are formally high-dimensional, their long-time dynamics often live on a lower-dimensional manifold. The present work introduces an autoencoder framework that combines implicit regularization with internal linear layers and $L_2$ regularization (weight decay) to automatically estimate the underlying dimensionality of a data set, produce an orthogonal manifold coordinate system, and provide the mapping functions between the ambient space and manifold space, allowing for out-of-sample projections. We validate our framework's ability to estimate the manifold dimension for a series of datasets from dynamical systems of varying complexities and compare to other state-of-the-art estimators. We analyze the training dynamics of the network to glean insight into the mechanism of low-rank learning and find that collectively each of the implicit regularizing layers compound the low-rank representation and even self-correct during training. Analysis of gradient descent dynamics for this architecture in the linear case reveals the role of the internal linear layers in leading to faster decay of a "collective weight variable" incorporating all layers, and the role of weight decay in breaking degeneracies and thus driving convergence along directions in which no decay would occur in its absence. We show that this framework can be naturally extended for applications of state-space modeling and forecasting by generating a data-driven dynamic model of a spatiotemporally chaotic partial differential equation using only the manifold coordinates. Finally, we demonstrate that our framework is robust to hyperparameter choices.
翻訳日:2023-12-07 11:58:38 公開日:2023-12-06
# FastPillars: デプロイフレンドリーなPillarベースの3D検出器

FastPillars: A Deployment-friendly Pillar-based 3D Detector ( http://arxiv.org/abs/2302.02367v5 )

ライセンス: Link先を確認
Sifan Zhou, Zhi Tian, Xiangxiang Chu, Xinyu Zhang, Bo Zhang, Xiaobo Lu, Chengjian Feng, Zequn Jie, Patrick Yin Chiang, Lin Ma(参考訳) 3D検出器の配備は、現実の自動運転シナリオにおける大きな課題の1つとなる。 既存のbevベースの検出器(バードアイビュー)は、トレーニングと推論をスピードアップするためにスパース畳み込み(spconvとして知られる)を好む。 本稿では,産業的な視点から効率的な3d物体検出の課題に取り組むため,配置に優しい柱型3d検出器「fastpillars」を開発した。 まず,小型の3Dオブジェクトを拡張可能な軽量なMax-and-Attention Pillar Encoding (MAPE) モジュールを提案する。 第2に,柱型3d検出におけるバックボーンの設計において,単純かつ効果的な原理を提案する。 これらの設計に基づいてFastPillarを構築し,SPConvなしで高い性能と低レイテンシを実現する。 2つの大規模データセットに関する広範囲な実験は、性能と速度の両方に関するデバイス上の3d検出におけるfastpillarの有効性と効率を示している。 具体的には、FastPillarsはWaymo Open Datasetの最先端の精度を1.8倍、CenterPoint(SPConvベース)よりも3.8mAPH/L2改善している。 私たちのコードは、https://github.com/StiphyJay/FastPillars.comで公開されています。

The deployment of 3D detectors strikes one of the major challenges in real-world self-driving scenarios. Existing BEV-based (i.e., Bird Eye View) detectors favor sparse convolutions (known as SPConv) to speed up training and inference, which puts a hard barrier for deployment, especially for on-device applications. In this paper, to tackle the challenge of efficient 3D object detection from an industry perspective, we devise a deployment-friendly pillar-based 3D detector, termed FastPillars. First, we introduce a novel lightweight Max-and-Attention Pillar Encoding (MAPE) module specially for enhancing small 3D objects. Second, we propose a simple yet effective principle for designing a backbone in pillar-based 3D detection. We construct FastPillars based on these designs, achieving high performance and low latency without SPConv. Extensive experiments on two large-scale datasets demonstrate the effectiveness and efficiency of FastPillars for on-device 3D detection regarding both performance and speed. Specifically, FastPillars delivers state-of-the-art accuracy on Waymo Open Dataset with 1.8X speed up and 3.8 mAPH/L2 improvement over CenterPoint (SPConv-based). Our code is publicly available at: https://github.com/StiphyJay/FastPillars.
翻訳日:2023-12-07 11:58:06 公開日:2023-12-06
# 量子確率過程からの予測的作業抽出のためのエンジン

Engines for predictive work extraction from memoryful quantum stochastic processes ( http://arxiv.org/abs/2207.03480v5 )

ライセンス: Link先を確認
Ruo Cheng Huang, Paul M. Riechers, Mile Gu, and Varun Narasimhachar(参考訳) 量子情報処理技術は、古典的な自由エネルギーに加えて、システムの本質的に量子的な特徴から仕事の抽出を可能にする。 一方、計算力学の科学は、非マルコフ古典および量子確率過程の予測モデリングのためのツールを与える。 これら2つの科学のツールを組み合わせて、量子出力を持つ非マルコフ確率過程から予測作業を抽出する手法を開発した。 提案手法は,非予測的な量子ワーク抽出プロトコルよりも多くの作業を抽出することができ,また,量子情報処理を伴わない予測作業抽出が可能であることを実証する。 古典的前例のない量子プロセスからの作業抽出において,メモリの有効性において相転移が認められる。 我々の研究は、基本的に量子的、本質的に時間的に変化する形で環境自由エネルギーを利用する機械の展望を開放する。

Quantum information-processing techniques enable work extraction from a system's inherently quantum features, in addition to the classical free energy it contains. Meanwhile, the science of computational mechanics affords tools for the predictive modeling of non-Markovian classical and quantum stochastic processes. We combine tools from these two sciences to develop a technique for predictive work extraction from non-Markovian stochastic processes with quantum outputs. We demonstrate that this technique can extract more work than non-predictive quantum work extraction protocols, on one hand, and predictive work extraction without quantum information processing, on the other. We discover a phase transition in the efficacy of memory for work extraction from quantum processes, which is without classical precedent. Our work opens up the prospect of machines that harness environmental free energy in an essentially quantum, essentially time-varying form.
翻訳日:2023-12-07 11:57:42 公開日:2023-12-06
# ローコラム読み出し付き単光子検出器アレイにおける多重光子衝突の解消

Resolving Multiphoton Coincidences in Single-Photon Detector Arrays with Row-Column Readouts ( http://arxiv.org/abs/2312.02971v2 )

ライセンス: Link先を確認
Shashwath Bharadwaj, Ruangrawee Kitichotkul, Akshay Agarwal, Vivek K Goyal(参考訳) 行列多重化は、単一光子検出器アレイをキロピクセルとメガピクセルの空間解像度にスケールする効果的な戦略であることが証明されている。 しかし、この読み出し機構により、アレー上の多重光子偶然は、その出現する空間的位置に関する曖昧さのために容易には解決できない。 本研究では,行列読み出しを用いた単一光子検出器アレイにおいて,最大4光子一致を解決する手法を提案する。 各画素における検出確率を不明瞭な単光子測定を用いて推定することにより、最適動作条件における従来の方法と比較して、復元のピーク信号対ノイズ比が3dbから4dbまで増加するように、候補画素位置間で曖昧な多光子数を再分配する。 また,本手法では,これらのアレイを従来手法と比較して高い入射光子フラックスで動作させることができることを示す。 この手法の自然シーンイメージングへの応用はモンテカルロ実験を用いて実証された。

Row-column multiplexing has proven to be an effective strategy in scaling single-photon detector arrays to kilopixel and megapixel spatial resolutions. However, with this readout mechanism, multiphoton coincidences on the array cannot be easily resolved due to ambiguities concerning their spatial locations of incidence. In this work, we propose a method to resolve up to 4-photon coincidences in single-photon detector arrays with row-column readouts. By utilizing unambiguous single-photon measurements to estimate probabilities of detection at each pixel, we redistribute the ambiguous multiphoton counts among candidate pixel locations such that the peak signal-to-noise-ratio of the reconstruction is increased between 3 and 4 dB compared to conventional methods at optimal operating conditions. We also show that our method allows the operation of these arrays at higher incident photon fluxes as compared to previous methods. The application of this technique to imaging natural scenes is demonstrated using Monte Carlo experiments.
翻訳日:2023-12-07 11:53:32 公開日:2023-12-06
# WoVoGen: 制御可能なマルチカメラ駆動シーン生成のための世界ボリューム対応拡散

WoVoGen: World Volume-aware Diffusion for Controllable Multi-camera Driving Scene Generation ( http://arxiv.org/abs/2312.02934v2 )

ライセンス: Link先を確認
Jiachen Lu, Ze Huang, Jiahui Zhang, Zeyu Yang, Li Zhang(参考訳) マルチカメラストリートビュービデオの生成は、広範囲で多様なデータに対する緊急の要求に対処するため、自動運転データセットの増大に不可欠である。 多様性の限界と照明条件の取り扱いの難しさから、従来のレンダリングベースの手法は拡散ベースの手法に取って代わられつつある。 しかし、拡散法における重要な課題は、生成したセンサデータが世界内一貫性とセンサ間コヒーレンスの両方を維持することである。 これらの課題に対処するため,新たな世界ボリュームを組み合わせ,WoVoGen(World Volume-aware Multi-camera Driving Scene Generator)を提案する。 このシステムは4dワールドボリュームをビデオ生成の基礎要素として利用するよう特別に設計されている。 私たちのモデルは2つの異なるフェーズで動作します。 (i)車両制御系列に基づく将来の4次元時間世界容積を想定すること、及び (ii)この4dテンポラルワールドボリュームとセンサ相互接続性から得られたマルチカメラビデオの生成。 4dワールドボリュームの導入により、wovogenは車両制御入力に応じて高品質なストリートビュービデオを生成するだけでなく、シーン編集作業も容易になる。

Generating multi-camera street-view videos is critical for augmenting autonomous driving datasets, addressing the urgent demand for extensive and varied data. Due to the limitations in diversity and challenges in handling lighting conditions, traditional rendering-based methods are increasingly being supplanted by diffusion-based methods. However, a significant challenge in diffusion-based methods is ensuring that the generated sensor data preserve both intra-world consistency and inter-sensor coherence. To address these challenges, we combine an additional explicit world volume and propose the World Volume-aware Multi-camera Driving Scene Generator (WoVoGen). This system is specifically designed to leverage 4D world volume as a foundational element for video generation. Our model operates in two distinct phases: (i) envisioning the future 4D temporal world volume based on vehicle control sequences, and (ii) generating multi-camera videos, informed by this envisioned 4D temporal world volume and sensor interconnectivity. The incorporation of the 4D world volume empowers WoVoGen not only to generate high-quality street-view videos in response to vehicle control inputs but also to facilitate scene editing tasks.
翻訳日:2023-12-07 11:53:13 公開日:2023-12-06
# BenchLMM: 大規模マルチモーダルモデルのクロススタイル視覚能力のベンチマーク

BenchLMM: Benchmarking Cross-style Visual Capability of Large Multimodal Models ( http://arxiv.org/abs/2312.02896v2 )

ライセンス: Link先を確認
Rizhao Cai, Zirui Song, Dayan Guan, Zhenhao Chen, Xing Luo, Chenyu Yi, Alex Kot(参考訳) GPT-4VやLLaVAのような大型マルチモーダルモデル(LMM)は、一般的な画像スタイルによる視覚的推論において顕著な能力を示している。 しかし、その多様なスタイルシフトに対する強固さは、実用的用途に欠かせないものであり、ほとんど未調査のままである。 本稿では,芸術的なイメージスタイル,イメージセンサスタイル,アプリケーションスタイルの3つのスタイルに対して,LMMの堅牢性を評価するベンチマークであるBenchLMMを提案する。 BenchLMMを用いて、最先端のLMMを包括的に評価し、次のように明らかにする。 1 LMMは、通常、他のスタイルで作業する際に性能劣化を被る。 2) LMMは,共通のスタイルで他のモデルよりも優れており,その優れた性能を他のスタイルで保証しない。 3) LMM の推論能力は LMM に対して,LMM の改善のための多目的かつ訓練不要な手法を提案することによって向上することができる。 4)知的LMMは,形式的変化に直面した際の誤りの原因を解釈することが期待される。 ベンチマークと分析により、よりインテリジェントで汎用的なLMMの開発に新たな光が当てられることを期待しています。

Large Multimodal Models (LMMs) such as GPT-4V and LLaVA have shown remarkable capabilities in visual reasoning with common image styles. However, their robustness against diverse style shifts, crucial for practical applications, remains largely unexplored. In this paper, we propose a new benchmark, BenchLMM, to assess the robustness of LMMs against three different styles: artistic image style, imaging sensor style, and application style, where each style has five sub-styles. Utilizing BenchLMM, we comprehensively evaluate state-of-the-art LMMs and reveal: 1) LMMs generally suffer performance degradation when working with other styles; 2) An LMM performs better than another model in common style does not guarantee its superior performance in other styles; 3) LMMs' reasoning capability can be enhanced by prompting LMMs to predict the style first, based on which we propose a versatile and training-free method for improving LMMs; 4) An intelligent LMM is expected to interpret the causes of its errors when facing stylistic variations. We hope that our benchmark and analysis can shed new light on developing more intelligent and versatile LMMs.
翻訳日:2023-12-07 11:52:51 公開日:2023-12-06
# 気候モデルデータの因果表現に向けて

Towards Causal Representations of Climate Model Data ( http://arxiv.org/abs/2312.02858v2 )

ライセンス: Link先を確認
Julien Boussard, Chandni Nagda, Julia Kaltenborn, Charlotte Emilie Elektra Lange, Philippe Brouillard, Yaniv Gurwicz, Peer Nowack, David Rolnick(参考訳) 地球システムモデル(esms)のような気候モデルは、ssp(projected shared socio economic pathways)の温室効果ガス排出シナリオに基づいて将来の気候変動をシミュレーションするために不可欠である。 esmは洗練され、価値が増すが、既存のシミュレーションデータに基づいてトレーニングされた機械学習ベースのエミュレータは、追加の気候シナリオをより早く、計算効率が良い。 しかし、それらはしばしば一般化性と解釈性に欠ける。 この研究は、因果表現学習の可能性、具体的には、気候モデルエミュレーションの効率の良い \textit{and} 解釈をレンダリングできる \emph{Causal Discovery with Single-parent Decoding} (CDSD) 法を掘り下げている。 複数の気候データセット上でCDSDを評価し,排出,温度,降水量に着目した。 以上の結果から,CDSDをより解釈可能で堅牢な気候モデルエミュレーションへのステップストーンとして使用するという課題,限界,約束が明らかになった。

Climate models, such as Earth system models (ESMs), are crucial for simulating future climate change based on projected Shared Socioeconomic Pathways (SSP) greenhouse gas emissions scenarios. While ESMs are sophisticated and invaluable, machine learning-based emulators trained on existing simulation data can project additional climate scenarios much faster and are computationally efficient. However, they often lack generalizability and interpretability. This work delves into the potential of causal representation learning, specifically the \emph{Causal Discovery with Single-parent Decoding} (CDSD) method, which could render climate model emulation efficient \textit{and} interpretable. We evaluate CDSD on multiple climate datasets, focusing on emissions, temperature, and precipitation. Our findings shed light on the challenges, limitations, and promise of using CDSD as a stepping stone towards more interpretable and robust climate model emulation.
翻訳日:2023-12-07 11:52:36 公開日:2023-12-06
# 高次元シーケンシングデータ解析のためのカーネルベースニューラルネットワークテスト

A Kernel-Based Neural Network Test for High-dimensional Sequencing Data Analysis ( http://arxiv.org/abs/2312.02850v2 )

ライセンス: Link先を確認
Tingting Hou, Chang Jiang and Qing Lu(参考訳) 人工知能(AI)技術の最近の発展、特にディープニューラルネットワーク(DNN)技術の進歩は、多くの分野に革命をもたらした。 現代のAI技術においてDNNは中心的な役割を担っているが、高次元のシーケンシングデータ(例えばオーバーフィッティング)がもたらす課題のために、データ解析のシーケンシングにはほとんど使われていない。 さらに、ニューラルネットワークの複雑さと未知の制限分布のため、遺伝的関連解析のためのニューラルネットワークの関連テストの構築は依然として大きな課題である。 これらの課題に対処し,高次元シークエンシングデータ解析におけるai利用の重要なギャップを埋めるため,シークエンシングデータの複雑な関連解析のための新しいカーネルベースニューラルネットワーク(knn)テストを提案する。 このフレームワークは、高次元遺伝データの全体的な効果をランダムにモデル化し、カーネルベースのニューラルネットワーク構造を用いて複雑な遺伝子型とフェノタイプの関係をモデル化する。 knnに基づき、非線型および非付加効果(例えば相互作用効果)を考慮して、高次元遺伝データの疾患表現型との結合性を評価するウォルド型テストが導入された。 シミュレーションにより,提案手法はシークエンスカーネルアソシエーションテスト (SKAT) と比較して,特に非線形および相互作用効果の存在下で高い性能を示した。 最後に,アルツハイマー病ニューロイメージングイニシアチブ(adni)研究から得られた全ゲノムシークエンシング(wgs)データセットに適用し,海馬容積変化に関連する新規遺伝子を時間とともに調査した。

The recent development of artificial intelligence (AI) technology, especially the advance of deep neural network (DNN) technology, has revolutionized many fields. While DNN plays a central role in modern AI technology, it has been rarely used in sequencing data analysis due to challenges brought by high-dimensional sequencing data (e.g., overfitting). Moreover, due to the complexity of neural networks and their unknown limiting distributions, building association tests on neural networks for genetic association analysis remains a great challenge. To address these challenges and fill the important gap of using AI in high-dimensional sequencing data analysis, we introduce a new kernel-based neural network (KNN) test for complex association analysis of sequencing data. The test is built on our previously developed KNN framework, which uses random effects to model the overall effects of high-dimensional genetic data and adopts kernel-based neural network structures to model complex genotype-phenotype relationships. Based on KNN, a Wald-type test is then introduced to evaluate the joint association of high-dimensional genetic data with a disease phenotype of interest, considering non-linear and non-additive effects (e.g., interaction effects). Through simulations, we demonstrated that our proposed method attained higher power compared to the sequence kernel association test (SKAT), especially in the presence of non-linear and interaction effects. Finally, we apply the methods to the whole genome sequencing (WGS) dataset from the Alzheimer's Disease Neuroimaging Initiative (ADNI) study, investigating new genes associated with the hippocampal volume change over time.
翻訳日:2023-12-07 11:52:16 公開日:2023-12-06
# FaceStudio:どんな顔でも秒速で撮れる

FaceStudio: Put Your Face Everywhere in Seconds ( http://arxiv.org/abs/2312.02663v2 )

ライセンス: Link先を確認
Yuxuan Yan, Chi Zhang, Rui Wang, Yichao Zhou, Gege Zhang, Pei Cheng, Gang Yu, Bin Fu(参考訳) 本研究では,人物のアイデンティティを維持しつつ,パーソナライズされたスタイリスティックなタッチを付加した画像生成における興味深い課題であるアイデンティティ保存画像合成について検討する。 Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れているが、大きな欠点がある。 これには、詳細なリソースと微調整の時間の必要性、複数の参照画像の要件が含まれる。 これらの課題を克服するため,本研究では,人間の画像に焦点をあてたアイデンティティ保存合成への新しいアプローチを提案する。 本モデルでは,直接フィードフォワード機構を活用し,集中的な微調整の必要性を回避し,迅速かつ効率的な画像生成を実現する。 私たちのイノベーションの中心は、スタイリッシュな画像、顔画像、テキストによるプロンプトを組み合わせて、画像生成プロセスを導く、ハイブリッドなガイダンスフレームワークです。 このユニークな組み合わせにより、われわれのモデルは、芸術的肖像画やアイデンティティブロード画像など、様々な応用を実現できる。 定性評価と定量的評価の両方を含む実験結果は,既存のベースラインモデルと過去の研究,特に高い忠実度で被験者のアイデンティティを維持できる顕著な効率と能力において,本手法の優位性を示すものである。

This study investigates identity-preserving image synthesis, an intriguing task in image generation that seeks to maintain a subject's identity while adding a personalized, stylistic touch. Traditional methods, such as Textual Inversion and DreamBooth, have made strides in custom image creation, but they come with significant drawbacks. These include the need for extensive resources and time for fine-tuning, as well as the requirement for multiple reference images. To overcome these challenges, our research introduces a novel approach to identity-preserving synthesis, with a particular focus on human images. Our model leverages a direct feed-forward mechanism, circumventing the need for intensive fine-tuning, thereby facilitating quick and efficient image generation. Central to our innovation is a hybrid guidance framework, which combines stylized images, facial images, and textual prompts to guide the image generation process. This unique combination enables our model to produce a variety of applications, such as artistic portraits and identity-blended images. Our experimental results, including both qualitative and quantitative evaluations, demonstrate the superiority of our method over existing baseline models and previous works, particularly in its remarkable efficiency and ability to preserve the subject's identity with high fidelity.
翻訳日:2023-12-07 11:51:43 公開日:2023-12-06
# 外部から考える - 創造的なユーモア生成を伴う大規模言語モデルにおける思考の跳躍を探求する

Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation ( http://arxiv.org/abs/2312.02439v2 )

ライセンス: Link先を確認
Shanshan Zhong, Zhongzhan Huang, Shanghua Gao, Wushao Wen, Liang Lin, Marinka Zitnik, Pan Zhou(参考訳) Chain-of-Thought (CoT)は、大きな言語モデル(LLM)をステップバイステップで推論し、その論理的推論能力を動機付ける。 論理的なタスクには効果的ですが、CoTは創造的な問題解決には向いていません。 本稿では,LLMにおけるLeap-of-Thought(LoT)能力について考察する。 この目的のために, 参加者に優れた創造性と強い連想的思考を持たせ, 与えられた画像, テキスト, あるいはその両方に予期せぬ, ユーモラスに反応させることで, かつ, LoT 研究に適したゲームである Oogiri ゲーム上での LLM について検討する。 次に,Oogiri ゲームにおける LLM の LoT 能力を調べるために,Oogiri ゲームからの 1130,000 以上のサンプルを含むマルチモーダルかつ多言語な Oogiri-GO データセットを構築し,Oogiri ゲームにおける既存の LLM の LoT 能力や失敗を観察する。 そこで我々は,LLMのLoT能力を改善するために,クリエイティブなLeap-of-Thought(CLoT)パラダイムを導入する。 CLoTは、まず、Oogiri-GOデータセットをLoT指向のインストラクションチューニングデータに定式化し、特定のLoTユーモアの生成と識別能力を達成するために、事前訓練されたLLMを訓練する。 そして、CLoTは爆発的な自己リファインメントを設計し、LLMは、一見無関係な概念間の並列を探索することで、より創造的なLoTデータを生成することを奨励し、自己リファインメントのために自分自身を訓練するために高品質なデータを選択する。 CLoTは、Oogiriゲームにおけるユーモア生成に優れるだけでなく、クラウド推測ゲームやダイバージェントアソシエーションタスクなど、さまざまなタスクにおける創造能力を高める。 これらの知見は我々の理解を深め、ドメインをまたがる革新的なアプリケーションに対するllmsの創造的能力を改善するための経路を提供する。 データセット、コード、モデルはオンラインでリリースされる。 https://zhongshsh.github.io/CLoT/。

Chain-of-Thought (CoT) guides large language models (LLMs) to reason step-by-step, and can motivate their logical reasoning ability. While effective for logical tasks, CoT is not conducive to creative problem-solving which often requires out-of-box thoughts and is crucial for innovation advancements. In this paper, we explore the Leap-of-Thought (LoT) abilities within LLMs -- a non-sequential, creative paradigm involving strong associations and knowledge leaps. To this end, we study LLMs on the popular Oogiri game which needs participants to have good creativity and strong associative thinking for responding unexpectedly and humorously to the given image, text, or both, and thus is suitable for LoT study. Then to investigate LLMs' LoT ability in the Oogiri game, we first build a multimodal and multilingual Oogiri-GO dataset which contains over 130,000 samples from the Oogiri game, and observe the insufficient LoT ability or failures of most existing LLMs on the Oogiri game. Accordingly, we introduce a creative Leap-of-Thought (CLoT) paradigm to improve LLM's LoT ability. CLoT first formulates the Oogiri-GO dataset into LoT-oriented instruction tuning data to train pretrained LLM for achieving certain LoT humor generation and discrimination abilities. Then CLoT designs an explorative self-refinement that encourages the LLM to generate more creative LoT data via exploring parallels between seemingly unrelated concepts and selects high-quality data to train itself for self-refinement. CLoT not only excels in humor generation in the Oogiri game but also boosts creative abilities in various tasks like cloud guessing game and divergent association task. These findings advance our understanding and offer a pathway to improve LLMs' creative capacities for innovative applications across domains. The dataset, code, and models will be released online. https://zhongshsh.github.io/CLoT/.
翻訳日:2023-12-07 11:51:19 公開日:2023-12-06
# pefa:大規模組込み型検索モデルのためのパラメータフリーアダプタ

PEFA: Parameter-Free Adapters for Large-scale Embedding-based Retrieval Models ( http://arxiv.org/abs/2312.02429v2 )

ライセンス: Link先を確認
Wei-Cheng Chang, Jyun-Yu Jiang, Jiong Zhang, Mutasem Al-Darabsah, Choon Hui Teo, Cho-Jui Hsieh, Hsiang-Fu Yu, S.V.N. Vishwanathan(参考訳) 埋め込み型検索モデル (ERMs) は, 大規模テキスト検索問題に対して, 強力な大規模言語モデルによる将来的なフレームワークとして登場した。 それでも、最先端の成果に達するための微調整のERMは、データの極端なスケールと多段パイプライン(例えば、事前訓練、微調整、蒸留)の複雑さのために高価である。 そこで本研究では,ermの高速チューニングのためのパラメータフリーアダプタであるpefaフレームワークを提案する。 インデックス構築段階では、PEFAはERMに非パラメトリックk-アネレスト隣人(kNN)成分を装備する。 推論段階でPEFAは、ERMとkNNの2つのスコアリング関数の凸結合を行う。 PEFAフレームワークは、近傍の定義に基づいて、二重ANNインデックスを使用したPEFA-XL(英: PEFA-XL)と単一ANNインデックスを使用したPEFA-XS(英: extra small)の2つの実現を誘導する。 実証的に、PEFAは2つの検索アプリケーションで大幅に改善されている。 Recall@100メトリックに関する文書検索では、PEFAはTrivia-QAで事前訓練されたERMを平均13.2%改善するだけでなく、NQ-320Kで微調整されたERMを平均5.5%改善する。 製品検索では、PEFA-XSとPEFA-XLはそれぞれ5.3%と14.5%の細調整EMMのRecall@100を改善している。 私たちのコードはhttps://github.com/amzn/pecos/tree/mainline/examples/pefa-wsdm24で利用可能です。

Embedding-based Retrieval Models (ERMs) have emerged as a promising framework for large-scale text retrieval problems due to powerful large language models. Nevertheless, fine-tuning ERMs to reach state-of-the-art results can be expensive due to the extreme scale of data as well as the complexity of multi-stages pipelines (e.g., pre-training, fine-tuning, distillation). In this work, we propose the PEFA framework, namely ParamEter-Free Adapters, for fast tuning of ERMs without any backward pass in the optimization. At index building stage, PEFA equips the ERM with a non-parametric k-nearest neighbor (kNN) component. At inference stage, PEFA performs a convex combination of two scoring functions, one from the ERM and the other from the kNN. Based on the neighborhood definition, PEFA framework induces two realizations, namely PEFA-XL (i.e., extra large) using double ANN indices and PEFA-XS (i.e., extra small) using a single ANN index. Empirically, PEFA achieves significant improvement on two retrieval applications. For document retrieval, regarding Recall@100 metric, PEFA improves not only pre-trained ERMs on Trivia-QA by an average of 13.2%, but also fine-tuned ERMs on NQ-320K by an average of 5.5%, respectively. For product search, PEFA improves the Recall@100 of the fine-tuned ERMs by an average of 5.3% and 14.5%, for PEFA-XS and PEFA-XL, respectively. Our code is available at https://github.com/amzn/pecos/tree/mainline/examples/pefa-wsdm24.
翻訳日:2023-12-07 11:50:27 公開日:2023-12-06
# アルツハイマー病の早期診断に向けて:免疫関連血液マーカーの進歩と計算モデリングアプローチ

Towards early diagnosis of Alzheimer's disease: Advances in immune-related blood biomarkers and computational modeling approaches ( http://arxiv.org/abs/2312.02248v2 )

ライセンス: Link先を確認
Sophia Krix, Ella Wilczynski, Neus Falg\`as, Raquel S\'anchez-Valle, Eti Yoles, Uri Nevo, Kuti Baruch, Holger Fr\"ohlich(参考訳) アルツハイマー病は世界中の人口で流行しているが、推奨バイオマーカーに基づく現在の診断法は専門病院でのみ利用可能である。 これらの状況から、アルツハイマー病は通常遅発性と診断され、早期の患者にのみ有効である現在利用可能な治療法とは対照的である。 血液ベースのバイオマーカーは、疾患の早期診断に容易にアクセス可能で低コストな方法のギャップを埋める可能性がある。 特に、末梢免疫系と最近発見された中枢神経系の免疫細胞のクロストークを考えると、免疫ベースの血液バイオマーカーは有望な選択かもしれない。 エージェントベースモデリングのような機械学習アルゴリズムと機械的なモデリングアプローチの助けを借りて、細胞動力学のシミュレーションの詳細な解析が可能であり、また経路シグナルの変化を示す高次元のオミクスリソースも可能である。 本稿では、アルツハイマー病における脳免疫系クロストークの研究の進展を背景として、血液ベースの免疫系関連バイオマーカー発見に現代オミクス技術を活用した最近の機械学習およびメカニスティックモデリングアプローチを概説する。

Alzheimer's disease has an increasing prevalence in the population world-wide, yet current diagnostic methods based on recommended biomarkers are only available in specialized clinics. Due to these circumstances, Alzheimer's disease is usually diagnosed late, which contrasts with the currently available treatment options that are only effective for patients at an early stage. Blood-based biomarkers could fill in the gap of easily accessible and low-cost methods for early diagnosis of the disease. In particular, immune-based blood-biomarkers might be a promising option, given the recently discovered cross-talk of immune cells of the central nervous system with those in the peripheral immune system. With the help of machine learning algorithms and mechanistic modeling approaches, such as agent-based modeling, an in-depth analysis of the simulation of cell dynamics is possible as well as of high-dimensional omics resources indicative of pathway signaling changes. Here, we give a background on advances in research on brain-immune system cross-talk in Alzheimer's disease and review recent machine learning and mechanistic modeling approaches which leverage modern omics technologies for blood-based immune system-related biomarker discovery.
翻訳日:2023-12-07 11:49:46 公開日:2023-12-06
# TPPoet:極小データと高度な復号技術を用いたトランスフォーマーに基づくペルシャ歌生成

TPPoet: Transformer-Based Persian Poem Generation using Minimal Data and Advanced Decoding Techniques ( http://arxiv.org/abs/2312.02125v2 )

ライセンス: Link先を確認
Amir Panahandeh, Hanie Asemi, Esmaeil Nourani(参考訳) 近年の言語モデル (LM) の進歩は, 芸術や人文科学に関わる課題において顕著な効果を示した。 LMは、さまざまな自然言語処理タスクにおいて、例外的なパフォーマンスを示してきたが、小さなデータセットの利用と、より創造的な人間の能力を再現する能力にまつわる顕著な課題がある。 本研究では,ペルシャの古典詩生成モデルを,事前学習のない特別なデータセット上でトランスフォーマーアーキテクチャを用いて訓練することにより,これらの課題に対処することを目的とする。 さらに, 多様性と質のトレードオフを効果的に管理し, 生成詩の一貫性と有意義性を高める新しい復号法を提案する。 さらに,本学習手法と提案手法は,総合的な自動評価と人的評価によって評価され,他の復号法や既存のペルシャ大言語モデル(LLM)と比較して,一貫性と意味のある詩を生成する能力に優れていた。

Recent advances in language models (LMs), have demonstrated significant efficacy in tasks related to the arts and humanities. While LMs have exhibited exceptional performance across a wide range of natural language processing tasks, there are notable challenges associated with their utilization on small datasets and their ability to replicate more creative human capacities. In this study, we aim to address these challenges by training a Persian classical poetry generation model using a transformer architecture on a specialized dataset with no pretraining. Additionally, we propose a novel decoding method to enhance coherence and meaningfulness in the generated poetry, effectively managing the tradeoff between diversity and quality. Furthermore, the results of our training approach and the proposed decoding method are evaluated through comprehensive set of automatic and human evaluations and showed its superior capability to generate coherent and meaningful poetry in compare to other decoding methods and an existing Persian large language model (LLM).
翻訳日:2023-12-07 11:49:26 公開日:2023-12-06
# 身体的ナビゲーションのためのジェネリストモデル学習に向けて

Towards Learning a Generalist Model for Embodied Navigation ( http://arxiv.org/abs/2312.02010v2 )

ライセンス: Link先を確認
Duo Zheng, Shijia Huang, Lin Zhao, Yiwu Zhong, Liwei Wang(参考訳) 世界と対話できる汎用エージェントの構築は、AIシステムの興味深いターゲットであり、エージェントが指示に従ってナビゲートしたり、クエリに応答する必要のある、実施されたナビゲーションの研究を促進する。 達成された大きな進歩にもかかわらず、以前の作業は主にタスク固有のエージェントに焦点が当てられ、見当たらないシナリオの一般化が欠如していた。 近年、LSMは様々な分野において顕著な能力を示しており、航法を具現化するための有望な機会を提供している。 そこで本研究では,NaviLLMを具体化したナビゲーションモデルを提案する。 スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。 スキーマベースの命令は、様々なタスクを柔軟に生成問題にキャストし、幅広いタスクを統一する。 このアプローチにより、さまざまなデータセットからさまざまなデータソースをトレーニングに統合でき、具体化されたナビゲーションに必要な幅広い機能にnavillmを組み合わせることができます。 我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。 実験により, CVDN, SOON, ScanQA上での最先端性能が得られた。 具体的には、CVDNにおける目標進捗の29%のかなりのマージンで、従来の最先端の手法を上回っている。 さらに,本モデルは,質問応答や3次元キャプションなどの非認識タスクにおいて,強い一般化可能性を示し,印象的な結果を示す。

Building a generalist agent that can interact with the world is the intriguing target of AI systems, thus spurring the research for embodied navigation, where an agent is required to navigate according to instructions or respond to queries. Despite the major progress attained, previous works primarily focus on task-specific agents and lack generalizability to unseen scenarios. Recently, LLMs have presented remarkable capabilities across various fields, and provided a promising opportunity for embodied navigation. Drawing on this, we propose the first generalist model for embodied navigation, NaviLLM. It adapts LLMs to embodied navigation by introducing schema-based instruction. The schema-based instruction flexibly casts various tasks into generation problems, thereby unifying a wide range of tasks. This approach allows us to integrate diverse data sources from various datasets into the training, equipping NaviLLM with a wide range of capabilities required by embodied navigation. We conduct extensive experiments to evaluate the performance and generalizability of our model. The experimental results demonstrate that our unified model achieves state-of-the-art performance on CVDN, SOON, and ScanQA. Specifically, it surpasses the previous stats-of-the-art method by a significant margin of 29% in goal progress on CVDN. Moreover, our model also demonstrates strong generalizability and presents impressive results on unseen tasks, e.g., embodied question answering and 3D captioning.
翻訳日:2023-12-07 11:48:45 公開日:2023-12-06
# マルチオブジェクト追跡におけるByteTrackのアダプティブ信頼閾値

Adaptive Confidence Threshold for ByteTrack in Multi-Object Tracking ( http://arxiv.org/abs/2312.01650v2 )

ライセンス: Link先を確認
Linh Van Ma, Muhammad Ishfaq Hussain, JongHyun Park, Jeongbae Kim, Moongu Jeon(参考訳) マルチオブジェクトトラッキングの領域におけるByteTrackの適用について検討する。 ByteTrackは単純なトラッキングアルゴリズムであり、信頼性の低い検出を戦略的に組み込むことで、複数のオブジェクトの同時追跡を可能にする。 従来、オブジェクトは高い信頼度しきい値検出と関連付けられる。 オブジェクトと検出の関連が曖昧になるとき、ByteTrackは信頼性の低いしきい値検出に関連を拡大する。 既存のByteTrackアプローチの顕著な欠点は、高い信頼度と低い信頼度を区別する固定しきい値に依存することだ。 この制限に対応して,新しい適応的アプローチを提案する。 提案手法は,信頼度閾値の動的調整を伴い,全体検出から得られた知見を活用できる。 実験により、ByteTrackと比較してランニング時間を維持しながら、適応信頼度閾値手法の有効性を示す。

We investigate the application of ByteTrack in the realm of multiple object tracking. ByteTrack, a simple tracking algorithm, enables the simultaneous tracking of multiple objects by strategically incorporating detections with a low confidence threshold. Conventionally, objects are initially associated with high confidence threshold detections. When the association between objects and detections becomes ambiguous, ByteTrack extends the association to lower confidence threshold detections. One notable drawback of the existing ByteTrack approach is its reliance on a fixed threshold to differentiate between high and low-confidence detections. In response to this limitation, we introduce a novel and adaptive approach. Our proposed method entails a dynamic adjustment of the confidence threshold, leveraging insights derived from overall detections. Through experimentation, we demonstrate the effectiveness of our adaptive confidence threshold technique while maintaining running time compared to ByteTrack.
翻訳日:2023-12-07 11:48:22 公開日:2023-12-06
# 言語指導による任意の粒度でのユニバーサルセグメンテーション

Universal Segmentation at Arbitrary Granularity with Language Instruction ( http://arxiv.org/abs/2312.01623v2 )

ライセンス: Link先を確認
Yong Liu, Cairong Zhang, Yitong Wang, Jiahao Wang, Yujiu Yang, Yansong Tang(参考訳) 本稿では,任意の意味レベルの普遍的なセグメンテーションを実現することを目的とする。 近年の進歩にもかかわらず、専門的なセグメンテーションアプローチは特定のタスクやデータ分散に限られている。 新しいシナリオや設定に適応するための新しいモデルをトレーニングするには、計算コストと時間コストがかかるため、さまざまな粒度に対応する汎用的で普遍的なセグメンテーションモデルの需要が高まる。 異なるセグメンテーションタスクを統一したり、様々なシナリオに一般化するための試みもあるが、パラダイムや入力出力空間の定義の制限により、任意の粒度でコンテンツの正確な理解が困難になる。 この目的のために,言語指示の指導により任意の意味レベルでセグメンテーションを行うことのできるユニバーサルセグメンテーションモデルであるunilsegを提案する。 unilsegをトレーニングするために、タスク群を元の多様なディストリビューションから統一データフォーマットに再編成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクが出力される。 多数のラベルのないデータを利用する自動アノテーションエンジンと組み合わせることで、unilsegは様々なタスクや設定で優れたパフォーマンスを実現し、専門的なセグメンテーションモデルと統一されたセグメンテーションモデルの両方を上回っている。

This paper aims to achieve universal segmentation of arbitrary semantic level. Despite significant progress in recent years, specialist segmentation approaches are limited to specific tasks and data distribution. Retraining a new model for adaptation to new scenarios or settings takes expensive computation and time cost, which raises the demand for versatile and universal segmentation model that can cater to various granularity. Although some attempts have been made for unifying different segmentation tasks or generalization to various scenarios, limitations in the definition of paradigms and input-output spaces make it difficult for them to achieve accurate understanding of content at arbitrary granularity. To this end, we present UniLSeg, a universal segmentation model that can perform segmentation at any semantic level with the guidance of language instructions. For training UniLSeg, we reorganize a group of tasks from original diverse distributions into a unified data format, where images with texts describing segmentation targets as input and corresponding masks are output. Combined with a automatic annotation engine for utilizing numerous unlabeled data, UniLSeg achieves excellent performance on various tasks and settings, surpassing both specialist and unified segmentation models.
翻訳日:2023-12-07 11:48:12 公開日:2023-12-06
# D-Bot:大規模言語モデルを用いたデータベース診断システム

D-Bot: Database Diagnosis System using Large Language Models ( http://arxiv.org/abs/2312.01454v2 )

ライセンス: Link先を確認
Xuanhe Zhou, Guoliang Li, Zhaoyan Sun, Zhiyuan Liu, Weize Chen, Jianming Wu, Jiesi Liu, Ruohang Feng, Guoyang Zeng(参考訳) データベース管理者(DBA)は、データベースシステムの管理、保守、最適化において重要な役割を果たす。 しかし、DBAが大量のデータベースを管理し、タイムリーに応答する(多くのオンラインケースでは、何時間も待たない)ことは、困難で面倒である。 さらに、既存の経験的手法は限定的な診断シナリオのみをサポートしており、データベースのバージョン更新の診断ルールを更新するのに手間がかかる。 近年の大規模言語モデル (LLM) は様々な分野で大きな可能性を示している。 そこで本研究では,LDMに基づくデータベース診断システムであるD-Botを提案する。診断文書から知識を自動取得し,許容時間(例えば,DBAの時間と比較すると10分未満)で合理的かつ十分に確立された診断報告(根本原因と解決策の同定)を生成する。 D-Botのテクニックには (i)文書からのオフラインの知識抽出 (ii)自動プロンプト生成(例えば、知識マッチング、ツール検索) (iii)木探索アルゴリズムを用いた根因解析、及び (iv)複数の根因を有する複雑な異常に対する協調機構 実ベンチマーク(6つの典型的なアプリケーション 539 の異常を含む)上で D-Bot を検証した結果、D-Bot は目に見えない異常の根本原因を効果的に解析し、GPT-4 のような従来の手法やバニラモデルよりも著しく優れていることが示された。

Database administrators (DBAs) play an important role in managing, maintaining and optimizing database systems. However, it is hard and tedious for DBAs to manage a large number of databases and give timely response (waiting for hours is intolerable in many online cases). In addition, existing empirical methods only support limited diagnosis scenarios, which are also labor-intensive to update the diagnosis rules for database version updates. Recently large language models (LLMs) have shown great potential in various fields. Thus, we propose D-Bot, an LLM-based database diagnosis system that can automatically acquire knowledge from diagnosis documents, and generate reasonable and well-founded diagnosis report (i.e., identifying the root causes and solutions) within acceptable time (e.g., under 10 minutes compared to hours by a DBA). The techniques in D-Bot include (i) offline knowledge extraction from documents, (ii) automatic prompt generation (e.g., knowledge matching, tool retrieval), (iii) root cause analysis using tree search algorithm, and (iv) collaborative mechanism for complex anomalies with multiple root causes. We verify D-Bot on real benchmarks (including 539 anomalies of six typical applications), and the results show that D-Bot can effectively analyze the root causes of unseen anomalies and significantly outperforms traditional methods and vanilla models like GPT-4.
翻訳日:2023-12-07 11:47:50 公開日:2023-12-06