このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240325となっている論文です。

PDF登録状況(公開日: 20240325)

TitleAuthorsAbstract論文公表日・翻訳日
# ウェアラブルシナリオにおけるTimeMAE-PFMに基づくPFM(Multimodal Physical Fitness Monitoring)フレームワーク

Multimodal Physical Fitness Monitoring (PFM) Framework Based on TimeMAE-PFM in Wearable Scenarios ( http://arxiv.org/abs/2404.15294v1 )

ライセンス: Link先を確認
Junjie Zhang, Zheming Zhang, Huachen Xiang, Yangquan Tan, Linnan Huo, Fengyi Wang, (参考訳) 身体機能モニタリング(PFM)は,特に高齢者の医療において重要な役割を担っている。 ショート・フィジカル・パフォーマンス・バッテリ(SPPB)のような従来の評価手法は、物理機能の完全な動的特性を捉えられなかった。 スマートリストバンドのようなウェアラブルセンサーは、この問題に対して有望な解決策を提供する。 しかし、機械学習手法の計算複雑性や不十分な情報キャプチャなど、課題が存在する。 本稿では、時系列データを低次元の潜在空間に圧縮し、自己強化型アテンションモジュールを統合する、改良されたTimeMAEに基づくマルチモーダルPFMフレームワークを提案する。 このフレームワークは、身体の健康を効果的にモニタリングし、リアルタイムおよびパーソナライズされた評価のためのソリューションを提供する。 この手法はNAHATSデータセットを用いて検証され、その結果70.6%の精度と82.20%のAUCが、他の最先端の時系列分類モデルを上回った。

Physical function monitoring (PFM) plays a crucial role in healthcare especially for the elderly. Traditional assessment methods such as the Short Physical Performance Battery (SPPB) have failed to capture the full dynamic characteristics of physical function. Wearable sensors such as smart wristbands offer a promising solution to this issue. However, challenges exist, such as the computational complexity of machine learning methods and inadequate information capture. This paper proposes a multi-modal PFM framework based on an improved TimeMAE, which compresses time-series data into a low-dimensional latent space and integrates a self-enhanced attention module. This framework achieves effective monitoring of physical health, providing a solution for real-time and personalized assessment. The method is validated using the NHATS dataset, and the results demonstrate an accuracy of 70.6% and an AUC of 82.20%, surpassing other state-of-the-art time-series classification models.
翻訳日:2024-04-28 11:06:36 公開日:2024-03-25
# X-AMRを用いた線形クロスドキュメントイベント参照分解能

Linear Cross-document Event Coreference Resolution with X-AMR ( http://arxiv.org/abs/2404.08656v1 )

ライセンス: Link先を確認
Shafiuddin Rehan Ahmed, George Arthur Baker, Evi Judge, Michael Regan, Kristin Wright-Bettner, Martha Palmer, James H. Martin, (参考訳) イベント会議解決(ECR)は、自動システムと手動アノテーションの両方において、ペアワイズな分類タスクとして高価である。 大規模言語モデル(LLM)を使用する場合、タスクの二次的困難は悪化し、ECRの迅速なエンジニアリングは違法にコストがかかる。 本稿では,イベントのグラフィカルな表現であるX-AMRを提案する。この表現は,textbf{A}bstract \textbf{M}eaning \textbf{R}epresentationの文書版を用いて,個々の参照に固定されている。 次に、イベントグラフ上の新しいマルチホップコア参照アルゴリズムを用いて、ECRを線形化する。 イベントグラフはECRを単純化し、それを作る a) LLM の費用対効果 b) 構成的かつ解釈可能で c) 簡単に注釈をつける。 公平な評価のために、私たちはまず、アノテータフレンドリなツールを使用して、これらのイベントグラフで既存のECRベンチマークデータセットを豊かにします。 そして、これらのアノテーションに対して、OpenAIによる最新のLLMであるGPT-4を採用する。 最後に,EMCアルゴリズムを用いてヒトに対するGPT-4の評価を行い,その限界を解析する。 本研究は,効率的なECRの最先端化をめざし,現在のLCMの潜在的な欠点を浮き彫りにすることを目的としている。 コードとアノテーション: \url{https://github.com/ahmeshaf/gpt_coref}

Event Coreference Resolution (ECR) as a pairwise mention classification task is expensive both for automated systems and manual annotations. The task's quadratic difficulty is exacerbated when using Large Language Models (LLMs), making prompt engineering for ECR prohibitively costly. In this work, we propose a graphical representation of events, X-AMR, anchored around individual mentions using a \textbf{cross}-document version of \textbf{A}bstract \textbf{M}eaning \textbf{R}epresentation. We then linearize the ECR with a novel multi-hop coreference algorithm over the event graphs. The event graphs simplify ECR, making it a) LLM cost-effective, b) compositional and interpretable, and c) easily annotated. For a fair assessment, we first enrich an existing ECR benchmark dataset with these event graphs using an annotator-friendly tool we introduce. Then, we employ GPT-4, the newest LLM by OpenAI, for these annotations. Finally, using the ECR algorithm, we assess GPT-4 against humans and analyze its limitations. Through this research, we aim to advance the state-of-the-art for efficient ECR and shed light on the potential shortcomings of current LLMs at this task. Code and annotations: \url{https://github.com/ahmeshaf/gpt_coref}
翻訳日:2024-04-21 20:04:31 公開日:2024-03-25
# 学習学習による材料特性の補間予測の促進

Advancing Extrapolative Predictions of Material Properties through Learning to Learn ( http://arxiv.org/abs/2404.08657v1 )

ライセンス: Link先を確認
Kohei Noda, Araki Wakiuchi, Yoshihiro Hayashi, Ryo Yoshida, (参考訳) 機械学習の最近の進歩は、新しい物質の発見を著しく加速する可能性を示した。 この進歩の中心は、急速に計算可能な特性予測器の開発であり、広い材料空間から望ましい性質を持つ新しい材料を識別することができる。 しかし、データリソースの可用性が限られていることは、データ駆動材料の研究において大きな課題となり、特に既存のデータの境界を超えた革新的な素材の探索を妨げている。 機械学習予測器は本質的に補間的であるが、外挿予測器を作成するための一般的な方法論を確立することは根本的な課題であり、既存のデータ境界を超えた革新的な素材の探索を制限している。 本研究では,ニューラルネットワークとメタ学習アルゴリズムの注意に基づくアーキテクチャを活用し,外挿的一般化能力を取得する。 任意に生成された外挿タスクを繰り返し経験するメタラーナーは、未探索の材料空間における卓越した一般化能力を得ることができる。 高分子材料とハイブリッド有機-無機ペロブスカイトの物性を予測するタスクを通じて、このような外挿訓練されたモデルの可能性を強調し、特にトランスファー学習シナリオにおいて、目に見えない物質ドメインに迅速に適応する能力を強調した。

Recent advancements in machine learning have showcased its potential to significantly accelerate the discovery of new materials. Central to this progress is the development of rapidly computable property predictors, enabling the identification of novel materials with desired properties from vast material spaces. However, the limited availability of data resources poses a significant challenge in data-driven materials research, particularly hindering the exploration of innovative materials beyond the boundaries of existing data. While machine learning predictors are inherently interpolative, establishing a general methodology to create an extrapolative predictor remains a fundamental challenge, limiting the search for innovative materials beyond existing data boundaries. In this study, we leverage an attention-based architecture of neural networks and meta-learning algorithms to acquire extrapolative generalization capability. The meta-learners, experienced repeatedly with arbitrarily generated extrapolative tasks, can acquire outstanding generalization capability in unexplored material spaces. Through the tasks of predicting the physical properties of polymeric materials and hybrid organic--inorganic perovskites, we highlight the potential of such extrapolatively trained models, particularly with their ability to rapidly adapt to unseen material domains in transfer learning scenarios.
翻訳日:2024-04-21 20:04:31 公開日:2024-03-25
# マンダリン英会話音声のコーパスによる音声翻訳の促進

Advancing Speech Translation: A Corpus of Mandarin-English Conversational Telephone Speech ( http://arxiv.org/abs/2404.11619v1 )

ライセンス: Link先を確認
Shannon Wotherspoon, William Hartmann, Matthew Snover, (参考訳) 本稿では,CallHome Mandarin 中国語データとHKUST Mandarin 中国語音声データの123時間サブセットに対する英訳について紹介する。 Paired source-lang speech and target-lang text is essential to training end-to-end speech translation system, and can provide significant performance improvements for cascaded system, with training on more wide available text data sets。 マンダリン英会話音声訓練セットに汎用的な翻訳モデルを微調整することで,目標領域BLEUを8点以上改善し,一致した学習データの重要性を強調した。

This paper introduces a set of English translations for a 123-hour subset of the CallHome Mandarin Chinese data and the HKUST Mandarin Telephone Speech data for the task of speech translation. Paired source-language speech and target-language text is essential for training end-to-end speech translation systems and can provide substantial performance improvements for cascaded systems as well, relative to training on more widely available text data sets. We demonstrate that fine-tuning a general-purpose translation model to our Mandarin-English conversational telephone speech training set improves target-domain BLEU by more than 8 points, highlighting the importance of matched training data.
翻訳日:2024-04-21 19:45:03 公開日:2024-03-25
# 一貫性モデルのためのRL:より高速なリワードガイドテキスト-画像生成

RL for Consistency Models: Faster Reward Guided Text-to-Image Generation ( http://arxiv.org/abs/2404.03673v1 )

ライセンス: Link先を確認
Owen Oertell, Jonathan D. Chang, Yiyi Zhang, Kianté Brantley, Wen Sun, (参考訳) Reinforcement Learning (RL)は、画像品質、美学、指示追従能力をキャプチャする報酬を直接最適化することにより、拡散モデルによるガイド付き画像生成を改善した。 しかし、結果として生じる生成ポリシーは、遅い生成を引き起こす拡散モデルの反復サンプリングプロセスを継承する。 この制限を克服するために、一貫性モデルは、ノイズを直接データにマッピングする新しい世代の生成モデルを学ぶことを提案した。 本研究では,タスク固有報酬に対するテキスト・ツー・イメージ生成モデルを最適化し,高速なトレーニングと推論を実現するために,RLを用いた微調整一貫性モデルのためのフレームワークを提案する。 RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。 RLCMは、テキスト・画像生成機能に基づくRL微調整拡散モデルを改善し、サンプル品質の推論時間における計算を交換する。 実験により,RLCMは画像の圧縮性や美的品質などの人間のフィードバックから導出されるようなプロンプトで表現しにくい目標に対して,テキスト・画像の整合性モデルを適用することができることを示す。 RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。 私たちのコードはhttps://rlcm.owenoertell.comで公開されている。

Reinforcement learning (RL) has improved guided image generation with diffusion models by directly optimizing rewards that capture image quality, aesthetics, and instruction following capabilities. However, the resulting generative policies inherit the same iterative sampling process of diffusion models that causes slow generation. To overcome this limitation, consistency models proposed learning a new class of generative models that directly map noise to data, resulting in a model that can generate an image in as few as one sampling iteration. In this work, to optimize text-to-image generative models for task specific rewards and enable fast training and inference, we propose a framework for fine-tuning consistency models via RL. Our framework, called Reinforcement Learning for Consistency Model (RLCM), frames the iterative inference process of a consistency model as an RL procedure. RLCM improves upon RL fine-tuned diffusion models on text-to-image generation capabilities and trades computation during inference time for sample quality. Experimentally, we show that RLCM can adapt text-to-image consistency models to objectives that are challenging to express with prompting, such as image compressibility, and those derived from human feedback, such as aesthetic quality. Comparing to RL finetuned diffusion models, RLCM trains significantly faster, improves the quality of the generation measured under the reward objectives, and speeds up the inference procedure by generating high quality images with as few as two inference steps. Our code is available at https://rlcm.owenoertell.com
翻訳日:2024-04-14 13:21:48 公開日:2024-03-25
# 任意時変メタマテリアルにおける光転移

Photon Transitions in Arbitrary Time-Varying Metamaterials ( http://arxiv.org/abs/2404.04273v1 )

ライセンス: Link先を確認
Artuur Stevens, Christophe Caloz, (参考訳) 任意の時間変化を持つメタマテリアルにおける光子の遷移を計算するための一般的な理論を提案する。 この理論は、時間依存数演算子の固有状態を利用することによって、そのような一般的な問題を解決する従来の手法の難しさを回避している。 ここでは、これらの作用素の時間的進化と、ロジスティックおよび線形誘電率プロファイルの場合の関連する遷移確率を示す。 この理論は任意の時空変調に拡張可能であり、従って複数の新しい量子効果や応用をもたらす可能性がある。

We present a general theory for calculating photon transitions in arbitrarily time-varying metamaterials. This theory circumvents the difficulties of conventional approaches in solving such a general problem by exploiting the eigenstates of time-dependent number operators. We demonstrate here the temporal evolution of these operators and the related transition probabilities for the cases of logistic and linear permittivity profiles. The theory is potentially extensible to arbitrary space-time modulations and may hence lead to multiple novel quantum effects and applications.
翻訳日:2024-04-14 13:21:48 公開日:2024-03-25
# AD-NEv++ : 多構造神経進化に基づく多変量異常検出フレームワーク

AD-NEv++ : The multi-architecture neuroevolution-based multivariate anomaly detection framework ( http://arxiv.org/abs/2404.07968v1 )

ライセンス: Link先を確認
Marcin Pietroń, Dominik Żurek, Kamil Faber, Roberto Corizzo, (参考訳) 異常検出ツールと方法は、現代のサイバー物理およびセンサーベースのシステムにおいて重要な分析機能を可能にする。 異常検出のためのディープラーニングアーキテクチャの急速な発展にもかかわらず、与えられたデータセットのモデル最適化は面倒で時間を要するプロセスである。 神経進化は、最適ニューラルネットワークを学習し、勾配と非勾配の微調整の両方をサポートする完全自動化された探索方法として、この問題に対する効率的かつ効率的な解決策となり得る。 しかしながら、ニューロエボリューションを取り入れた既存のフレームワークは、新しいレイヤやアーキテクチャをサポートしておらず、通常は畳み込み層とLSTM層に限られている。 本稿では,サブスペース進化,モデル進化,微調整を相乗的に組み合わせた3段階の神経進化に基づくAD-NEv++を提案する。 提案手法は,神経進化過程における突然変異演算子を最適化し,注目層,高密度層,グラフ畳み込み層を含む幅広い神経層をサポートすることにより,既存のアプローチの限界を克服する。 その結果,AD-NEv++が生成したモデルは,よく知られたディープラーニングアーキテクチャや,異常検出のための神経進化に基づくアプローチよりも優れていることがわかった。 さらに、AD-NEv++は、すべての異常検出ベンチマークにおいて最先端のGNN(Graph Neural Networks)モデルアーキテクチャを改善し、性能を向上できることを示した。

Anomaly detection tools and methods enable key analytical capabilities in modern cyberphysical and sensor-based systems. Despite the fast-paced development in deep learning architectures for anomaly detection, model optimization for a given dataset is a cumbersome and time-consuming process. Neuroevolution could be an effective and efficient solution to this problem, as a fully automated search method for learning optimal neural networks, supporting both gradient and non-gradient fine tuning. However, existing frameworks incorporating neuroevolution lack of support for new layers and architectures and are typically limited to convolutional and LSTM layers. In this paper we propose AD-NEv++, a three-stage neuroevolution-based method that synergically combines subspace evolution, model evolution, and fine-tuning. Our method overcomes the limitations of existing approaches by optimizing the mutation operator in the neuroevolution process, while supporting a wide spectrum of neural layers, including attention, dense, and graph convolutional layers. Our extensive experimental evaluation was conducted with widely adopted multivariate anomaly detection benchmark datasets, and showed that the models generated by AD-NEv++ outperform well-known deep learning architectures and neuroevolution-based approaches for anomaly detection. Moreover, results show that AD-NEv++ can improve and outperform the state-of-the-art GNN (Graph Neural Networks) model architecture in all anomaly detection benchmarks.
翻訳日:2024-04-14 13:03:36 公開日:2024-03-25
# ストックフォアキャスティングのための新しい位置決め機構と改良されたEMDによるエンドツーエンド構造

An End-to-End Structure with Novel Position Mechanism and Improved EMD for Stock Forecasting ( http://arxiv.org/abs/2404.07969v1 )

ライセンス: Link先を確認
Chufeng Li, Jianyong Chen, (参考訳) 時系列予測の分野として、株価の動き予測は投資家や研究者にとって難しい問題の一つだ。 Transformerは金融データを分析するために導入されて以来、多くの研究者がTransformerやアテンションメカニズムを使ったストックムーブメントの予測に力を入れてきた。 しかし、既存の研究は主に個々の株式情報に焦点を当てているが、株価情報や株価データの高ノイズを無視している。 本稿では,株式情報と個別株式情報の両方を考慮に入れた注目機構を用いた新しい手法を提案する。 一方,ストックデータの短期ノイズを低減するための新しいEMDベースのアルゴリズムを提案する。 米国株式市場から10年以上にわたって、ランダムに選択された2つの為替取引ファンド(ETF)を用いて、提案手法の優れた性能を実証する。 実験により,提案手法が他の最先端のベースラインを著しく上回ることを示す。 コードはhttps://github.com/DurandalLee/ACEFormer.comで入手できる。

As a branch of time series forecasting, stock movement forecasting is one of the challenging problems for investors and researchers. Since Transformer was introduced to analyze financial data, many researchers have dedicated themselves to forecasting stock movement using Transformer or attention mechanisms. However, existing research mostly focuses on individual stock information but ignores stock market information and high noise in stock data. In this paper, we propose a novel method using the attention mechanism in which both stock market information and individual stock information are considered. Meanwhile, we propose a novel EMD-based algorithm for reducing short-term noise in stock data. Two randomly selected exchange-traded funds (ETFs) spanning over ten years from US stock markets are used to demonstrate the superior performance of the proposed attention-based method. The experimental analysis demonstrates that the proposed attention-based method significantly outperforms other state-of-the-art baselines. Code is available at https://github.com/DurandalLee/ACEFormer.
翻訳日:2024-04-14 13:03:36 公開日:2024-03-25
# UAlign: 教師なしSMILESアライメントによるテンプレートフリー再合成予測の限界を押し上げる

UAlign: Pushing the Limit of Template-free Retrosynthesis Prediction with Unsupervised SMILES Alignment ( http://arxiv.org/abs/2404.00044v1 )

ライセンス: Link先を確認
Kaipeng Zeng, Xin Zhao, Yu Zhang, Fan Nie, Xiaokang Yang, Yaohui Jin, Yanyan Xu, (参考訳) 再合成計画は有機化学産業、特に医薬品業界において深刻な課題となっている。 計画プロセスにおける重要なステップである1段階のレトロシンセシス予測は、科学のためのAIの進歩による近年の関心の高まりを目撃している。 近年, この課題に対して, 様々な深層学習手法が提案されている。 本稿では,テンプレートのないグラフ・ツー・シーケンスパイプラインであるUAlignを紹介した。 グラフニューラルネットワークとトランスフォーマーを組み合わせることで、分子固有のグラフ構造をより効果的に活用することができる。 化学反応中に分子構造の大半が変化しないという事実に基づき, 反応生成のための構造変化の再利用を容易にするため, 単純かつ効果的なSMILESアライメント法を提案する。 大規模な実験により,本手法は最先端のテンプレートフリーおよび半テンプレートベースアプローチよりも大幅に優れていることが示された。 重要なことは、テンプレートフリーな手法は、確立されたテンプレートベースの手法に匹敵する、あるいは超える効果を達成することである。 科学的貢献: 分子表現学習におけるトランスフォーマーに基づく手法の限界を克服し, 化学情報の不十分な利用を克服する, グラフ・ツー・シーケンス・テンプレート・フリーなレトロシンセシス予測パイプラインを提案する。 本稿では,SMILESトークンと製品-原子対応性を確立するための教師なし学習機構を提案し,SMILESアライメント法よりも優れた結果が得られることを示す。 大規模な実験により、UAlignは最先端のテンプレートフリーメソッドを著しく上回り、テンプレートベースのアプローチに匹敵し、最大5\%(トップ5)と5.4\%(トップ10)の精度が最強のベースラインよりも向上した。

Retrosynthesis planning poses a formidable challenge in the organic chemical industry, particularly in pharmaceuticals. Single-step retrosynthesis prediction, a crucial step in the planning process, has witnessed a surge in interest in recent years due to advancements in AI for science. Various deep learning-based methods have been proposed for this task in recent years, incorporating diverse levels of additional chemical knowledge dependency. This paper introduces UAlign, a template-free graph-to-sequence pipeline for retrosynthesis prediction. By combining graph neural networks and Transformers, our method can more effectively leverage the inherent graph structure of molecules. Based on the fact that the majority of molecule structures remain unchanged during a chemical reaction, we propose a simple yet effective SMILES alignment technique to facilitate the reuse of unchanged structures for reactant generation. Extensive experiments show that our method substantially outperforms state-of-the-art template-free and semi-template-based approaches. Importantly, Our template-free method achieves effectiveness comparable to, or even surpasses, established powerful template-based methods. Scientific contribution: We present a novel graph-to-sequence template-free retrosynthesis prediction pipeline that overcomes the limitations of Transformer-based methods in molecular representation learning and insufficient utilization of chemical information. We propose an unsupervised learning mechanism for establishing product-atom correspondence with reactant SMILES tokens, achieving even better results than supervised SMILES alignment methods. Extensive experiments demonstrate that UAlign significantly outperforms state-of-the-art template-free methods and rivals or surpasses template-based approaches, with up to 5\% (top-5) and 5.4\% (top-10) increased accuracy over the strongest baseline.
翻訳日:2024-04-07 23:07:46 公開日:2024-03-25
# 規則化された汎用LQゲームにおけるナッシュ平衡の政策最適化

Policy Optimization finds Nash Equilibrium in Regularized General-Sum LQ Games ( http://arxiv.org/abs/2404.00045v1 )

ライセンス: Link先を確認
Muhammad Aneeq uz Zaman, Shubham Aggarwal, Melih Bastopcu, Tamer Başar, (参考訳) 本稿では,ジェネラルサムのNash Equilibria(NE)に対する相対エントロピー正則化の導入による影響を考察し,そのようなゲームのNEが線形ガウスポリシーに適合していることを明らかにする。 さらに、ゲーム内のNEの特異性に対して、エントロピー正則化の妥当性に基づいて、十分な条件を規定する。 政策最適化は、NEの発見を目的とした強化学習(RL)技術の基礎的アプローチとして機能するので、この研究において、(エントロピー正則化の精度を前提として)NEを得ることができる政策最適化アルゴリズムの線形収束性を証明する。 さらに,エントロピー正規化が不十分なシナリオでは,ゲーム内での$\epsilon$-NEの達成を促進する$\delta$-augmentation手法を提案する。

In this paper, we investigate the impact of introducing relative entropy regularization on the Nash Equilibria (NE) of General-Sum $N$-agent games, revealing the fact that the NE of such games conform to linear Gaussian policies. Moreover, it delineates sufficient conditions, contingent upon the adequacy of entropy regularization, for the uniqueness of the NE within the game. As Policy Optimization serves as a foundational approach for Reinforcement Learning (RL) techniques aimed at finding the NE, in this work we prove the linear convergence of a policy optimization algorithm which (subject to the adequacy of entropy regularization) is capable of provably attaining the NE. Furthermore, in scenarios where the entropy regularization proves insufficient, we present a $\delta$-augmentation technique, which facilitates the achievement of an $\epsilon$-NE within the game.
翻訳日:2024-04-07 23:07:46 公開日:2024-03-25
# 英国におけるニューロテクノロジーの公的・患者的関与に関するガイドライン

Guidelines for Public and Patient Involvement in Neurotechnology in the United Kingdom ( http://arxiv.org/abs/2404.00047v1 )

ライセンス: Link先を確認
Amparo Guemes Gonzalez, Tiago da Silva Costa, Tamar Makin, (参考訳) 神経技術は、私たちの日常生活、身体、心にますます統合されつつある。 神経技術の人気と影響が高まるにつれて、我々はその特定の倫理的・社会的意味を理解する責任も負う。 エンドユーザーや他のステークホルダーを神経テクノロジー開発に参加させることは、概念の初期段階でさえ、これらの深刻な考慮事項に関するデザインをより良くナビゲートし、より影響力のある技術を提供するのに役立つだろう。 技術開発ライフサイクルにエンドユーザを巻き込むという概念を具体化するための用語やフレームワークは、"Public and patient Involvement and Engagement"(PPIE)、"life experience"、"co-design"、"co-production"(共同生産)など、多岐にわたる。 神経テクノロジーに堅牢なPPIEプロセスを実装するための明確なガイドラインが欠けている。 一般的なアドバイスはオンラインで入手できるが、個人(と資金提供者)が意味のある関与に対して独自のアプローチを練るのは当然だ。 ここでは、イギリスの研究者や技術者が神経テクノロジーのPPIを行うためのガイダンスを示す。 総合的な目的は、我々の科学的調査と製品開発の最前線で患者と公衆の洞察をもたらす、ニューロテクノロジー分野におけるゴールドスタンダードPPIE方法論の確立である。

Neurotechnologies are increasingly becoming integrated in our everyday lives, our bodies and minds. As the popularity and impact of neurotech grows, so does our responsibility to ensure we understand its particular ethical and societal implications. Enabling end-users and other stakeholders to participate in the development of neurotechnology, even at its earliest stages of conception, will help us better navigate our design around these serious considerations, and deliver more impactful technologies. There are many different terms and frameworks to articulate the concept of involving end users in the technology development lifecycle: 'Public and Patient Involvement and Engagement' (PPIE), 'lived experience', 'co-design', 'co-production'. What is lacking are clear guidelines for implementing a robust PPIE process in neurotechnology. While general advice is available online, it is down to individuals (and their funders) to carve up their own approach to meaningful involvement. Here we present guidance for UK-based researchers and engineers to conduct PPI for neurotechnology. The overall aim is the establishment of gold-standard PPIE methodologies in the neurotechnology space that bring patient and public insights at the forefront of our scientific inquiry and product development.
翻訳日:2024-04-07 23:07:46 公開日:2024-03-25
# SLIMBRAIN:視覚内手術における深度情報を用いたハイパースペクトル分類マッピングのための拡張現実リアルタイム取得・処理システム

SLIMBRAIN: Augmented Reality Real-Time Acquisition and Processing System For Hyperspectral Classification Mapping with Depth Information for In-Vivo Surgical Procedures ( http://arxiv.org/abs/2404.00048v1 )

ライセンス: Link先を確認
Jaime Sancho, Manuel Villa, Miguel Chavarrías, Eduardo Juarez, Alfonso Lagares, César Sanz, (参考訳) 過去20年間で、拡張現実(AR)は、社会的および技術的アプリケーション分野の様々な分野において、新しいインターフェースを急速に発展させてきた。 そのような領域の1つは医学であり、より高度な手術であり、これらの可視化技術は術前および術中手術の有効性を向上させるのに役立つ。 本稿では,高スペクトル(HS)情報から脳腫瘍組織を分類・表示するのに適したリアルタイム取得・処理ARシステムであるSLIMBRAINを提案する。 このシステムは、腫瘍切除手術中に、HS画像を毎秒14フレーム(FPS)でキャプチャして処理し、ニューロサージョンの手術と同時に癌組織を検出し、切り離す。 結果はARビジュアライゼーションで表現され、分類結果はLiDARカメラで捉えたRGBポイントクラウドと重なる。 この表現は、撮影と処理と同時にシーンの自然なナビゲーションを可能にし、腫瘍を除去するためのHS技術の可視化と効果を改善している。 システム全体が実際の脳腫瘍切除手術で確認されている。

Over the last two decades, augmented reality (AR) has led to the rapid development of new interfaces in various fields of social and technological application domains. One such domain is medicine, and to a higher extent surgery, where these visualization techniques help to improve the effectiveness of preoperative and intraoperative procedures. Following this trend, this paper presents SLIMBRAIN, a real-time acquisition and processing AR system suitable to classify and display brain tumor tissue from hyperspectral (HS) information. This system captures and processes HS images at 14 frames per second (FPS) during the course of a tumor resection operation to detect and delimit cancer tissue at the same time the neurosurgeon operates. The result is represented in an AR visualization where the classification results are overlapped with the RGB point cloud captured by a LiDAR camera. This representation allows natural navigation of the scene at the same time it is captured and processed, improving the visualization and hence effectiveness of the HS technology to delimit tumors. The whole system has been verified in real brain tumor resection operations.
翻訳日:2024-04-07 23:07:46 公開日:2024-03-25
# Grappa - 学習した分子力学力場

Grappa -- A Machine Learned Molecular Mechanics Force Field ( http://arxiv.org/abs/2404.00050v1 )

ライセンス: Link先を確認
Leif Seute, Eric Hartmann, Jan Stühmer, Frauke Gräter, (参考訳) 長い時間スケールで大きな分子系をシミュレーションするには、正確かつ効率的な力場が必要である。 近年、E(3)同変ニューラルネットワークは計算効率と力場の精度の緊張を和らげているが、それでも古典的な分子力学(MM)力場よりも数桁高い。 本稿では,分子グラフからMMパラメータを予測するための新しい機械学習アーキテクチャを提案する。 結果として得られる力場であるGrappaは、同じ計算効率で精度で確立された他の機械学習MM力場よりも優れており、GROMACSやOpenMMのような既存の分子動力学(MD)エンジンで使用することができる。 それは、小さな分子、ペプチド、RNAのエネルギーと力を予測し、その拡張性を化学空間の非チャージ領域(最先端のMM精度でラジカル)に示す。 MDシミュレーションでは,大きなタンパク質を安定に保ち,小さなタンパク質を折り畳むことが可能である。 我々の力場は、化学精度に近い生体分子シミュレーションの段階を定式化されたタンパク質力場と同じ計算コストで設定する。

Simulating large molecular systems over long timescales requires force fields that are both accurate and efficient. In recent years, E(3) equivariant neural networks have lifted the tension between computational efficiency and accuracy of force fields, but they are still several orders of magnitude more expensive than classical molecular mechanics (MM) force fields. Here, we propose a novel machine learning architecture to predict MM parameters from the molecular graph, employing a graph attentional neural network and a transformer with symmetry-preserving positional encoding. The resulting force field, Grappa, outperforms established and other machine-learned MM force fields in terms of accuracy at the same computational efficiency and can be used in existing Molecular Dynamics (MD) engines like GROMACS and OpenMM. It predicts energies and forces of small molecules, peptides, RNA and - showcasing its extensibility to uncharted regions of chemical space - radicals at state-of-the-art MM accuracy. We demonstrate Grappa's transferability to macromolecules in MD simulations, during which large protein are kept stable and small proteins can fold. Our force field sets the stage for biomolecular simulations close to chemical accuracy, but with the same computational cost as established protein force fields.
翻訳日:2024-04-07 23:07:46 公開日:2024-03-25
# Deja vu: 時間的知識グラフ推論のためのプレフィックスチューニングによるコントラスト的歴史モデリング

Deja vu: Contrastive Historical Modeling with Prefix-tuning for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2404.00051v1 )

ライセンス: Link先を確認
Miao Peng, Ben Liu, Wenjie Xu, Zihao Jiang, Jiahui Zhu, Min Peng, (参考訳) 時間的知識グラフ推論(TKGR)は、複雑なシナリオ(例えば、トランスダクティブやインダクティブな設定)において、不完全なTKGに対して、欠落した事実を推測するタスクである。 近年,TKGの構造的接続への依存を軽減するために,エンティティ記述から豊富な言語情報を利用するテキストベースの手法が開発されている。 しかし、事前訓練された言語モデルの膨大なパラメータと柔軟性に悩まされ、既存のテキストベースの手法は、テキスト知識と時間情報のバランスと計算コストの高い目的構築トレーニング戦略のバランスをとるのに苦労する。 本稿では,TKGR のテキストベースモデルの可能性を活用するために,テポラル推論のためのプレフィックスチューニングを備えたコントラスト的歴史モデリングフレームワーク ChapTER を提案する。 ChapTERはヒストリコンテクスト化されたテキストを擬似シリアスエンコーダに入力し、クエリと候補間のコントラッシブな推定を通じてテキスト時間バランスを打つ。 仮想時間プレフィックストークンを導入することで、異なる設定下でTKGRタスクを実行できる冷凍PLMを容易にするためにプレフィックスベースのチューニング手法を適用する。 また,ChapTERを4つのトランスダクティブおよび3つの数ショットインダクティブTKGRベンチマークで評価したところ,ChapTERは0.17%の調整パラメータを持つ競合ベースラインに比べて優れた性能を示した。 本稿では,ChapTERの有効性,柔軟性,効率性を検証するため,徹底的な解析を行う。

Temporal Knowledge Graph Reasoning (TKGR) is the task of inferring missing facts for incomplete TKGs in complex scenarios (e.g., transductive and inductive settings), which has been gaining increasing attention. Recently, to mitigate dependence on structured connections in TKGs, text-based methods have been developed to utilize rich linguistic information from entity descriptions. However, suffering from the enormous parameters and inflexibility of pre-trained language models, existing text-based methods struggle to balance the textual knowledge and temporal information with computationally expensive purpose-built training strategies. To tap the potential of text-based models for TKGR in various complex scenarios, we propose ChapTER, a Contrastive historical modeling framework with prefix-tuning for TEmporal Reasoning. ChapTER feeds history-contextualized text into the pseudo-Siamese encoders to strike a textual-temporal balance via contrastive estimation between queries and candidates. By introducing virtual time prefix tokens, it applies a prefix-based tuning method to facilitate the frozen PLM capable for TKGR tasks under different settings. We evaluate ChapTER on four transductive and three few-shot inductive TKGR benchmarks, and experimental results demonstrate that ChapTER achieves superior performance compared to competitive baselines with only 0.17% tuned parameters. We conduct thorough analysis to verify the effectiveness, flexibility and efficiency of ChapTER.
翻訳日:2024-04-07 23:07:46 公開日:2024-03-25
# 大規模音声モデルの高能率マルチタスク適応のための階層的リカレント適応器

Hierarchical Recurrent Adapters for Efficient Multi-Task Adaptation of Large Speech Models ( http://arxiv.org/abs/2403.19709v1 )

ライセンス: Link先を確認
Tsendsuren Munkhdalai, Youzheng Chen, Khe Chai Sim, Fadi Biadsy, Tara Sainath, Pedro Moreno Mengibar, (参考訳) パラメータ効率のよい適応手法は、下流タスクのための大規模な事前学習モデルのトレーニングの鍵となるメカニズムとなっている。 しかしながら、タスク毎のパラメータのオーバーヘッドは、適応する下流タスクの数が大きい場合、依然として高く評価されている。 本稿では,大規模マルチタスク適応シナリオにおいて,より効率的なアダプタモジュールを提案する。 私たちのアダプタは、アダプタパラメータの割り当て方法に関して階層的です。 アダプタは、単一の共有コントローラネットワークと複数のタスクレベルのアダプタヘッドで構成され、ダウンストリームタスクのパフォーマンス低下なしに、タスク毎のパラメータオーバーヘッドを低減する。 アダプタもリカレントなので、アダプタパラメータ全体が事前訓練されたモデルの異なるレイヤで再利用される。 我々の階層的リカレントアダプタ(HRA)は、自動音声認識タスクで評価した場合、単一およびマルチタスク適応設定において、従来のアダプタベースのアプローチとフルモデル微調整ベースラインよりも優れている。

Parameter efficient adaptation methods have become a key mechanism to train large pre-trained models for downstream tasks. However, their per-task parameter overhead is considered still high when the number of downstream tasks to adapt for is large. We introduce an adapter module that has a better efficiency in large scale multi-task adaptation scenario. Our adapter is hierarchical in terms of how the adapter parameters are allocated. The adapter consists of a single shared controller network and multiple task-level adapter heads to reduce the per-task parameter overhead without performance regression on downstream tasks. The adapter is also recurrent so the entire adapter parameters are reused across different layers of the pre-trained model. Our Hierarchical Recurrent Adapter (HRA) outperforms the previous adapter-based approaches as well as full model fine-tuning baseline in both single and multi-task adaptation settings when evaluated on automatic speech recognition tasks.
翻訳日:2024-04-01 17:43:20 公開日:2024-03-25
# STRUM-LLM: 分布および構造化コントラストの要約

STRUM-LLM: Attributed and Structured Contrastive Summarization ( http://arxiv.org/abs/2403.19710v1 )

ライセンス: Link先を確認
Beliz Gunel, James B. Wendt, Jing Xie, Yichao Zhou, Nguyen Vo, Zachary Fisher, Sandeep Tata, (参考訳) ユーザは2つの選択肢(A対B)間の意思決定に苦労することが多い。 本稿では,この課題に対処するSTRUM-LLMを提案する。 STRUM-LLMは有用なコントラストを識別する: 2つのオプションが大きく異なる特定の属性と、ユーザの判断に最も影響を与える可能性が高い属性。 我々の技術はドメインに依存しないものであり、人間ラベル付きデータや固定属性リストを監督する必要がない。 STRUM-LLMは、すべての抽出をテキスト証拠とともに入力源に還元し、処理できる入力源の長さに制限を持たない。 STRUM-LLM Distilledは100倍のスループットを持ち、性能は10倍小さい。 本稿では,本手法について広範な評価を行い,現在展開中のシステムにおける今後の方向性について概説する。

Users often struggle with decision-making between two options (A vs B), as it usually requires time-consuming research across multiple web pages. We propose STRUM-LLM that addresses this challenge by generating attributed, structured, and helpful contrastive summaries that highlight key differences between the two options. STRUM-LLM identifies helpful contrast: the specific attributes along which the two options differ significantly and which are most likely to influence the user's decision. Our technique is domain-agnostic, and does not require any human-labeled data or fixed attribute list as supervision. STRUM-LLM attributes all extractions back to the input sources along with textual evidence, and it does not have a limit on the length of input sources that it can process. STRUM-LLM Distilled has 100x more throughput than the models with comparable performance while being 10x smaller. In this paper, we provide extensive evaluations for our method and lay out future directions for our currently deployed system.
翻訳日:2024-04-01 17:43:20 公開日:2024-03-25
# 深層学習に基づく球デコーディング

Deep Learning Based Sphere Decoding ( http://arxiv.org/abs/1807.03162v2 )

ライセンス: Link先を確認
Mostafa Mohammadkarimi, Mehrtash Mehrabi, Masoud Ardakani, Yindi Jing, (参考訳) 本稿では,深層ニューラルネットワーク(DNN)を用いて,超球面の半径を学習する深層学習(DL)に基づく球面復号アルゴリズムを提案する。 提案アルゴリズムによって達成された性能は、幅広い信号-雑音比(SNR)に対して最適極大復号法(MLD)に非常に近いが、計算複雑性は既存の球復号法と比較して著しく低下する。 この改善は、DNNがデコードに使用するハイパースフィアの半径をインテリジェントに学習する能力に起因している。 提案するDLアルゴリズムの複雑さは,既存のアルゴリズムと比較して解析的に導出され,比較される。 その結果,デコードハイパースフィア内の格子点の数は,平均値と最悪の値の両方でDLベースのアルゴリズムで大幅に減少することがわかった。 提案アルゴリズムの有効性は,高次変調を用いた高次元マルチインプット多重出力(MIMO)システムのシミュレーションにより示される。

In this paper, a deep learning (DL)-based sphere decoding algorithm is proposed, where the radius of the decoding hypersphere is learned by a deep neural network (DNN). The performance achieved by the proposed algorithm is very close to the optimal maximum likelihood decoding (MLD) over a wide range of signal-to-noise ratios (SNRs), while the computational complexity, compared to existing sphere decoding variants, is significantly reduced. This improvement is attributed to DNN's ability of intelligently learning the radius of the hypersphere used in decoding. The expected complexity of the proposed DL-based algorithm is analytically derived and compared with existing ones. It is shown that the number of lattice points inside the decoding hypersphere drastically reduces in the DL-based algorithm in both the average and worst-case senses. The effectiveness of the proposed algorithm is shown through simulation for high-dimensional multiple-input multiple-output (MIMO) systems, using high-order modulations.
翻訳日:2024-03-29 22:28:24 公開日:2024-03-25
# 多重影響最大化のためのグラフベイズ最適化

Graph Bayesian Optimization for Multiplex Influence Maximization ( http://arxiv.org/abs/2403.18866v1 )

ライセンス: Link先を確認
Zirui Yuan, Minglai Shao, Zhiqian Chen, (参考訳) 影響最大化(英語: Influence maximization, IM)とは、影響力のあるユーザ数を最大化するために、ソーシャルネットワーク内の初期影響力のあるユーザを限定的に特定する問題である。 しかし、従来の研究では、複数の情報項目の同時的かつインタラクティブな拡散を無視して、個々の情報伝達に重点を置いてきた。 実際には、ユーザーがスマートフォン製品などの情報に遭遇すると、同じブランドのイヤホンやコンピュータといった関連製品と関連付けることが多い。 さらに、情報プラットフォームは、しばしばユーザに関連するコンテンツを推奨し、このカスケーディング効果を増幅し、多重の影響拡散につながる。 本稿では,情報関連機構を持つ多重拡散モデルを用いて多重影響最大化(Multi-IM)問題を定式化する。 この問題では、シードセットは影響力のあるユーザと情報の組み合わせである。 組合せ複雑性を効果的に管理するために,GBIM (Graph Bayesian Optimization for Multi-IM) を提案する。 マルチプレックス拡散プロセスは、高効率なグローバルカーネル化された注目メッセージパッシングモジュールを用いて、徹底的に研究されている。 このモジュールはベイズ線形回帰(BLR)とともにスケーラブルな代理モデルを生成する。 探索・探索トレードオフを組み込んだデータ取得モジュールを開発し、シードセットをさらに最適化する。 合成および実世界のデータセットに関する大規模な実験により、提案したフレームワークの有効性が証明された。 コードはhttps://github.com/zirui-yuan/GBIMで入手できる。

Influence maximization (IM) is the problem of identifying a limited number of initial influential users within a social network to maximize the number of influenced users. However, previous research has mostly focused on individual information propagation, neglecting the simultaneous and interactive dissemination of multiple information items. In reality, when users encounter a piece of information, such as a smartphone product, they often associate it with related products in their minds, such as earphones or computers from the same brand. Additionally, information platforms frequently recommend related content to users, amplifying this cascading effect and leading to multiplex influence diffusion. This paper first formulates the Multiplex Influence Maximization (Multi-IM) problem using multiplex diffusion models with an information association mechanism. In this problem, the seed set is a combination of influential users and information. To effectively manage the combinatorial complexity, we propose Graph Bayesian Optimization for Multi-IM (GBIM). The multiplex diffusion process is thoroughly investigated using a highly effective global kernelized attention message-passing module. This module, in conjunction with Bayesian linear regression (BLR), produces a scalable surrogate model. A data acquisition module incorporating the exploration-exploitation trade-off is developed to optimize the seed set further. Extensive experiments on synthetic and real-world datasets have proven our proposed framework effective. The code is available at https://github.com/zirui-yuan/GBIM.
翻訳日:2024-03-29 20:23:28 公開日:2024-03-25
# 太陽系外惑星検出と局在の量子限界達成

Achieving Quantum Limits of Exoplanet Detection and Localization ( http://arxiv.org/abs/2403.17988v1 )

ライセンス: Link先を確認
Nico Deshler, Sebastiaan Haffert, Amit Ashok, (参考訳) 直接撮像によって遠方の恒星の周囲を公転する太陽系外惑星が発見されることは、恒星と惑星の間の高ダイナミックレンジによって根本的に妨げられている。 コロナグラフは、主星からの光を光学的に拒絶し、外惑星からの光をほとんど変化しないままにすることで、外惑星のシグネチャの信号と雑音の比を増大させようとする。 しかし、コロナグラフが太陽系外惑星発見に関する基本的な限界に達するための最適な戦略であるかどうかは不明である。 本稿では,Quantum Chernoff Exponent (QCE) とQuantum Fisher Information Matrix (QFIM) によって定義された外惑星検出と局在の量子情報限界について報告する。 これらの量子限界の観点から、理論的にオン軸点源の完全な拒絶を実現するための高性能コロナグラフの設計を評価し、比較する。 我々は、高次直交モードを減衰させることなく望遠鏡の基本モードを排他的に排除するシステムは、高い恒星-惑星のコントラストの体制において量子最適であることを示した。 重要なことに、QFIMは望遠鏡の回折限界よりかなり下にあることが示されており、量子最適コロナグラフはアクセス可能な太陽系外惑星の領域をさらに拡大する可能性があることを示唆している。

Discovering exoplanets in orbit around distant stars via direct imaging is fundamentally impeded by the high dynamic range between the star and the planet. Coronagraphs strive to increase the signal-to-noise ratio of exoplanet signatures by optically rejecting light from the host star while leaving light from the exoplanet mostly unaltered. However it is unclear whether coronagraphs constitute an optimal strategy for attaining fundamental limits relevant exoplanet discovery. In this work, we report the quantum information limits of exoplanet detection and localization specified by the Quantum Chernoff Exponent (QCE) and the Quantum Fisher Information Matrix (QFIM) respectively. In view of these quantum limits, we assess and compare several high-performance coronagraph designs that theoretically achieve total rejection of an on-axis point source. We find that systems which exclusively eliminate the fundamental mode of the telescope without attenuating higher-order orthogonal modes are quantum-optimal in the regime of high star-planet contrasts. Importantly, the QFIM is shown to persist well below the diffraction-limit of the telescope, suggesting that quantum-optimal coronagraphs may further expand the domain of accessible exoplanets.
翻訳日:2024-03-28 21:24:43 公開日:2024-03-25
# CrossQ: より高効率で簡便な深層強化学習におけるバッチ正規化

CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity ( http://arxiv.org/abs/1902.05605v4 )

ライセンス: Link先を確認
Aditya Bhatt, Daniel Palenicek, Boris Belousov, Max Argus, Artemij Amiranashvili, Thomas Brox, Jan Peters, (参考訳) サンプル効率は、深層強化学習において重要な問題である。 REDQやDroQといった最近のアルゴリズムは、更新データ(UTD)比を環境サンプル当たりの批評家の20段階に引き上げることで、サンプル効率を改善する方法を見つけた。 しかし、これは計算コストの大幅な増大によるものである。 この計算負担を軽減するために、CrossQを紹介します: バッチ正規化を慎重に利用し、UTD比1を低く保ちながら、サンプル効率の現在の状態を越えられるようにターゲットネットワークを除去する、連続制御タスクのための軽量なアルゴリズム。 特に、CrossQは現在の手法で使われる高度なバイアス低減スキームに依存しない。 CrossQのコントリビューションは3つある: 1) サンプル効率の観点から現在の最先端のメソッドにマッチまたは超過し、(2) REDQやDroQと比較して計算コストを大幅に削減し、(3) 実装が容易で、SAC上にわずか数行のコードを必要とする。

Sample efficiency is a crucial problem in deep reinforcement learning. Recent algorithms, such as REDQ and DroQ, found a way to improve the sample efficiency by increasing the update-to-data (UTD) ratio to 20 gradient update steps on the critic per environment sample. However, this comes at the expense of a greatly increased computational cost. To reduce this computational burden, we introduce CrossQ: A lightweight algorithm for continuous control tasks that makes careful use of Batch Normalization and removes target networks to surpass the current state-of-the-art in sample efficiency while maintaining a low UTD ratio of 1. Notably, CrossQ does not rely on advanced bias-reduction schemes used in current methods. CrossQ's contributions are threefold: (1) it matches or surpasses current state-of-the-art methods in terms of sample efficiency, (2) it substantially reduces the computational cost compared to REDQ and DroQ, (3) it is easy to implement, requiring just a few lines of code on top of SAC.
翻訳日:2024-03-28 02:25:02 公開日:2024-03-25
# DISN: 高品質の1次元3次元再構成のための深層インシシトサーフェスネットワーク

DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction ( http://arxiv.org/abs/1905.10711v5 )

ライセンス: Link先を確認
Qiangeng Xu, Weiyue Wang, Duygu Ceylan, Radomir Mech, Ulrich Neumann, (参考訳) シングルビュー画像から3次元形状を再構成することは、長年にわたる研究課題である。 本稿では,2次元画像から高画質のディテールリッチ3Dメッシュを生成可能なディープインプリシトサーフェスネットワークであるdisNについて述べる。 グローバルな画像特徴の活用に加えて、disNは2D画像上の各3Dポイントの投影された位置を予測し、画像特徴マップから局所的な特徴を抽出する。 グローバルな特徴と局所的な特徴を組み合わせることで、特に詳細に富んだ領域において、符号付き距離場予測の精度が大幅に向上する。 我々の知る限りでは、DINは1枚の画像から3次元形状に存在する穴や細い構造などの細部を常にキャプチャする最初の方法である。 DISNは、合成画像と実画像の両方から再構成された様々な形状カテゴリに対して、最先端の単一視点再構成性能を実現する。 コードはhttps://github.com/xharlie/DISNで利用可能 追加情報はhttps://xharlie.github.io/images/neurips_2019_supp.pdfで見ることができる。

Reconstructing 3D shapes from single-view images has been a long-standing research problem. In this paper, we present DISN, a Deep Implicit Surface Network which can generate a high-quality detail-rich 3D mesh from an 2D image by predicting the underlying signed distance fields. In addition to utilizing global image features, DISN predicts the projected location for each 3D point on the 2D image, and extracts local features from the image feature maps. Combining global and local features significantly improves the accuracy of the signed distance field prediction, especially for the detail-rich areas. To the best of our knowledge, DISN is the first method that constantly captures details such as holes and thin structures present in 3D shapes from single-view images. DISN achieves the state-of-the-art single-view reconstruction performance on a variety of shape categories reconstructed from both synthetic and real images. Code is available at https://github.com/xharlie/DISN The supplementary can be found at https://xharlie.github.io/images/neurips_2019_supp.pdf
翻訳日:2024-03-28 02:25:02 公開日:2024-03-25
# 非援助完全量子チャネルに対するレートスプリッティングによる新しいワンショットインナーバウンド

Novel one-shot inner bounds for unassisted fully quantum channels via rate splitting ( http://arxiv.org/abs/2102.01766v2 )

ライセンス: Link先を確認
Sayantan Chakraborty, Aditya Nema, Pranab Sen, (参考訳) 量子情報を送信するための最初の非自明な1ショットインナーバウンドを、2秒間量子多重アクセスチャネル(QMAC)と、2秒間2秒間量子干渉チャネル(QIC)で証明する。 既往の研究は、無支援QMACを無症候性イド限界(asymptotic iid limit)として知られるチャネルの多くの独立的および同一使用の限界でのみ研究し、無支援QMACを全く研究しなかった。 内部境界を得るために、レート分割と逐次キャンセルという2つの手法を用いる。 速度分割は、漸近的イド設定における古典的なチャネルに対して、時間的共有を回避し、内部境界を得るために以前用いられていた。 我々の主な技術的貢献は、古典的な漸近的イド設定から量子ワンショット設定への速度分割を延長することである。 漸近イドでは、QMACに対する一発の内界境界はヤード、デベタック、ヘイデンの速度領域に近づく。 QICでは、漸近的イド設定において新しい非自明な速度領域を得る。 以上の結果から,一発的および漸近的虹彩設定において,限られた絡み合い支援が提供される場合にも,全結果が拡張される。 QMAC と QIC のワンセットに対する限定的絡み合い結果は新しいものである。 QICでは, 漸近的イイド設定においても, 限られた絡み合いの結果が新しい。

We prove the first non-trivial one-shot inner bounds for sending quantum information over an entanglement unassisted two-sender quantum multiple access channel (QMAC) and an unassisted two-sender two-receiver quantum interference channel (QIC). Previous works only studied the unassisted QMAC in the limit of many independent and identical uses of the channel also known as the asymptotic iid limit, and did not study the unassisted QIC at all. We employ two techniques, rate splitting and successive cancellation}, in order to obtain our inner bound. Rate splitting was earlier used to obtain inner bounds, avoiding time sharing, for classical channels in the asymptotic iid setting. Our main technical contribution is to extend rate splitting from the classical asymptotic iid setting to the quantum one-shot setting. In the asymptotic iid limit our one-shot inner bound for QMAC approaches the rate region of Yard, Devetak and Hayden. For the QIC we get novel non-trivial rate regions in the asymptotic iid setting. All our results also extend to the case where limited entanglement assistance is provided, in both one-shot and asymptotic iid settings. The limited entanglement results for one-setting for both QMAC and QIC are new. For the QIC the limited entanglement results are new even in the asymptotic iid setting.
翻訳日:2024-03-28 02:19:20 公開日:2024-03-25
# 自己共分散推定を伴わない共分散を考慮した私的平均推定

Covariance-Aware Private Mean Estimation Without Private Covariance Estimation ( http://arxiv.org/abs/2106.13329v3 )

ライセンス: Link先を確認
Gavin Brown, Marco Gaboardi, Adam Smith, Jonathan Ullman, Lydia Zakynthinou, (参考訳) 共分散を未知とする$d$次元(sub)ガウス分布に対する2つのサンプル係数微分プライベート平均推定器を提案する。 直交的に、平均$\mu$と共分散$\Sigma$の分布から$n \gtrsim d/\alpha^2$のサンプルが与えられたとき、我々の推定子は$\| \tilde\mu - \mu \|_{\Sigma} \leq \alpha$, ここで$\| \cdot \|_{\Sigma}$がマハラノビス距離であるような$\tilde\mu$を出力する。 同じ保証を持つ全ての以前の推定子は共分散行列上の強い事前境界を必要とするか、$\Omega(d^{3/2})$サンプルを必要とする。 それぞれの推定器は、差分的にプライベートなメカニズムを設計するための単純で一般的なアプローチに基づいているが、この推定器をプライベートかつサンプル効率のよいものにするための新しい技術的ステップがある。 最初の推定器は指数的なメカニズムを用いてほぼ最大となるタキー深さを持つ点をサンプリングするが、大きなタキー深さの点の集合に制限される。 その正確さは、少量の敵の腐敗を持つデータセットに対しても保証される。 このメカニズムがプライベートであることを証明するには、新しい分析が必要である。 我々の第2推定器は、共分散そのものを解放することなく、経験的共分散に調整された雑音でデータセットの経験的平均を摂動する。 そのサンプルの複雑さは、プライバシーパラメータにわずかに依存しているにもかかわらず、より一般的にガウス以下の分布を保証している。 両方の推定器では、差分プライバシーを満たすために、データを慎重に前処理する必要がある。

We present two sample-efficient differentially private mean estimators for $d$-dimensional (sub)Gaussian distributions with unknown covariance. Informally, given $n \gtrsim d/\alpha^2$ samples from such a distribution with mean $\mu$ and covariance $\Sigma$, our estimators output $\tilde\mu$ such that $\| \tilde\mu - \mu \|_{\Sigma} \leq \alpha$, where $\| \cdot \|_{\Sigma}$ is the Mahalanobis distance. All previous estimators with the same guarantee either require strong a priori bounds on the covariance matrix or require $\Omega(d^{3/2})$ samples. Each of our estimators is based on a simple, general approach to designing differentially private mechanisms, but with novel technical steps to make the estimator private and sample-efficient. Our first estimator samples a point with approximately maximum Tukey depth using the exponential mechanism, but restricted to the set of points of large Tukey depth. Its accuracy guarantees hold even for data sets that have a small amount of adversarial corruption. Proving that this mechanism is private requires a novel analysis. Our second estimator perturbs the empirical mean of the data set with noise calibrated to the empirical covariance, without releasing the covariance itself. Its sample complexity guarantees hold more generally for subgaussian distributions, albeit with a slightly worse dependence on the privacy parameter. For both estimators, careful preprocessing of the data is required to satisfy differential privacy.
翻訳日:2024-03-28 02:19:20 公開日:2024-03-25
# 強系-バス結合における定常状態:平均力ギブス状態と反応座標

Steady state in strong system-bath coupling: mean force Gibbs state versus reaction coordinate ( http://arxiv.org/abs/2110.03169v6 )

ライセンス: Link先を確認
Camille L Latune, (参考訳) 量子情報のいくつかの分野と関連する技術応用において、強いシステムバス結合の重要性が増す中で、我々は、強いカップリングにおける(およそ)定常状態を得るために現在使われている2つの戦略を分析し比較する。 第1の戦略は摂動展開に基づいており、第2の戦略は反応座標写像を用いる。 広く使われているスピンボソンモデルに着目し、期待と期待どおり、これらの2つの戦略の予測がいくつかのパラメータ領域に一致することを示す。 これにより、両方のテクニックの関連性が確認され、強化される。 さらに、それぞれの有効範囲を正確に知ることも重要である。 その観点では、それぞれの制限のおかげで、もう一方をベンチマークするために1つを使用しています。 両戦略の極めて単純な妥当性基準を導入し,検証に成功し,妥当性範囲の問題に対する回答を得た。

Motivated by the growing importance of strong system-bath coupling in several branches of quantum information and related technological applications, we analyze and compare two strategies currently used to obtain (approximately) steady states in strong coupling. The first strategy is based on perturbative expansions while the second one uses reaction coordinate mapping. Focusing on the widely used spin-boson model, we show that, as expected and hoped, the predictions of these two strategies coincide for some parameter regions. This confirms and strengthens the relevance of both techniques. Beyond that, it is also crucial to know precisely their respective range of validity. In that perspective, thanks to their different limitations, we use one to benchmark the other. We introduce and successfully test some very simple validity criteria for both strategies, bringing some answers to the question of the validity range.
翻訳日:2024-03-28 02:19:20 公開日:2024-03-25
# メタ強化学習における勾配バイアスの理論的理解

A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning ( http://arxiv.org/abs/2112.15400v4 )

ライセンス: Link先を確認
Xidong Feng, Bo Liu, Jie Ren, Luo Mai, Rui Zhu, Haifeng Zhang, Jun Wang, Yaodong Yang, (参考訳) GMRL(Gradient-based Meta-RL)は、外ループメタラーナーがインナーループ勾配に基づく強化学習者を誘導して高速な適応を実現する2段階最適化手順を維持する手法である。 本稿では、GMRLアルゴリズムのバリエーションを記述した統一的なフレームワークを開発し、GMRLで採用されている既存の確率的メタ勾配推定器が実際に \textbf{biased} であることを示した。 このようなメタグラディエントバイアスは、2つのソースから来ています。 1) 2レベルの問題構造によって生じる構成バイアスは、上限が$\mathcal{O}\big(K\alpha^{K}\hat{\sigma}_{\text{In}}|\tau|^{-0.5}\big)$ \emph{w.r.t.} 内部ループ更新ステップ$K$、学習率$\alpha$、推定分散$\hat{\sigma}^{2}_{\text{In}}$、サンプルサイズ$|\tau|$である。 2) マルチステップヘッセン推定バイアス $\hat{\Delta}_{H}$ は、メタ勾配バイアスに対する多項式影響 $\mathcal{O}\big((K-1)(\hat{\Delta}_{H})^{K-1}\big)$ であるautodiff の使用による。 我々は,表状MDPを実証的に研究し,既存の確率的メタ勾配推定器の理論的知見を実証する定量的証拠を提供する。 さらに,刑法外学習や低バイアス推定器などの他の手法が一般のGMRLアルゴリズムの勾配バイアスの解消にどのように役立つかを示すため,Iterated Prisoner's Dilemma と Atari のゲームで実験を行った。

Gradient-based Meta-RL (GMRL) refers to methods that maintain two-level optimisation procedures wherein the outer-loop meta-learner guides the inner-loop gradient-based reinforcement learner to achieve fast adaptations. In this paper, we develop a unified framework that describes variations of GMRL algorithms and points out that existing stochastic meta-gradient estimators adopted by GMRL are actually \textbf{biased}. Such meta-gradient bias comes from two sources: 1) the compositional bias incurred by the two-level problem structure, which has an upper bound of $\mathcal{O}\big(K\alpha^{K}\hat{\sigma}_{\text{In}}|\tau|^{-0.5}\big)$ \emph{w.r.t.} inner-loop update step $K$, learning rate $\alpha$, estimate variance $\hat{\sigma}^{2}_{\text{In}}$ and sample size $|\tau|$, and 2) the multi-step Hessian estimation bias $\hat{\Delta}_{H}$ due to the use of autodiff, which has a polynomial impact $\mathcal{O}\big((K-1)(\hat{\Delta}_{H})^{K-1}\big)$ on the meta-gradient bias. We study tabular MDPs empirically and offer quantitative evidence that testifies our theoretical findings on existing stochastic meta-gradient estimators. Furthermore, we conduct experiments on Iterated Prisoner's Dilemma and Atari games to show how other methods such as off-policy learning and low-bias estimator can help fix the gradient bias for GMRL algorithms in general.
翻訳日:2024-03-28 02:19:20 公開日:2024-03-25
# 電力法スペクトル条件下での最適化のためのタイト収束速度境界

Tight Convergence Rate Bounds for Optimization Under Power Law Spectral Conditions ( http://arxiv.org/abs/2202.00992v3 )

ライセンス: Link先を確認
Maksim Velikanov, Dmitry Yarotsky, (参考訳) 二次問題に対する最適化の性能は、スペクトルの低い部分に依存する。 大きな(事実上無限次元の)問題に対して、スペクトルのこの部分は自然に電力法則分布によって表されるか近似されることが多く、結果として勾配に基づくアルゴリズムによってこれらの問題の反復解に対する電力法収束率が得られる。 本稿では,電力法最適化トラジェクトリの問題に対して,より厳密な上限を与える新しいスペクトル条件を提案する。 我々はこの条件を用いて、学習率と運動量の基礎となるスケジュールに重点を置いて、幅広い最適化アルゴリズム(グラディエント・ディフレッシュ、ステペスト・ディフレッシュ、ヘビーボール、コンジュゲート・グラディエント)の上下境界の全体像を構築する。 特に、スペクトルの所定の形状に対して、最適に加速された方法、そのスケジュール、収束上限が統一的に得られるかを示す。 また、一般指数を持つスペクトルパワー法則の下で、ステプストDescent と Conjugate Gradients の収束率の厳密な下界の第一の証明を与える。 実験により、得られた収束境界と加速度戦略は、正確に2次最適化問題に関係しているだけでなく、ニューラルネットワークのトレーニングに適用した場合にもかなり正確であることがわかった。

Performance of optimization on quadratic problems sensitively depends on the low-lying part of the spectrum. For large (effectively infinite-dimensional) problems, this part of the spectrum can often be naturally represented or approximated by power law distributions, resulting in power law convergence rates for iterative solutions of these problems by gradient-based algorithms. In this paper, we propose a new spectral condition providing tighter upper bounds for problems with power law optimization trajectories. We use this condition to build a complete picture of upper and lower bounds for a wide range of optimization algorithms -- Gradient Descent, Steepest Descent, Heavy Ball, and Conjugate Gradients -- with an emphasis on the underlying schedules of learning rate and momentum. In particular, we demonstrate how an optimally accelerated method, its schedule, and convergence upper bound can be obtained in a unified manner for a given shape of the spectrum. Also, we provide first proofs of tight lower bounds for convergence rates of Steepest Descent and Conjugate Gradients under spectral power laws with general exponents. Our experiments show that the obtained convergence bounds and acceleration strategies are not only relevant for exactly quadratic optimization problems, but also fairly accurate when applied to the training of neural networks.
翻訳日:2024-03-28 02:19:20 公開日:2024-03-25
# 量子ナノデバイスの非マルコフ散逸から時空間制御へ

From Non-Markovian Dissipation to Spatiotemporal Control of Quantum Nanodevices ( http://arxiv.org/abs/2205.11247v6 )

ライセンス: Link先を確認
Thibaut Lacroix, Brendon W. Lovett, Alex W. Chin, (参考訳) 量子効果を利用するナノデバイスは、将来の量子技術(QT)の重要な要素であるが、それらの実世界の性能は、局所的な「環境」相互作用から生じるデコヒーレンスによって強く制限されている。 複数の機能ユニットを含むデバイスが複雑化するにつれて、ローカルな環境が重なり始め、新しい時間と長さのスケールで環境に媒介するデコヒーレンス現象が発生する可能性がある。 このような複雑で本質的に非マルコフ力学は、QTのスケールアップに挑戦する可能性があるが、一方では、酵素や光合成タンパク質のような生物学的ナノマシンで起こることが示唆されるように、環境が「シグナル」とエネルギーを伝達する能力も、コンポーネント間プロセスの時空間的調整を可能にする可能性がある。 数値的に正確な多くの体法(テンソルネットワーク)を爆発させることで、空間的に離れた非相互作用量子系の進化を伝播する環境力学がどのように誘導するかを探求できる完全量子モデルを研究する。 我々は、環境中に放出されるエネルギーを遠隔で回収し、過渡的な励起/反応性状態を生成する方法を示し、また、システム励起によって引き起こされる再編成が「機能的」量子系の「下流」運動学を質的かつ可逆的に変化させることができるかを明らかにする。 完全なシステム環境波動関数へのアクセスにより、これらの現象の基礎となる顕微鏡プロセスが解明され、エネルギー効率のよい量子デバイスにどのように活用できるかの新しい知見が得られた。

Nanodevices exploiting quantum effects are critically important elements of future quantum technologies (QT), but their real-world performance is strongly limited by decoherence arising from local `environmental' interactions. Compounding this, as devices become more complex, i.e. contain multiple functional units, the `local' environments begin to overlap, creating the possibility of environmentally mediated decoherence phenomena on new time-and-length scales. Such complex and inherently non-Markovian dynamics could present a challenge for scaling up QT, but -- on the other hand -- the ability of environments to transfer `signals' and energy might also enable sophisticated spatiotemporal coordination of inter-component processes, as is suggested to happen in biological nanomachines, like enzymes and photosynthetic proteins. Exploiting numerically exact many body methods (tensor networks) we study a fully quantum model that allows us to explore how propagating environmental dynamics can instigate and direct the evolution of spatially remote, non-interacting quantum systems. We demonstrate how energy dissipated into the environment can be remotely harvested to create transient excited/reactive states, and also identify how reorganisation triggered by system excitation can qualitatively and reversibly alter the `downstream' kinetics of a `functional' quantum system. With access to complete system-environment wave functions, we elucidate the microscopic processes underlying these phenomena, providing new insight into how they could be exploited for energy efficient quantum devices.
翻訳日:2024-03-28 02:09:26 公開日:2024-03-25
# V4D:4次元新しいビュー合成のためのVoxel

V4D: Voxel for 4D Novel View Synthesis ( http://arxiv.org/abs/2205.14332v3 )

ライセンス: Link先を確認
Wanshui Gan, Hongbin Xu, Yi Huang, Shifeng Chen, Naoto Yokoya, (参考訳) ニューラルレイディアンス場は3次元静的シーンにおける新しいビュー合成タスクにおいて画期的なブレークスルーをもたらした。 しかし、4Dの状況(例えばダイナミックシーン)では、既存の手法の性能はニューラルネットワークの容量によって制限され、通常は多層パーセプトロンネットワーク(MLP)で使用される。 本稿では,3次元ボクセルを用いて,V4Dと略される4次元神経放射場をモデル化する。 1つ目は、定期的に3D空間をモデル化し、標本化された局所的な3D特徴と時間指数を使って、密度場とテクスチャフィールドを小さなMLPでモデル化することである。 第2の方法は、画素レベルの精細化のためのルックアップテーブル(LUT)フォーマットで、ボリュームレンダリングによって生成された擬似表面をガイダンス情報として利用して、2Dピクセルレベルの精細化マッピングを学習する。 提案したLUTsベースの改良モジュールは,計算コストの少ない性能向上を実現し,新しいビュー合成タスクにおいてプラグイン・アンド・プレイモジュールとして機能する。 また、4Dデータに対するより効率的な条件付き位置符号化を提案し、計算負荷を無視して性能向上を実現する。 大規模実験により,提案手法は計算コストの低い最先端性能を実現することを示した。

Neural radiance fields have made a remarkable breakthrough in the novel view synthesis task at the 3D static scene. However, for the 4D circumstance (e.g., dynamic scene), the performance of the existing method is still limited by the capacity of the neural network, typically in a multilayer perceptron network (MLP). In this paper, we utilize 3D Voxel to model the 4D neural radiance field, short as V4D, where the 3D voxel has two formats. The first one is to regularly model the 3D space and then use the sampled local 3D feature with the time index to model the density field and the texture field by a tiny MLP. The second one is in look-up tables (LUTs) format that is for the pixel-level refinement, where the pseudo-surface produced by the volume rendering is utilized as the guidance information to learn a 2D pixel-level refinement mapping. The proposed LUTs-based refinement module achieves the performance gain with little computational cost and could serve as the plug-and-play module in the novel view synthesis task. Moreover, we propose a more effective conditional positional encoding toward the 4D data that achieves performance gain with negligible computational burdens. Extensive experiments demonstrate that the proposed method achieves state-of-the-art performance at a low computational cost.
翻訳日:2024-03-28 02:09:26 公開日:2024-03-25
# グラフ内の球に対するサンプル圧縮スキーム

Sample compression schemes for balls in graphs ( http://arxiv.org/abs/2206.13254v2 )

ライセンス: Link先を確認
Jérémie Chalopin, Victor Chepoi, Fionn Mc Inerney, Sébastien Ratel, Yann Vaxès, (参考訳) 機械学習におけるオープンな問題の1つは、VC次元$d$のセットファミリーが、サイズ$O(d)$のサンプル圧縮スキームを認めるかどうかである。 本稿では,グラフ内の球に対するこの問題について検討する。 グラフ $G=(V,E)$ のボール $B=B_r(x)$ に対して、$B$ は符号付き部分集合 $X=(X^+,X^-)$ of $V$ であり、$B$ は$X^+$ を含み、$X^-$ から分離する。 サイズ$k$の適切なサンプル圧縮スキームは、圧縮器と再構成器から構成される。 圧縮機は任意の実現可能なサンプルである$X$を、最大$k$で$X'$のサブサンプルにマッピングする。 再構成器は、各サブサンプルの$X'$を$G$のボール$B'$にマッピングし、$B'$は$X^+$を含み、$X^-$から切り離される。 任意の半径$r$の球に対して、木に2ドル、サイクルに3ドル、インターバルグラフに4ドル、サイクルに6ドル、キューブのない中央値グラフに22ドルという適切なラベル付きサンプル圧縮スキームを設計する。 与えられた半径の球に対して、木に対して2ドル、インターバルグラフに対して4ドルという適切なラベル付きサンプル圧縮スキームを設計する。 また、$$\delta$-hyperbolic graph の球に対して、サイズ2の近似的なサンプル圧縮スキームを設計する。

One of the open problems in machine learning is whether any set-family of VC-dimension $d$ admits a sample compression scheme of size $O(d)$. In this paper, we study this problem for balls in graphs. For a ball $B=B_r(x)$ of a graph $G=(V,E)$, a realizable sample for $B$ is a signed subset $X=(X^+,X^-)$ of $V$ such that $B$ contains $X^+$ and is disjoint from $X^-$. A proper sample compression scheme of size $k$ consists of a compressor and a reconstructor. The compressor maps any realizable sample $X$ to a subsample $X'$ of size at most $k$. The reconstructor maps each such subsample $X'$ to a ball $B'$ of $G$ such that $B'$ includes $X^+$ and is disjoint from $X^-$. For balls of arbitrary radius $r$, we design proper labeled sample compression schemes of size $2$ for trees, of size $3$ for cycles, of size $4$ for interval graphs, of size $6$ for trees of cycles, and of size $22$ for cube-free median graphs. For balls of a given radius, we design proper labeled sample compression schemes of size $2$ for trees and of size $4$ for interval graphs. We also design approximate sample compression schemes of size 2 for balls of $\delta$-hyperbolic graphs.
翻訳日:2024-03-28 02:09:26 公開日:2024-03-25
# FrischとSegrèによる多段Stern$\unicode{x2013}$Gerlach実験の量子力学的モデリング

Quantum mechanical modeling of the multi-stage Stern$\unicode{x2013}$Gerlach experiment conducted by Frisch and Segrè ( http://arxiv.org/abs/2210.11553v4 )

ライセンス: Link先を確認
S. Süleyman Kahraman, Kelvin Titimbo, Zhe He, Jung-Tsung Shen, Lihong V. Wang, (参考訳) Frisch と Segr\`e が行ったマルチステージ Stern$\unicode{x2013}$Gerlach 実験には、2つのカスケード量子測度と非可逆フッパーがある。 Frisch と Segr\`e の実験は、核効果のないマヨラナによって解析的にモデル化され、その後ラビによって超微細な相互作用で修正された。 しかし、理論的予測は実験結果と正確に一致しない。 ここでは、スピンの時間発展のための超微細相互作用を含むフォン・ノイマン方程式を用いて、標準的な量子力学モデルを数値的に解く。 これまでのところ、自由パラメータを使わずに標準量子力学モデルから決定される係数は依然として低く、理論と実験のミスマッチを示している。 一致を改善する非標準変種を議論するために検討する。

The multi-stage Stern$\unicode{x2013}$Gerlach experiment conducted by Frisch and Segr\`e includes two cascaded quantum measurements with a nonadiabatic flipper in between. The Frisch and Segr\`e experiment has been modeled analytically by Majorana without the nuclear effect and subsequently revised by Rabi with the hyperfine interaction. However, the theoretical predictions do not match the experimental observation accurately. Here, we numerically solve the standard quantum mechanical model, via the von Neumann equation, including the hyperfine interaction for the time evolution of the spin. Thus far, the coefficients of determination from the standard quantum mechanical model without using free parameters are still low, indicating a mismatch between the theory and the experiment. Non-standard variants that improve the match are explored for discussion.
翻訳日:2024-03-28 02:09:26 公開日:2024-03-25
# 3-Operator ADMMを用いたフェデレーション学習

Federated Learning Using Three-Operator ADMM ( http://arxiv.org/abs/2211.04152v3 )

ライセンス: Link先を確認
Shashi Kant, José Mairton B. da Silva Jr., Gabor Fodor, Bo Göransson, Mats Bengtsson, Carlo Fischione, (参考訳) フェデレーテッド・ラーニング(FL)は、ユーザ側で生成されたデータの送信を回避する分散機械学習パラダイムのインスタンスとして登場した。 データは送信されないが、エッジデバイスは、ユーザのデバイスの限られた計算資源のために、限られた通信帯域幅、データの均一性、およびストラグラー効果を扱う必要がある。 このような困難を克服するための顕著なアプローチはFedADMMであり、これは古典的な2演算コンセンサスによる乗算器の交互方向法(ADMM)に基づいている。 FedADMMを含むFLアルゴリズムの一般的な前提は、ユーザ側だけでなく、エッジサーバ上でもデータを使ってグローバルモデルを学ぶことである。 しかし、エッジラーニングでは、サーバはベースステーションの近くにあり、リッチなデータセットに直接アクセスすることが期待されている。 本稿では,エッジサーバ上のリッチなデータを活用する方が,ユーザデータセットのみを活用するよりもはるかに有益である,と論じる。 具体的には、エッジサーバ上のデータを表す仮想ユーザノードを付加したFLの単なる適用は非効率であることを示す。 我々は、FedADMMを一般化したFedTOP-ADMMを提案し、エッジサーバ上のスムーズなコスト関数を利用して、エッジデバイスと平行なグローバルモデルを学習する3演算ADMM方式の手法に基づく。 数値実験により,FedTOP-ADMMは,エッジサーバ上の仮想ユーザを含むFedADMMに対して,所望のテスト精度に到達するために,通信効率が最大33倍に向上していることが示された。

Federated learning (FL) has emerged as an instance of distributed machine learning paradigm that avoids the transmission of data generated on the users' side. Although data are not transmitted, edge devices have to deal with limited communication bandwidths, data heterogeneity, and straggler effects due to the limited computational resources of users' devices. A prominent approach to overcome such difficulties is FedADMM, which is based on the classical two-operator consensus alternating direction method of multipliers (ADMM). The common assumption of FL algorithms, including FedADMM, is that they learn a global model using data only on the users' side and not on the edge server. However, in edge learning, the server is expected to be near the base station and have direct access to rich datasets. In this paper, we argue that leveraging the rich data on the edge server is much more beneficial than utilizing only user datasets. Specifically, we show that the mere application of FL with an additional virtual user node representing the data on the edge server is inefficient. We propose FedTOP-ADMM, which generalizes FedADMM and is based on a three-operator ADMM-type technique that exploits a smooth cost function on the edge server to learn a global model parallel to the edge devices. Our numerical experiments indicate that FedTOP-ADMM has substantial gain up to 33\% in communication efficiency to reach a desired test accuracy with respect to FedADMM, including a virtual user on the edge server.
翻訳日:2024-03-28 01:59:27 公開日:2024-03-25
# ロバスト5-DoF磁気マーカー位置推定のための教師付き学習における合成データの利用

Utilizing Synthetic Data in Supervised Learning for Robust 5-DoF Magnetic Marker Localization ( http://arxiv.org/abs/2211.07556v2 )

ライセンス: Link先を確認
Mengfan Wu, Thomas Langerak, Otmar Hilliges, Juan Zarate, (参考訳) 受動的磁気マーカーの追跡は、医療やロボット工学の進歩において重要な役割を担い、システムの精度と効率を大幅に向上させる可能性がある。 この技術は、よりスマートでよりレスポンシブなツールやデバイスを開発するための鍵となる。 しかし、伝統的に、反復的な最適化手順を必要とするため、磁気マーカーの追跡は計算コストがかかる。 さらに、これらの手法は、非球面磁石とセンサ間の短距離の処理において、モデルの重大な不正確性による不正確な結果をもたらすことができる最適化関数の磁気双極子モデルに依存しており、我々は、ニューラルネットワークを利用してこれらの制限を回避し、マーカーの位置と向きを直接推定し、初期推定なしでマグネットの5 DoFを正確に決定する新しいアプローチを導入する。 提案手法は広範囲な教師付きトレーニングフェーズを必要とするが,有限要素法シミュレーションを用いて,より効率的な合成・現実的なデータ生成手法を導入することにより,これを緩和する。 高速かつ正確な推論の利点は、オフラインのトレーニング準備よりも大幅に上回った。 評価では,16個のセンサの正方形配列で追跡した異なる円筒形磁石を用いた。 我々は、ポータブルなニューラルネットワーク指向のシングルボードコンピュータ上で、センサの読み取りと位置推定を行い、コンパクトなセットアップを確保する。 我々は、視力に基づく地上真実データに対してプロトタイプをベンチマークし、平均位置誤差が4mm、方向誤差が0.2x0.2x0.15mの作業量で8°の精度で達成した。 これらの結果は,5 DoFの追跡において,精度とコンパクト性を効果的にバランスできるプロトタイプの能力を示すものである。

Tracking passive magnetic markers plays a vital role in advancing healthcare and robotics, offering the potential to significantly improve the precision and efficiency of systems. This technology is key to developing smarter, more responsive tools and devices, such as enhanced surgical instruments, precise diagnostic tools, and robots with improved environmental interaction capabilities. However, traditionally, the tracking of magnetic markers is computationally expensive due to the requirement for iterative optimization procedures. Moreover, these methods depend on the magnetic dipole model for their optimization function, which can yield imprecise outcomes due to the model's significant inaccuracies when dealing with short distances between non-spherical magnet and sensor.Our paper introduces a novel approach that leverages neural networks to bypass these limitations, directly inferring the marker's position and orientation to accurately determine the magnet's 5 DoF in a single step without initial estimation. Although our method demands an extensive supervised training phase, we mitigate this by introducing a computationally more efficient method to generate synthetic, yet realistic data using Finite Element Methods simulations. The benefits of fast and accurate inference significantly outweigh the offline training preparation. In our evaluation, we use different cylindrical magnets, tracked with a square array of 16 sensors. We perform the sensors' reading and position inference on a portable, neural networks-oriented single-board computer, ensuring a compact setup. We benchmark our prototype against vision-based ground truth data, achieving a mean positional error of 4 mm and an orientation error of 8 degrees within a 0.2x0.2x0.15 m working volume. These results showcase our prototype's ability to balance accuracy and compactness effectively in tracking 5 DoF.
翻訳日:2024-03-28 01:59:27 公開日:2024-03-25
# TetraSphere: O(3)-不変点雲解析のためのニューラルネットワーク記述子

TetraSphere: A Neural Descriptor for O(3)-Invariant Point Cloud Analysis ( http://arxiv.org/abs/2211.14456v6 )

ライセンス: Link先を確認
Pavlo Melnyk, Andreas Robinson, Michael Felsberg, Mårten Wadenbäck, (参考訳) 多くの実用的応用において、3次元点雲解析は回転不変性を必要とする。 本稿では,最近導入された3次元球状ニューロンとベクトルニューロンを用いて,3次元回転および反射下での学習可能な記述子不変量,すなわちO(3)作用について述べる。 具体的には,3次元球面ニューロンを4次元ベクトルニューロンに埋め込み,モデルのエンドツーエンドトレーニングを活用する。 提案手法では, ステアブルニューロンから構築された3次元入力の4次元への同変埋め込みであるTetraTransformを行い, ベクトルニューロンを用いたO(3)-同変の深い特徴を抽出する。 TetraTransformのVN-DGCNNフレームワークへの統合は、TetraSphereと呼ばれ、パラメータの数を0.0002%以下にすることが無視できる。 TetraSphereは、ランダムに回転した実世界のオブジェクトスキャンを、ScanObjectNNの挑戦的なサブセットに分類する、最先端のパフォーマンスを新たに設定する。 さらに、TetraSphereは、ModelNet40からのオブジェクトの分類とShapeNet形状のセグメンテーションといった、ランダムに回転した合成データ上で、すべての同変法より優れている。 そこで本研究では,3次元ユークリッド空間で学習する3次元球状ニューロンの実用的価値を明らかにした。 コードはhttps://github.com/pavlo-melnyk/tetrasphere.comで公開されている。

In many practical applications, 3D point cloud analysis requires rotation invariance. In this paper, we present a learnable descriptor invariant under 3D rotations and reflections, i.e., the O(3) actions, utilizing the recently introduced steerable 3D spherical neurons and vector neurons. Specifically, we propose an embedding of the 3D spherical neurons into 4D vector neurons, which leverages end-to-end training of the model. In our approach, we perform TetraTransform--an equivariant embedding of the 3D input into 4D, constructed from the steerable neurons--and extract deeper O(3)-equivariant features using vector neurons. This integration of the TetraTransform into the VN-DGCNN framework, termed TetraSphere, negligibly increases the number of parameters by less than 0.0002%. TetraSphere sets a new state-of-the-art performance classifying randomly rotated real-world object scans of the challenging subsets of ScanObjectNN. Additionally, TetraSphere outperforms all equivariant methods on randomly rotated synthetic data: classifying objects from ModelNet40 and segmenting parts of the ShapeNet shapes. Thus, our results reveal the practical value of steerable 3D spherical neurons for learning in 3D Euclidean space. The code is available at https://github.com/pavlo-melnyk/tetrasphere.
翻訳日:2024-03-28 01:59:27 公開日:2024-03-25
# 分布ロバスト性境界の一般化誤差

Distributional Robustness Bounds Generalization Errors ( http://arxiv.org/abs/2212.09962v3 )

ライセンス: Link先を確認
Shixiong Wang, Haowei Wang, (参考訳) ベイズ的手法、分散ロバストな最適化法、正規化法は、分布の不確実性と戦う信頼できる機械学習の3つの柱である。 本稿では,3つのフレームワーク間の関係について検討し,特に,これらのフレームワークの一般化誤差が小さい傾向について考察する。 具体的には、まず「分散ロバスト性」の定量的定義を提案し、「ロバスト性尺度」の概念を提案し、分散ロバスト最適化におけるいくつかの哲学的概念を定式化する。 第二に、ベイズ的手法は、ほぼ正しい(PAC)意味で分布的に堅牢であることを示し、さらに、ベイズ的非パラメトリックスにおいてディリクレプロセスのような構造を構築することにより、任意の正規化された経験的リスク最小化法がベイズ的手法と同値であることが証明できる。 第三に、機械学習モデルの一般化誤差は、これらの機械学習モデルの正規分布の不確かさとロバスト性によって特徴付けられることを示し、これは一般化誤差を束縛するための新たな視点であり、したがって、分散ロバストな機械学習モデル、ベイズモデル、正規化モデルが統一的な方法でより小さい一般化誤差を持つ傾向がある理由を説明する。

Bayesian methods, distributionally robust optimization methods, and regularization methods are three pillars of trustworthy machine learning combating distributional uncertainty, e.g., the uncertainty of an empirical distribution compared to the true underlying distribution. This paper investigates the connections among the three frameworks and, in particular, explores why these frameworks tend to have smaller generalization errors. Specifically, first, we suggest a quantitative definition for "distributional robustness", propose the concept of "robustness measure", and formalize several philosophical concepts in distributionally robust optimization. Second, we show that Bayesian methods are distributionally robust in the probably approximately correct (PAC) sense; in addition, by constructing a Dirichlet-process-like prior in Bayesian nonparametrics, it can be proven that any regularized empirical risk minimization method is equivalent to a Bayesian method. Third, we show that generalization errors of machine learning models can be characterized using the distributional uncertainty of the nominal distribution and the robustness measures of these machine learning models, which is a new perspective to bound generalization errors, and therefore, explain the reason why distributionally robust machine learning models, Bayesian models, and regularization models tend to have smaller generalization errors in a unified manner.
翻訳日:2024-03-28 01:59:27 公開日:2024-03-25
# リトルレッドライディングフッドがグローブ周辺へ:大規模言語モデルによる対話型ストーリープランニングと生成

Little Red Riding Hood Goes Around the Globe:Crosslingual Story Planning and Generation with Large Language Models ( http://arxiv.org/abs/2212.10471v3 )

ライセンス: Link先を確認
Evgeniia Razumovskaia, Joshua Maynez, Annie Louis, Mirella Lapata, Shashi Narayan, (参考訳) 以前の研究は、主に英語に焦点を当てた単言語設定でのみストーリー生成の計画の有効性を実証してきた。 計画が言語間でのストーリーの自動生成に利点をもたらすかどうか検討する。 本稿では,言語横断型ストーリ生成の新たな課題を提案する。 我々は、大規模な事前学習された言語モデルの創造性と推論能力を活用することにより、さまざまな計画の包括的な研究を行い、複数の言語で物語を生成する。 以上の結果から,物語を3つの行動に構成するプランは,内容や構造を明確に制御しながら,より一貫性のある,興味深い物語を生み出すことが示唆された。

Previous work has demonstrated the effectiveness of planning for story generation exclusively in a monolingual setting focusing primarily on English. We consider whether planning brings advantages to automatic story generation across languages. We propose a new task of cross-lingual story generation with planning and present a new dataset for this task. We conduct a comprehensive study of different plans and generate stories in several languages, by leveraging the creative and reasoning capabilities of large pre-trained language models. Our results demonstrate that plans which structure stories into three acts lead to more coherent and interesting narratives, while allowing to explicitly control their content and structure.
翻訳日:2024-03-28 01:59:27 公開日:2024-03-25
# RSA+:RSAの派生型。

RSA+: An RSA variant ( http://arxiv.org/abs/2301.01282v2 )

ライセンス: Link先を確認
Soeren Kleine, Andreas Nickel, Torben Ritter, Krishnan Shankar, (参考訳) 本稿では,有名なRSA暗号とRabin暗号の主成分を組み合わせた,確率的公開鍵暗号システムを提案する。 我々は,新方式の安全性と性能について,他の2つと比較して検討する。

We introduce a new probabilistic public-key cryptosystem which combines the main ingredients of the well-known RSA and Rabin cryptosystems. We investigate the security and performance of our new scheme in comparison to the other two.
翻訳日:2024-03-28 01:59:27 公開日:2024-03-25
# 逆薬物事象検出のための概念認識型知識増強型グラフニューラルネットワーク

Knowledge-augmented Graph Neural Networks with Concept-aware Attention for Adverse Drug Event Detection ( http://arxiv.org/abs/2301.10451v2 )

ライセンス: Link先を確認
Shaoxiong Ji, Ya Gao, Pekka Marttinen, (参考訳) 副作用薬物イベント(ADEs)は、薬物の安全性の重要な側面である。 バイオメディカル文学、薬物レビュー、ソーシャルメディアや医療フォーラムでのユーザー投稿など、様々なテキストにはADEに関する情報が豊富に含まれている。 近年,テキストからのADE検出を自動化するために,単語埋め込みとディープラーニングに基づく自然言語処理を適用している。 しかし、薬物や副作用やそれに対応する特徴学習に関する明確な医学的知識を取り入れようとはしなかった。 本稿では, 文書, 単語, 概念間の関係を記述した異種テキストグラフを導入し, 統一医療言語システムから医療知識を付加し, グラフ内の異なる種類のノードの特徴を異なる形で学習する概念認識型注意機構を提案する。 さらに、事前訓練された言語モデルと畳み込みグラフニューラルネットワークの文脈的埋め込みを利用して、効率的な特徴表現と関係学習を行う。 4つの公開データセットの実験により、我々のモデルは最近の進歩と競合する性能を達成し、概念認識の注意は他の注意機構よりも一貫して優れていることが示された。

Adverse drug events (ADEs) are an important aspect of drug safety. Various texts such as biomedical literature, drug reviews, and user posts on social media and medical forums contain a wealth of information about ADEs. Recent studies have applied word embedding and deep learning -based natural language processing to automate ADE detection from text. However, they did not explore incorporating explicit medical knowledge about drugs and adverse reactions or the corresponding feature learning. This paper adopts the heterogenous text graph which describes relationships between documents, words and concepts, augments it with medical knowledge from the Unified Medical Language System, and proposes a concept-aware attention mechanism which learns features differently for the different types of nodes in the graph. We further utilize contextualized embeddings from pretrained language models and convolutional graph neural networks for effective feature representation and relational learning. Experiments on four public datasets show that our model achieves performance competitive to the recent advances and the concept-aware attention consistently outperforms other attention mechanisms.
翻訳日:2024-03-28 01:59:27 公開日:2024-03-25
# 記述論理EL++のためのデュアルボックス埋め込み

Dual Box Embeddings for the Description Logic EL++ ( http://arxiv.org/abs/2301.11118v5 )

ライセンス: Link先を確認
Mathias Jackermeier, Jiaoyan Chen, Ian Horrocks, (参考訳) 形式的意味論が記述論理(DL)に根ざしているOWLオントロジーは、知識表現に広く用いられている。 知識グラフ(KG)と同様に、オントロジーはしばしば不完全であり、それらの維持と構築は困難であることが証明された。 古典的帰納的推論アルゴリズムは、オントロジーの正確な形式的意味論を用いて、行方不明な事実を予測する一方で、近年では、オントロジーから推測可能な事実を導出できる帰納的推論技術への関心が高まっている。 KGsと同様に、有望なアプローチは、潜在ベクトル空間におけるオントロジーの埋め込みを学習し、基礎となるDLのセマンティクスに固執することである。 様々なアプローチが提案されているが、現在のオントロジー埋め込み法にはいくつかの欠点がある。 この問題に対処し、オントロジー補完性能を向上させるため、DL EL++用のBox$2$ELという新しいオントロジー埋め込み法を提案し、ボックスとしての概念と役割(軸方向のハイパー矩形)を表現し、バンピング機構を用いて概念間の関係をモデル化する。 理論的にはBox$2$ELの音質を証明し、様々なデータセットに対して、仮定予測、ロールアサーション予測、帰納的推論の近似といったタスクにおいて、最先端の結果を達成し、広範な実験的評価を行う。

OWL ontologies, whose formal semantics are rooted in Description Logic (DL), have been widely used for knowledge representation. Similar to Knowledge Graphs (KGs), ontologies are often incomplete, and maintaining and constructing them has proved challenging. While classical deductive reasoning algorithms use the precise formal semantics of an ontology to predict missing facts, recent years have witnessed growing interest in inductive reasoning techniques that can derive probable facts from an ontology. Similar to KGs, a promising approach is to learn ontology embeddings in a latent vector space, while additionally ensuring they adhere to the semantics of the underlying DL. While a variety of approaches have been proposed, current ontology embedding methods suffer from several shortcomings, especially that they all fail to faithfully model one-to-many, many-to-one, and many-to-many relations and role inclusion axioms. To address this problem and improve ontology completion performance, we propose a novel ontology embedding method named Box$^2$EL for the DL EL++, which represents both concepts and roles as boxes (i.e., axis-aligned hyperrectangles), and models inter-concept relationships using a bumping mechanism. We theoretically prove the soundness of Box$^2$EL and conduct an extensive experimental evaluation, achieving state-of-the-art results across a variety of datasets on the tasks of subsumption prediction, role assertion prediction, and approximating deductive reasoning.
翻訳日:2024-03-28 01:59:27 公開日:2024-03-25
# クラスタデータと長手データの階層的モデリングに対する分布自由混合整数最適化手法

A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data ( http://arxiv.org/abs/2302.03157v2 )

ライセンス: Link先を確認
Madhav Sankaranarayanan, Intekhab Hossain, Tom Chen, (参考訳) ハードウェア拡張と組み合わせたMIOアルゴリズムの最近の進歩は、MIO問題を解く上で大きなスピードアップをもたらした。 これらの戦略は最適な部分集合選択に利用されており、特に$n$の観測により$p$の線形回帰から$k$の機能を選択できる。 本稿では,各クラスタに対して$n_k$の観測値を持つ線形混合効果(LMM)モデルで,$K$のクラスタから$\lambda$を選択できるようにする。 多数の合成および実データに対する包括的テストにより,本手法は数分以内に効率よく問題を解くことができることを示した。 数値実験により,MIO法はガウス分布LMMとラプラス分布LMMの両方において,高い予測力でスパース解を生成するという点で優れることを示した。 従来のLMMは、クラスタリング効果は個々の特徴とは独立していると仮定する。 しかし、新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し、その結果、モデルの堅牢性と精度が向上する。 このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。

Recent advancements in Mixed Integer Optimization (MIO) algorithms, paired with hardware enhancements, have led to significant speedups in resolving MIO problems. These strategies have been utilized for optimal subset selection, specifically for choosing $k$ features out of $p$ in linear regression given $n$ observations. In this paper, we broaden this method to facilitate cluster-aware regression, where selection aims to choose $\lambda$ out of $K$ clusters in a linear mixed effects (LMM) model with $n_k$ observations for each cluster. Through comprehensive testing on a multitude of synthetic and real datasets, we exhibit that our method efficiently solves problems within minutes. Through numerical experiments, we also show that the MIO approach outperforms both Gaussian- and Laplace-distributed LMMs in terms of generating sparse solutions with high predictive power. Traditional LMMs typically assume that clustering effects are independent of individual features. However, we introduce an innovative algorithm that evaluates cluster effects for new data points, thereby increasing the robustness and precision of this model. The inferential and predictive efficacy of this approach is further illustrated through its application in student scoring and protein expression.
翻訳日:2024-03-28 01:49:43 公開日:2024-03-25
# 対相互作用スピン系のボルツマン分布の自己回帰型ニューラルネットワークアーキテクチャ

The autoregressive neural network architecture of the Boltzmann distribution of pairwise interacting spins systems ( http://arxiv.org/abs/2302.08347v3 )

ライセンス: Link先を確認
Indaco Biazzo, (参考訳) Generative Autoregressive Neural Networks (ARNN)は、最近、画像および言語生成タスクにおいて、例外的な結果を示し、科学的および商業的な応用において、生成モデルの普及に寄与している。 この研究は、二対対相互作用系のボルツマン分布を自己回帰形式に正確にマッピングする。 得られたARNNアーキテクチャは、ハミルトンのカップリングと外部フィールドに対応する第1層の重みとバイアスを持ち、残留接続や明確な物理的意味を持つ再帰アーキテクチャのような広く使われている構造を特徴としている。 さらに、そのアーキテクチャの明示的な定式化により、統計物理学技術を用いることで、特定のシステムに対する新しいARNNを導出することができる。 例として、新しい効果的なARNNアーキテクチャは、Curie-Weiss と Sherrington-Kirkpatrick の2つの一般的な平均場系から派生し、対応する物理モデルのボルツマン分布を他のよく使われるアーキテクチャと比較すると、優れた性能を示す。 システムの物理とニューラルネットワークアーキテクチャの間の接続は、異なる相互作用システムのための新しいアーキテクチャを導出し、既存のアーキテクチャを物理的観点から解釈する手段を提供する。

Generative Autoregressive Neural Networks (ARNNs) have recently demonstrated exceptional results in image and language generation tasks, contributing to the growing popularity of generative models in both scientific and commercial applications. This work presents an exact mapping of the Boltzmann distribution of binary pairwise interacting systems into autoregressive form. The resulting ARNN architecture has weights and biases of its first layer corresponding to the Hamiltonian's couplings and external fields, featuring widely used structures such as the residual connections and a recurrent architecture with clear physical meanings. Moreover, its architecture's explicit formulation enables the use of statistical physics techniques to derive new ARNNs for specific systems. As examples, new effective ARNN architectures are derived from two well-known mean-field systems, the Curie-Weiss and Sherrington-Kirkpatrick models, showing superior performance in approximating the Boltzmann distributions of the corresponding physics model compared to other commonly used architectures. The connection established between the physics of the system and the neural network architecture provides a means to derive new architectures for different interacting systems and interpret existing ones from a physical perspective.
翻訳日:2024-03-28 01:49:43 公開日:2024-03-25
# 高分解能・同相多変量関数表現のための量子テンソルクロス補間

Quantics Tensor Cross Interpolation for High-Resolution, Parsimonious Representations of Multivariate Functions in Physics and Beyond ( http://arxiv.org/abs/2303.11819v2 )

ライセンス: Link先を確認
Marc K. Ritter, Yuriel Núñez Fernández, Markus Wallerberger, Jan von Delft, Hiroshi Shinaoka, Xavier Waintal, (参考訳) 連続変数の多変量関数は科学の無数の分野に現れる。 そのような機能を持つ数値計算は、典型的には2つの反対のデシダラタ(機能依存の正確な解決)と擬似メモリの使用の妥協を含む。 最近、両方の要件を満たすための2つの有望な戦略が浮かび上がっています。 i) 1つの変数のバイナリエンコーディングの1ビットを表す各インデックスで、関数をマルチインデックステンソルとして表現する量子表現。 (II)テンソルクロス補間(TCI)は、適用可能であれば、多次元テンソルに対して同相の補間を与える。 ここでは、両方のスキームの利点を組み合わせた量子TCI(QTCI)の戦略を示す。 我々は、そのポテンシャルを、凝縮物質物理学の応用、すなわちブリルアンゾーン積分の計算で説明する。

Multivariate functions of continuous variables arise in countless branches of science. Numerical computations with such functions typically involve a compromise between two contrary desiderata: accurate resolution of the functional dependence, versus parsimonious memory usage. Recently, two promising strategies have emerged for satisfying both requirements: (i) The quantics representation, which expresses functions as multi-index tensors, with each index representing one bit of a binary encoding of one of the variables; and (ii) tensor cross interpolation (TCI), which, if applicable, yields parsimonious interpolations for multi-index tensors. Here, we present a strategy, quantics TCI (QTCI), which combines the advantages of both schemes. We illustrate its potential with an application from condensed matter physics: the computation of Brillouin zone integrals.
翻訳日:2024-03-28 01:49:43 公開日:2024-03-25
# 実運用型マルチビューシナリオにおける自己スーパービジョンクラスタリングアルゴリズムにおけるノイズビューの副作用の検討と緩和

Investigating and Mitigating the Side Effects of Noisy Views for Self-Supervised Clustering Algorithms in Practical Multi-View Scenarios ( http://arxiv.org/abs/2303.17245v4 )

ライセンス: Link先を確認
Jie Xu, Yazhou Ren, Xiaolong Wang, Lei Feng, Zheng Zhang, Gang Niu, Xiaofeng Zhu, (参考訳) マルチビュークラスタリング(MVC)は,マルチビューデータのカテゴリ構造を自己管理的に探索することを目的としている。 複数のビューは単一のビューよりも多くの情報を提供します。 しかし、実際のマルチビューシナリオでは、ビューがノイズの多い場合には、パフォーマンスが著しく低下する可能性がある。 本稿では,ノイズの多いビューの欠点を公式に検討し,この問題に対処するための理論的に基礎を成したディープMVC法(MVAN)を提案する。 具体的には、複数のビューにまたがる非共有パラメータと一貫性のないクラスタリング予測を可能にし、ノイズの多いビューの副作用を低減するための新しいMVC目標を提案する。 さらに、2段階のマルチビュー反復最適化は、個々のビューの表現学習を洗練するための堅牢な学習目標を生成するように設計されている。 理論的解析により、MVCANはマルチビューの一貫性、相補性、およびノイズロバスト性を達成することで機能することが明らかになった。 最後に、大規模な公開データセットの実験により、MVCANは最先端のメソッドよりも優れており、ノイズの多いビューの存在に対して堅牢であることが示された。

Multi-view clustering (MVC) aims at exploring category structures among multi-view data in self-supervised manners. Multiple views provide more information than single views and thus existing MVC methods can achieve satisfactory performance. However, their performance might seriously degenerate when the views are noisy in practical multi-view scenarios. In this paper, we formally investigate the drawback of noisy views and then propose a theoretically grounded deep MVC method (namely MVCAN) to address this issue. Specifically, we propose a novel MVC objective that enables un-shared parameters and inconsistent clustering predictions across multiple views to reduce the side effects of noisy views. Furthermore, a two-level multi-view iterative optimization is designed to generate robust learning targets for refining individual views' representation learning. Theoretical analysis reveals that MVCAN works by achieving the multi-view consistency, complementarity, and noise robustness. Finally, experiments on extensive public datasets demonstrate that MVCAN outperforms state-of-the-art methods and is robust against the existence of noisy views.
翻訳日:2024-03-28 01:49:43 公開日:2024-03-25
# 量子エミッタを用いた量子コンピューティングのためのロス耐性アーキテクチャ

Loss-tolerant architecture for quantum computing with quantum emitters ( http://arxiv.org/abs/2304.03796v3 )

ライセンス: Link先を確認
Matthias C. Löbl, Stefano Paesani, Anders S. Sørensen, (参考訳) 我々は、フォトニック量子エミッタを用いた計測に基づく量子コンピューティングのためのアーキテクチャを開発する。 このアーキテクチャは、スピン-光子絡み合いを資源状態として利用し、光子の標準ベル測定により大きなスピン-量子クラスター状態に融合する。 このスキームは、複数のエミッタの完全にパーコレーションされたグラフ状態を構築するために、初期適応的でない(弾道的な)融合プロセスのみを使用するため、メモリ能力に制限のあるエミッタに調整されている。 決定論的エミッタから絡み合った光子を融合させる様々な幾何学的構造を探索することにより、同様の全フォトニックスキームと比較して光子損失耐性を著しく改善する。

We develop an architecture for measurement-based quantum computing using photonic quantum emitters. The architecture exploits spin-photon entanglement as resource states and standard Bell measurements of photons for fusing them into a large spin-qubit cluster state. The scheme is tailored to emitters with limited memory capabilities since it only uses an initial non-adaptive (ballistic) fusion process to construct a fully percolated graph state of multiple emitters. By exploring various geometrical constructions for fusing entangled photons from deterministic emitters, we improve the photon loss tolerance significantly compared to similar all-photonic schemes.
翻訳日:2024-03-28 01:39:58 公開日:2024-03-25
# Few-shot Class-incremental Pill Recognitionのための前方・後方対応型フレームワーク

A Forward and Backward Compatible Framework for Few-shot Class-incremental Pill Recognition ( http://arxiv.org/abs/2304.11959v2 )

ライセンス: Link先を確認
Jinghua Zhang, Li Liu, Kai Gao, Dewen Hu, (参考訳) 自動ピル認識(APR)システムは、病院の効率の向上、視覚障害者の支援、感染症の予防に不可欠である。 しかし,既存の深層学習に基づく錠剤認識システムでは,十分な学習データを持つクラスでのみ分類を行うことができる。 実際には、データアノテーションの高コスト化と新しいピルクラスの増加は、数発のクラスインクリメンタル・ピル認識システムの開発を必要としている。 本稿では,DBC-FSCIL(DBC-FSCIL)と呼ばれる,最初の数発のクラスインクリメンタル・ピル認識フレームワークを紹介する。 前方互換と後方互換の学習コンポーネントを含んでいる。 前方互換性学習において,差別的特徴学習を強化するために,革新的な仮想クラス合成戦略とセンター・トリプレット(CT)損失を提案する。 これらの仮想クラスは、将来のクラス更新のための機能領域のプレースホルダーとして機能し、モデルトレーニングのための多様なセマンティック知識を提供する。 後方互換性のある学習のために,不確実な定量化,データ再生(DR)と知識蒸留(KD)の促進により,古いクラスの信頼性の高い擬似特徴を合成する戦略を開発する。 このアプローチは、機能の柔軟な合成を可能にし、サンプルやモデルの追加ストレージ要求を効果的に削減する。 さらに、FSCILのための新しいピル画像データセットを構築し、様々な主流のFSCIL手法を評価し、新しいベンチマークを確立する。 実験の結果,我々のフレームワークは既存の最先端(SOTA)メソッドを超越していることがわかった。 コードはhttps://github.com/zhang-jinghua/DBC-FSCILで公開されている。

Automatic Pill Recognition (APR) systems are crucial for enhancing hospital efficiency, assisting visually impaired individuals, and preventing cross-infection. However, most existing deep learning-based pill recognition systems can only perform classification on classes with sufficient training data. In practice, the high cost of data annotation and the continuous increase in new pill classes necessitate the development of a few-shot class-incremental pill recognition system. This paper introduces the first few-shot class-incremental pill recognition framework, named Discriminative and Bidirectional Compatible Few-Shot Class-Incremental Learning (DBC-FSCIL). It encompasses forward-compatible and backward-compatible learning components. In forward-compatible learning, we propose an innovative virtual class synthesis strategy and a Center-Triplet (CT) loss to enhance discriminative feature learning. These virtual classes serve as placeholders in the feature space for future class updates, providing diverse semantic knowledge for model training. For backward-compatible learning, we develop a strategy to synthesize reliable pseudo-features of old classes using uncertainty quantification, facilitating Data Replay (DR) and Knowledge Distillation (KD). This approach allows for the flexible synthesis of features and effectively reduces additional storage requirements for samples and models. Additionally, we construct a new pill image dataset for FSCIL and assess various mainstream FSCIL methods, establishing new benchmarks. Our experimental results demonstrate that our framework surpasses existing State-of-the-art (SOTA) methods. The code is available at https://github.com/zhang-jinghua/DBC-FSCIL.
翻訳日:2024-03-28 01:39:58 公開日:2024-03-25
# コーズンが正しい接続を持つとき:関連データ不均衡言語に対する教師なしバイリンガル語彙誘導

When your Cousin has the Right Connections: Unsupervised Bilingual Lexicon Induction for Related Data-Imbalanced Languages ( http://arxiv.org/abs/2305.14012v2 )

ライセンス: Link先を確認
Niyati Bafna, Cristina España-Bonet, Josef van Genabith, Benoît Sagot, Rachel Bawden, (参考訳) 既存のBLI(unsupervised bilingual lexicon induction)のアプローチの多くは、両方の言語に対して大きなモノリンガルコーパスを必要とする、高品質な静的または文脈的な埋め込みに依存している。 しかし、教師なしのBLIは、大規模なデータセットが利用できない低リソース言語(LRL)にとって最も有用である可能性が高い。 我々はしばしば、関連する高リソース言語(HRL)に対してLRLのためのバイリンガルリソースを構築することに興味を持ち、その結果、BLIのデータ設定が著しく不均衡になる。 文献中の最先端のBLI手法は、データ不均衡な言語ペアに対してほぼゼロに近い性能を示し、これらの設定がより堅牢な技術を必要とすることを示す。 次に、関連するLRLとHRLの間で、HRLのマスキング言語モデルのみを推論し、その効果をヒンディー語に対してBhojpuriとMagahi(それぞれ5万個の単言語トークンを持つ)で示す。 さらに、リソース範囲によるアプローチ性能の比較実験を行い、Bhojpuri、Magahi、Awadhi、Braj、Maithiliの5つの低リソースIndic言語(Bhojpuri、Magahi、Awadhi、Maithili)に対する結果のレキシコンをヒンディー語に対してリリースする。

Most existing approaches for unsupervised bilingual lexicon induction (BLI) depend on good quality static or contextual embeddings requiring large monolingual corpora for both languages. However, unsupervised BLI is most likely to be useful for low-resource languages (LRLs), where large datasets are not available. Often we are interested in building bilingual resources for LRLs against related high-resource languages (HRLs), resulting in severely imbalanced data settings for BLI. We first show that state-of-the-art BLI methods in the literature exhibit near-zero performance for severely data-imbalanced language pairs, indicating that these settings require more robust techniques. We then present a new method for unsupervised BLI between a related LRL and HRL that only requires inference on a masked language model of the HRL, and demonstrate its effectiveness on truly low-resource languages Bhojpuri and Magahi (with <5M monolingual tokens each), against Hindi. We further present experiments on (mid-resource) Marathi and Nepali to compare approach performances by resource range, and release our resulting lexicons for five low-resource Indic languages: Bhojpuri, Magahi, Awadhi, Braj, and Maithili, against Hindi.
翻訳日:2024-03-28 01:39:58 公開日:2024-03-25
# LLMを不服従させる: ジェイルブレイクの形式化、分析、検出

Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks ( http://arxiv.org/abs/2305.14965v3 )

ライセンス: Link先を確認
Abhinav Rao, Sachin Vashistha, Atharva Naik, Somak Aditya, Monojit Choudhury, (参考訳) 商用のLarge Language Models (LLMs) による最近の調査では、非専門家のユーザは単にプロンプトを操作するだけで LLM をジェイルブレイクでき、結果として出力の退行、プライバシとセキュリティの侵害、攻撃的なアウトプット、コンテンツ規制ポリシー違反などが発生する。 これらの攻撃とその緩和を形式化し分析するための限定的な研究が実施されている。 我々は、このギャップを、形式主義と既知の(そして可能な)ジェイルブレイクの分類の提案によって埋める。 本稿では,既存のjailbreak手法とオープンソースおよび商用LCM(GPTベースモデル,OPT,BLOOM,FLAN-T5-XXLなど)の有効性について検討する。 さらに、既知の攻撃に対する効果の観点から、脱獄検知の課題についても論じる。 さらに分析するために、3700のjailbreakプロンプトにまたがるモデル出力のデータセットを4つのタスクでリリースします。

Recent explorations with commercial Large Language Models (LLMs) have shown that non-expert users can jailbreak LLMs by simply manipulating their prompts; resulting in degenerate output behavior, privacy and security breaches, offensive outputs, and violations of content regulator policies. Limited studies have been conducted to formalize and analyze these attacks and their mitigations. We bridge this gap by proposing a formalism and a taxonomy of known (and possible) jailbreaks. We survey existing jailbreak methods and their effectiveness on open-source and commercial LLMs (such as GPT-based models, OPT, BLOOM, and FLAN-T5-XXL). We further discuss the challenges of jailbreak detection in terms of their effectiveness against known attacks. For further analysis, we release a dataset of model outputs across 3700 jailbreak prompts over 4 tasks.
翻訳日:2024-03-28 01:39:58 公開日:2024-03-25
# 近距離飛行のためのSO(2)-同変ダウンウォッシュモデル

SO(2)-Equivariant Downwash Models for Close Proximity Flight ( http://arxiv.org/abs/2305.18983v3 )

ライセンス: Link先を確認
H. Smith, A. Shankar, J. Gielis, J. Blumenkamp, A. Prorok, (参考訳) 近接飛行するマルチローターはプロペラダウンウォッシュを介して互いに空力覚醒効果を誘導する。 従来の手法では、密集層を展開するための堅牢な制御パラダイムに組み込むことのできる、適切な3D力ベースのモデルを提供しられなかった。 したがって、これらのダウンウォッシュパターンのモデルを学ぶことは魅力的な解決策である。 本稿では,その問題に存在する潜在測地(すなわち対称性)を生かした下水力のモデリングのための,新しい学習ベースアプローチを提案する。 実世界のフライトデータをわずか5分でトレーニングした場合、我々の幾何学的認識モデルは15分以上のデータでトレーニングされた最先端のベースラインモデルよりも優れていることを実証した。 2台の車両を積んだ密集した現実世界のフライトでは、オンライン展開によって3Dトラジェクトリートラッキングが平均で36%近く向上する(垂直トラッキングは56%)。

Multirotors flying in close proximity induce aerodynamic wake effects on each other through propeller downwash. Conventional methods have fallen short of providing adequate 3D force-based models that can be incorporated into robust control paradigms for deploying dense formations. Thus, learning a model for these downwash patterns presents an attractive solution. In this paper, we present a novel learning-based approach for modelling the downwash forces that exploits the latent geometries (i.e. symmetries) present in the problem. We demonstrate that when trained with only 5 minutes of real-world flight data, our geometry-aware model outperforms state-of-the-art baseline models trained with more than 15 minutes of data. In dense real-world flights with two vehicles, deploying our model online improves 3D trajectory tracking by nearly 36% on average (and vertical tracking by 56%).
翻訳日:2024-03-28 01:30:07 公開日:2024-03-25
# 画像認識におけるBuggy Deep Learning Framework変換のためのフォールトローカライゼーション

Fault Localization for Buggy Deep Learning Framework Conversions in Image Recognition ( http://arxiv.org/abs/2306.06157v5 )

ライセンス: Link先を確認
Nikolaos Louloudakis, Perry Gibson, José Cano, Ajitha Rajan, (参考訳) Deep Neural Networks(DNN)をデプロイする場合、開発者は、モデルをあるディープラーニングフレームワークから別の(TensorFlowからPyTorchへの)モデルに変換することが多い。 しかし、このプロセスはエラーを起こしやすく、ターゲットモデルの精度に影響を与える可能性がある。 このような影響の程度を特定するため,画像認識に広く用いられている3つのDNN(MobileNetV2,ResNet101,InceptionV3)に対して,よく知られた4つのディープラーニングフレームワーク(PyTorch,Keras,TensorFlow(TF),TFLite)に変換された差分解析を行い,最大100%のモデルクラッシュと出力ラベルの相違を明らかにした。 このような誤りを軽減すべく,我々は,事前学習した画像認識モデルに着目した,バグの多いディープラーニングフレームワーク変換のフォールトローカライズと修復に向けた新しいアプローチを提案する。 我々の手法は4段階の分析から成り立っている。 1)変換ツール。 2)モデルパラメータ 3)モデルハイパーパラメータ、及び 4) グラフ表現。 さらに,検出した断層の故障修復に向けた様々な手法を提案する。 我々は,Apache TVMディープラーニングコンパイラ上で,InceptionV3のTFからTFLiteへの変換のための予備的なフォールトローカライズ解析を行うことにより,本手法を実装した。 提案手法は,重みの精度誤差を導入し,モデルの精度を低下させる共通DNNコンバータツールの欠陥を検出する。 故障局所化後、問題を修復し、変換誤差をゼロに減らした。

When deploying Deep Neural Networks (DNNs), developers often convert models from one deep learning framework to another (e.g., TensorFlow to PyTorch). However, this process is error-prone and can impact target model accuracy. To identify the extent of such impact, we perform and briefly present a differential analysis against three DNNs widely used for image recognition (MobileNetV2, ResNet101, and InceptionV3) converted across four well-known deep learning frameworks (PyTorch, Keras, TensorFlow (TF), and TFLite), which revealed numerous model crashes and output label discrepancies of up to 100%. To mitigate such errors, we present a novel approach towards fault localization and repair of buggy deep learning framework conversions, focusing on pre-trained image recognition models. Our technique consists of four stages of analysis: 1) conversion tools, 2) model parameters, 3) model hyperparameters, and 4) graph representation. In addition, we propose various strategies towards fault repair of the faults detected. We implement our technique on top of the Apache TVM deep learning compiler, and we test it by conducting a preliminary fault localization analysis for the conversion of InceptionV3 from TF to TFLite. Our approach detected a fault in a common DNN converter tool, which introduced precision errors in weights, reducing model accuracy. After our fault localization, we repaired the issue, reducing our conversion error to zero.
翻訳日:2024-03-28 01:30:07 公開日:2024-03-25
# DeltaNN:画像認識モデルの性能に及ぼす計算環境パラメータの影響の評価

DeltaNN: Assessing the Impact of Computational Environment Parameters on the Performance of Image Recognition Models ( http://arxiv.org/abs/2306.06208v5 )

ライセンス: Link先を確認
Nikolaos Louloudakis, Perry Gibson, José Cano, Ajitha Rajan, (参考訳) 画像認識タスクは一般的にディープラーニングを使用し、膨大な処理能力を必要とするため、高速でタイムリーな処理にはGPUやTPUなどのハードウェアアクセラレータに依存する。 リアルタイム画像認識タスクの失敗は、モデル展開中にハードウェアアクセラレーターのサブ最適マッピングによって起こり、タイミングの不確実性と誤動作を引き起こす可能性がある。 ハードウェアアクセラレータのマッピングは、ディープラーニングフレームワークやコンパイラ、デバイスライブラリなど、複数のソフトウェアコンポーネントを使用して行われます。 自律運転や医用画像などの安全クリティカルなアプリケーションにおける画像認識タスクの利用の増加により、ディープラーニングフレームワークやコンパイラ最適化、ハードウェアデバイスなどのパラメータがモデル性能や正確性に与える影響が十分に理解されていないため、計算環境の変化に対する彼らの堅牢性を評価することが不可欠である。 本稿では,差分テストフレームワーク DeltaNN を提案する。これによって,異なる計算環境パラメータが,展開中の画像認識モデルの性能,ポストトレーニングに与える影響を評価することができる。 DeltaNNは、ディープラーニングフレームワーク、コンパイラ最適化、ハードウェアデバイスなど、環境パラメータの変化に対する所定の画像認識モデルの異なる実装を生成し、結果としてモデルパフォーマンスの違いを分析する。 DeltaNNを用いて,ImageNetデータセットを用いた3つの画像認識モデルのロバスト性解析を行った。 異なる設定における誤分類や推論時間の違いによる影響を報告する。 コンパイラの最適化では,ディープラーニングフレームワーク間の出力ラベルの差が最大100%,予想外のパフォーマンス劣化が最大81%まで見られた。

Image recognition tasks typically use deep learning and require enormous processing power, thus relying on hardware accelerators like GPUs and TPUs for fast, timely processing. Failure in real-time image recognition tasks can occur due to sub-optimal mapping on hardware accelerators during model deployment, which may lead to timing uncertainty and erroneous behavior. Mapping on hardware accelerators is done using multiple software components like deep learning frameworks, compilers, and device libraries, that we refer to as the computational environment. Owing to the increased use of image recognition tasks in safety-critical applications like autonomous driving and medical imaging, it is imperative to assess their robustness to changes in the computational environment, as the impact of parameters like deep learning frameworks, compiler optimizations, and hardware devices on model performance and correctness is not yet well understood. In this paper we present a differential testing framework, DeltaNN, that allows us to assess the impact of different computational environment parameters on the performance of image recognition models during deployment, post training. DeltaNN generates different implementations of a given image recognition model for variations in environment parameters, namely, deep learning frameworks, compiler optimizations and hardware devices and analyzes differences in model performance as a result. Using DeltaNN, we conduct an empirical study of robustness analysis of three popular image recognition models using the ImageNet dataset. We report the impact in terms of misclassifications and inference time differences across different settings. In total, we observed up to 100% output label differences across deep learning frameworks, and up to 81% unexpected performance degradation in terms of inference time, when applying compiler optimizations.
翻訳日:2024-03-28 01:30:07 公開日:2024-03-25
# パレート最適解の集合によるエネルギー管理構成概念の同定

Identification of Energy Management Configuration Concepts from a Set of Pareto-optimal Solutions ( http://arxiv.org/abs/2306.08318v2 )

ライセンス: Link先を確認
Felix Lanfermann, Qiqi Liu, Yaochu Jin, Sebastian Schmitt, (参考訳) 持続可能な社会への転換において、施設や建物における資源効率の良いエネルギー管理システムの導入がますます重要になっている。 しかし、グリッド運用の不確実性や再生可能エネルギー利用に関して、コスト、堅牢性といった複数の相反する目標に基づいて適切な構成を選択することは、多条件決定の難しい問題である。 最近開発された概念識別技術は、構成オプションを意味的に意味のあるグループ(概念)に分類することで意思決定を容易にする。 このプロセスでは、目的と設計パラメータを異なる集合(記述空間と呼ばれる)に分割することが非常に重要なステップである。 本研究では,Pareto-Optimal ソリューションの非常に大規模なデータセットから,関連性のある,実行可能なエネルギー管理構成を見つけるための概念識別技術を活用することに注力する。 データセットは、高品質なDigital Twinエネルギー管理シミュレータの多目的進化最適化によって生成される20000の現実的なパレート最適エネルギー管理構成で構成されている。 目的とパラメータの分割という記述空間の選択が、抽出可能な情報のタイプにどのように影響するかを分析する。 意思決定者は、そのプロセスに制約やバイアスを導入して、期待と嗜好を満たすことができることを示す。 この研究で提示された反復的アプローチは、特定の目的間のトレードオフに関する貴重な洞察を創出し、大規模で複雑なエネルギー管理システムを設計する際の意思決定プロセスを支援するための強力で柔軟なツールを構成する。

Implementing resource efficient energy management systems in facilities and buildings becomes increasingly important in the transformation to a sustainable society. However, selecting a suitable configuration based on multiple, typically conflicting objectives, such as cost, robustness with respect to uncertainty of grid operation, or renewable energy utilization, is a difficult multi-criteria decision making problem. The recently developed concept identification technique can facilitate a decision maker by sorting configuration options into semantically meaningful groups (concepts). In this process, the partitioning of the objectives and design parameters into different sets (called description spaces) is a very important step. In this study we focus on utilizing the concept identification technique for finding relevant and viable energy management configurations from a very large data set of Pareto-optimal solutions. The data set consists of 20000 realistic Pareto-optimal building energy management configurations generated by a many-objective evolutionary optimization of a high quality Digital Twin energy management simulator. We analyze how the choice of description spaces, i.e., the partitioning of the objectives and parameters, impacts the type of information that can be extracted. We show that the decision maker can introduce constraints and biases into that process to meet expectations and preferences. The iterative approach presented in this work allows for the generation of valuable insights into trade-offs between specific objectives, and constitutes a powerful and flexible tool to support the decision making process when designing large and complex energy management systems.
翻訳日:2024-03-28 01:30:07 公開日:2024-03-25
# サンプルベース探索:空間制約付き多重分解能散乱データ近似

Samplet basis pursuit: Multiresolution scattered data approximation with sparsity constraints ( http://arxiv.org/abs/2306.10180v3 )

ライセンス: Link先を確認
Davide Baroli, Helmut Harbrecht, Michael Multerer, (参考訳) 我々は、$\ell_1$-regularization を用いたサンプルト座標における分散データ近似について検討する。 $\ell_1$-regularization 項の応用は、サンプル基底に対する係数の空間性を強制する。 サンプレットはウェーブレット型の署名付き測度であり、散乱データに合わせて調整される。 それらは、ローカライゼーション、マルチレゾリューション分析、データ圧縮の観点から、ウェーブレットと同じような特性を提供する。 Riesz isometry を用いて、再生成されたカーネルヒルベルト空間にサンプルトを埋め込んで、結果の関数の性質について議論する。 組込みサンプルベースに対してスパースな信号のクラスは、カーネル翻訳の基盤に関してスパースな信号のクラスよりもかなり大きいと論じる。 逆に、少数のカーネル変換の線形結合である全ての信号はサンプル座標においてスパースである。 したがって、サンプルは一般的な散在データセットによく確立されたマルチレゾリューション技術を使用することができる。 本研究では,ソフト収縮と半平滑ニュートン法を組み合わせることで,問題の迅速な解法を提案する。 サンプルト座標におけるカーネル行列のスパース表現を利用して、この手法は高速反復収縮しきい値決定アルゴリズムよりも高速に収束し、大規模データにも適用可能である。 数値的なベンチマークを提示し,マルチレゾリューションアプローチが単一スケールアプローチよりも優れていることを示す。 大規模アプリケーションとして,分散データによる表面再構成と,複数のカーネルの辞書を用いた散乱温度データの再構成を検討する。

We consider scattered data approximation in samplet coordinates with $\ell_1$-regularization. The application of an $\ell_1$-regularization term enforces sparsity of the coefficients with respect to the samplet basis. Samplets are wavelet-type signed measures, which are tailored to scattered data. They provide similar properties as wavelets in terms of localization, multiresolution analysis, and data compression. By using the Riesz isometry, we embed samplets into reproducing kernel Hilbert spaces and discuss the properties of the resulting functions. We argue that the class of signals that are sparse with respect to the embedded samplet basis is considerably larger than the class of signals that are sparse with respect to the basis of kernel translates. Vice versa, every signal that is a linear combination of only a few kernel translates is sparse in samplet coordinates. Therefore, samplets enable the use of well-established multiresolution techniques on general scattered data sets. We propose the rapid solution of the problem under consideration by combining soft-shrinkage with the semi-smooth Newton method. Leveraging on the sparse representation of kernel matrices in samplet coordinates, this approach converges faster than the fast iterative shrinkage thresholding algorithm and is feasible for large-scale data. Numerical benchmarks are presented and demonstrate the superiority of the multiresolution approach over the single-scale approach. As large-scale applications, the surface reconstruction from scattered data and the reconstruction of scattered temperature data using a dictionary of multiple kernels are considered.
翻訳日:2024-03-28 01:30:07 公開日:2024-03-25
# 年齢推定のための評価実践を振り返る--現状と統一ベンチマークの比較分析

A Call to Reflect on Evaluation Practices for Age Estimation: Comparative Analysis of the State-of-the-Art and a Unified Benchmark ( http://arxiv.org/abs/2307.04570v3 )

ライセンス: Link先を確認
Jakub Paplham, Vojtech Franc, (参考訳) 異なる年齢推定法を比較することは、ベンチマークプロセスの不整合に起因する公開結果の信頼性の欠如による課題となる。 過去10年間に専門的な手法を用いて連続的なパフォーマンス改善を報告してきたが、これらの主張に異議を唱えた。 本稿では、現在使われている評価プロトコルにおける2つの自明で永続的な問題を特定し、その解決方法について述べる。 我々は、最先端の顔年齢推定法について、広範囲に比較分析を行う。 驚くべきことに、これらの手法のパフォーマンスの違いは、顔のアライメント、顔のカバレッジ、画像の解像度、モデルアーキテクチャ、事前トレーニングに使用するデータ量など、他の要因の影響と比較して無視できる。 得られた知見を用いて、FaRLをバックボーンモデルとして使用し、すべての公開データセット上での有効性を実証する。 ソースコードと正確なデータはGitHubで公開しています。

Comparing different age estimation methods poses a challenge due to the unreliability of published results stemming from inconsistencies in the benchmarking process. Previous studies have reported continuous performance improvements over the past decade using specialized methods; however, our findings challenge these claims. This paper identifies two trivial, yet persistent issues with the currently used evaluation protocol and describes how to resolve them. We offer an extensive comparative analysis for state-of-the-art facial age estimation methods. Surprisingly, we find that the performance differences between the methods are negligible compared to the effect of other factors, such as facial alignment, facial coverage, image resolution, model architecture, or the amount of data used for pretraining. We use the gained insights to propose using FaRL as the backbone model and demonstrate its effectiveness on all public datasets. We make the source code and exact data splits public on GitHub.
翻訳日:2024-03-28 01:20:23 公開日:2024-03-25
# 米国のレストランレビューと大規模言語モデルにおける移民料理の他と低地位フレーミング

Othering and low status framing of immigrant cuisines in US restaurant reviews and large language models ( http://arxiv.org/abs/2307.07645v2 )

ライセンス: Link先を確認
Yiwei Luo, Kristina Gligorić, Dan Jurafsky, (参考訳) 食品に対する暗黙の態度を識別することは、民族的アイデンティティの指標としての食品のサリエンスによる社会的偏見を軽減することができる。 食品に関するステレオタイプは、人種化された談話に寄与し、レストランの経済的成果に悪影響を及ぼす可能性のある代表的害である。 テキスト生成における大規模言語モデル(LLM)の利用の増加と,そのトレーニングデータにおける態度を再現する傾向を考えると,特にオンラインコーパスにおける表現的害の存在を理解することは重要である。 言語学的に慎重に分析し,210万件の英語Yelpレビューにおけるフレーミングの違いに関する大規模研究において,移民料理に対する態度に関する社会的理論を評価する。 レストランの価格や近隣の人種の多様性などの要因をコントロールした結果、移民料理は社会的に構築された真正性(例えば「オーセンティック」や「伝統」など)の枠組みで、特に非ヨーロッパ料理(例えば「インド」や「メキシコ」)は、ヨーロッパ料理(例えば「フランス」)よりもエキゾチックであると説明されている。 また、ヨーロッパ以外の料理は、価格を抑えつつも、最も高価なレストランの中でも、安価で汚いと表現される傾向にあることもわかりました。 最後に、LLMが生成したレビューは、これらの表現的害の下流に保持されていることを指摘し、同様のフレーミング傾向を再現することを示した。 以上の結果から,胃科ステレオタイピングの社会的理論を裏付け,人種的評価プロセスと言語戦略を明らかにすることができた。

Identifying implicit attitudes toward food can mitigate social prejudice due to food's salience as a marker of ethnic identity. Stereotypes about food are representational harms that may contribute to racialized discourse and negatively impact economic outcomes for restaurants. Understanding the presence of representational harms in online corpora in particular is important, given the increasing use of large language models (LLMs) for text generation and their tendency to reproduce attitudes in their training data. Through careful linguistic analyses, we evaluate social theories about attitudes toward immigrant cuisine in a large-scale study of framing differences in 2.1M English language Yelp reviews. Controlling for factors such as restaurant price and neighborhood racial diversity, we find that immigrant cuisines are more likely to be othered using socially constructed frames of authenticity (e.g., "authentic," "traditional"), and that non-European cuisines (e.g., Indian, Mexican) in particular are described as more exotic compared to European ones (e.g., French). We also find that non-European cuisines are more likely to be described as cheap and dirty, even after controlling for price, and even among the most expensive restaurants. Finally, we show that reviews generated by LLMs reproduce similar framing tendencies, pointing to the downstream retention of these representational harms. Our results corroborate social theories of gastronomic stereotyping, revealing racialized evaluative processes and linguistic strategies through which they manifest.
翻訳日:2024-03-28 01:20:23 公開日:2024-03-25
# 小型初期化を伴う2層ReLUネットワークの初期ニューロンアライメント

Early Neuron Alignment in Two-layer ReLU Networks with Small Initialization ( http://arxiv.org/abs/2307.12851v2 )

ライセンス: Link先を確認
Hancheng Min, Enrique Mallada, René Vidal, (参考訳) 本稿では,2層型ReLUネットワークを2層に分割し,初期化を小さくした勾配流を用いた2層型ReLUネットワークの学習課題について検討する。 同じラベルを持つ任意の入力データには正の相関があり、異なるラベルを持つ任意のペアには負の相関がある。 分析の結果,第1層のニューロンは第2層の重みに応じて,正のデータか負のデータのいずれかと整合しようとすることがわかった。 ニューロンの方向ダイナミクスを慎重に解析することで、入力データとの整合性を達成するのに全ニューロンに要する時間に$$\mathcal{O}(\frac{\log n}{\sqrt{\mu}})$上界を与えることができる。 初期のアライメントフェーズの後、損失は$\mathcal{O}(\frac{1}{t})$レートでゼロに収束し、第1層の重み行列は概して低ランクである。 MNISTデータセットに関する数値実験は、我々の理論的な結果を示している。

This paper studies the problem of training a two-layer ReLU network for binary classification using gradient flow with small initialization. We consider a training dataset with well-separated input vectors: Any pair of input data with the same label are positively correlated, and any pair with different labels are negatively correlated. Our analysis shows that, during the early phase of training, neurons in the first layer try to align with either the positive data or the negative data, depending on its corresponding weight on the second layer. A careful analysis of the neurons' directional dynamics allows us to provide an $\mathcal{O}(\frac{\log n}{\sqrt{\mu}})$ upper bound on the time it takes for all neurons to achieve good alignment with the input data, where $n$ is the number of data points and $\mu$ measures how well the data are separated. After the early alignment phase, the loss converges to zero at a $\mathcal{O}(\frac{1}{t})$ rate, and the weight matrix on the first layer is approximately low-rank. Numerical experiments on the MNIST dataset illustrate our theoretical findings.
翻訳日:2024-03-28 01:20:23 公開日:2024-03-25
# 量子コンピュータのファジィゲージ理論

Fuzzy Gauge Theory for Quantum Computers ( http://arxiv.org/abs/2308.05253v3 )

ライセンス: Link先を確認
Andrei Alexandru, Paulo F. Bedaque, Andrea Carosso, Michael J. Cervia, Edison M. Murairi, Andy Sheng, (参考訳) 連続ゲージ理論は、そのボゾン次数により、無限次元局所ヒルベルト空間を持つ。 量子ビットベースのハードウェア上でこれらの自由度を符号化するには、有限個の自由度しか使わずに理論の振舞いを近似するある種の「量子化」スキームが必要である。 ファジィゲージ理論 (fuzzy gauge theory) と呼ばれるゲージ理論に対する新しい量子化戦略を提案し、ファジィ$\sigma$-モデルの成功に基づく。 ファジィゲージ理論は正規ゲージ理論と同じ普遍性クラスに属し、その場合、通常の空間連続極限以外のいかなる極限も必要としない。 さらに,これらのモデルが量子シミュレーションにおいて比較的資源効率が高いことを示す。

Continuous gauge theories, because of their bosonic degrees of freedom, have an infinite-dimensional local Hilbert space. Encoding these degrees of freedom on qubit-based hardware demands some sort of ``qubitization'' scheme, where one approximates the behavior of a theory while using only finitely many degrees of freedom. We propose a novel qubitization strategy for gauge theories, called ``fuzzy gauge theory,'' building on the success of the fuzzy $\sigma$-model in earlier work. We provide arguments that the fuzzy gauge theory lies in the same universality class as regular gauge theory, in which case its use would obviate the need of any further limit besides the usual spatial continuum limit. Furthermore, we demonstrate that these models are relatively resource-efficient for quantum simulations.
翻訳日:2024-03-28 01:20:23 公開日:2024-03-25
# 分離型ハミルトンニューラルネットワーク

Separable Hamiltonian Neural Networks ( http://arxiv.org/abs/2309.01069v3 )

ライセンス: Link先を確認
Zi-Yu Khoo, Dawen Wu, Jonathan Sze Choong Low, Stéphane Bressan, (参考訳) ハミルトンニューラルネットワーク (HNN) は、ハミルトン方程式の学習バイアスの下で力学系のベクトル場を回帰する最先端のモデルである。 最近の観察では、ハミルトンの加法分離性に関するバイアスを埋め込むことで、回帰複雑性が減少し、回帰性能が向上する。 観測,学習,帰納バイアスを用いて,HNN内に加法分離性を組み込む分離可能なHNNを提案する。 提案手法はハミルトニアン場とベクトル場を回帰するHNNよりも効果的であり,系の運動エネルギーとポテンシャルエネルギーを解釈する能力を有することを示す。

Hamiltonian neural networks (HNNs) are state-of-the-art models that regress the vector field of a dynamical system under the learning bias of Hamilton's equations. A recent observation is that embedding a bias regarding the additive separability of the Hamiltonian reduces the regression complexity and improves regression performance. We propose separable HNNs that embed additive separability within HNNs using observational, learning, and inductive biases. We show that the proposed models are more effective than the HNN at regressing the Hamiltonian and the vector field, and have the capability to interpret the kinetic and potential energy of the system.
翻訳日:2024-03-28 01:10:34 公開日:2024-03-25
# 任意に小さな非局所性を持つデバイス非依存量子鍵分布

Device-independent quantum key distribution with arbitrarily small nonlocality ( http://arxiv.org/abs/2309.09650v2 )

ライセンス: Link先を確認
Lewis Wooltorton, Peter Brown, Roger Colbeck, (参考訳) デバイス非依存の量子キー分散(DIQKD)により、2人のユーザが使用する量子デバイスを信頼することなく、共有暗号キーをセットアップできる。 そのためには,ユーザ間の非局所的な相関が必要になります。 しかし、[Phys. Rev. Lett. 127, 050503 (2021)] において、既知のプロトコルの非局所性は常に十分ではないことが示され、任意のDIQKD実装に必要な最小限の非局所性に基礎的な下限が存在するかどうかが問題となった。 ここではそのような境界が存在しないことを示し、局所集合に任意に近い相関を持つ鍵を与えるスキームを与える。 さらに、我々の構成のいくつかは、一対の絡み合った量子ビットに対して最大1ビットの鍵を達成する。 一つの線形ベル表現で最大絡み合う状態の全ての自己テストを構成するベル不等式の族を研究することでこれを実現できる。 この族の中では、一対の入力が任意の完全鍵に近い出力を得るという性質と非局所的な相関が存在する。 このような相関関係は、古典的境界に任意に近いものを含む、Cluser-Horne-Shimony-Holt (CHSH) 値の範囲に存在している。 最後に、完全鍵と完全ランダム性の両方を同時に生成できる量子相関の存在を示すとともに、任意に小さなCHSH違反を示す。

Device-independent quantum key distribution (DIQKD) allows two users to set up shared cryptographic key without the need to trust the quantum devices used. Doing so requires nonlocal correlations between the users. However, in [Phys. Rev. Lett. 127, 050503 (2021)] it was shown that for known protocols nonlocality is not always sufficient, leading to the question of whether there is a fundamental lower bound on the minimum amount of nonlocality needed for any DIQKD implementation. Here we show that no such bound exists, giving schemes that achieve key with correlations arbitrarily close to the local set. Furthermore, some of our constructions achieve the maximum of 1 bit of key per pair of entangled qubits. We achieve this by studying a family of Bell-inequalities that constitute all self-tests of the maximally entangled state with a single linear Bell expression. Within this family there exist non-local correlations with the property that one pair of inputs yield outputs arbitrarily close to perfect key. Such correlations exist for a range of Clauser-Horne-Shimony-Holt (CHSH) values, including those arbitrarily close to the classical bound. Finally, we show the existence of quantum correlations that can generate both perfect key and perfect randomness simultaneously, whilst also displaying arbitrarily small CHSH violation; this opens up the possibility of a new class of cryptographic protocol.
翻訳日:2024-03-28 01:10:34 公開日:2024-03-25
# グラフニューラルネットワークを用いた局所放送による集合認識多エージェント経路の最適化

Optimizing Crowd-Aware Multi-Agent Path Finding through Local Broadcasting with Graph Neural Networks ( http://arxiv.org/abs/2309.10275v2 )

ライセンス: Link先を確認
Phu Pham, Aniket Bera, (参考訳) 混み合った環境におけるマルチエージェント経路探索(MAPF)は,システム内のすべてのエージェントに対して衝突のない経路を見つけることを目的として,動作計画において困難な問題を示す。 MAPFは、航空群、自律倉庫ロボット、自動運転車など、さまざまな分野の幅広い応用を見出している。 MAPFへの現在のアプローチは、一般的に中央集権と分散計画の2つの主要なカテゴリに分類される。 中央集権プランニングは、エージェントや状態の数が増加すると次元性の呪いに悩まされるため、大規模で複雑な環境ではうまくスケールしない。 一方、分散計画では、エージェントが部分的に観測可能な環境下でリアルタイムの経路計画に従事し、暗黙の協調を示すことができる。 しかし、それらは密集環境における緩やかな収束と性能劣化に悩まされている。 本稿では,グラフニューラルネットワーク(GNN)によるエージェント間の効率的なローカル通信を実現することにより,混雑環境における状況認識と意思決定の容易化を実現する,クラウド対応の分散強化学習手法であるCRAMPを紹介する。 シミュレーション環境でCRAMPを試験し,MAPFの最先端の分散化手法よりも優れた性能を示す。 CRAMPは, メースパンおよび衝突数で測定された溶液品質を最大59%改善し, 従来の方法と比較して最大35%改善した。

Multi-Agent Path Finding (MAPF) in crowded environments presents a challenging problem in motion planning, aiming to find collision-free paths for all agents in the system. MAPF finds a wide range of applications in various domains, including aerial swarms, autonomous warehouse robotics, and self-driving vehicles. Current approaches to MAPF generally fall into two main categories: centralized and decentralized planning. Centralized planning suffers from the curse of dimensionality when the number of agents or states increases and thus does not scale well in large and complex environments. On the other hand, decentralized planning enables agents to engage in real-time path planning within a partially observable environment, demonstrating implicit coordination. However, they suffer from slow convergence and performance degradation in dense environments. In this paper, we introduce CRAMP, a novel crowd-aware decentralized reinforcement learning approach to address this problem by enabling efficient local communication among agents via Graph Neural Networks (GNNs), facilitating situational awareness and decision-making capabilities in congested environments. We test CRAMP on simulated environments and demonstrate that our method outperforms the state-of-the-art decentralized methods for MAPF on various metrics. CRAMP improves the solution quality up to 59% measured in makespan and collision count, and up to 35% improvement in success rate in comparison to previous methods.
翻訳日:2024-03-28 01:10:34 公開日:2024-03-25
# MBRとQEファインタニング:最良かつ最も高価な復号法の訓練時間蒸留

MBR and QE Finetuning: Training-time Distillation of the Best and Most Expensive Decoding Methods ( http://arxiv.org/abs/2309.10966v6 )

ライセンス: Link先を確認
Mara Finkelstein, Subhajit Naskar, Mehdi Mirzazadeh, Apurva Shah, Markus Freitag, (参考訳) 自然言語生成(NLG)タスクの復号法に関する最近の研究は、MAP復号法が最適ではないことを示している。 QE(Quality Estimation)やMBR(Minimum Bayes' Risk)といったより強力な復号法が提案され、モデルパープレキシティとvs品質のミスマッチが軽減された。 これらの復号法は最先端の性能を達成するが、計算コストは極端に高い。 そこで本研究では,これらの復号法の品質向上を,推論時に効率の良い復号アルゴリズムを用いて,学習時に抽出するMDRファインタニングとQEファインタニングを提案する。 ニューラルネットワーク翻訳(NMT)の標準NLGタスクを用いて、自己学習においても、これらの微調整法はベースモデルよりも大幅に優れていることを示す。 さらに、外部LLMを教師モデルとして使用する場合、これらの微調整法は人為的な参照に基づいて微調整を行う。 これらの結果は、モノリンガルデータを活用する新たな方法として、デコード時の最大効率を維持しながら、人間の計算データと同等かそれ以上のモデル品質の向上を実現することが示唆されている。

Recent research in decoding methods for Natural Language Generation (NLG) tasks has shown that MAP decoding is not optimal, because model probabilities do not always align with human preferences. Stronger decoding methods, including Quality Estimation (QE) reranking and Minimum Bayes' Risk (MBR) decoding, have since been proposed to mitigate the model-perplexity-vs-quality mismatch. While these decoding methods achieve state-of-the-art performance, they are prohibitively expensive to compute. In this work, we propose MBR finetuning and QE finetuning which distill the quality gains from these decoding methods at training time, while using an efficient decoding algorithm at inference time. Using the canonical NLG task of Neural Machine Translation (NMT), we show that even with self-training, these finetuning methods significantly outperform the base model. Moreover, when using an external LLM as a teacher model, these finetuning methods outperform finetuning on human-generated references. These findings suggest new ways to leverage monolingual data to achieve improvements in model quality that are on par with, or even exceed, improvements from human-curated data, while maintaining maximum efficiency during decoding.
翻訳日:2024-03-28 01:10:34 公開日:2024-03-25
# 強反発二層モデルにおける創発性フェシュバッハ共鳴からのペアリングドーム

Pairing dome from an emergent Feshbach resonance in a strongly repulsive bilayer model ( http://arxiv.org/abs/2309.13040v4 )

ライセンス: Link先を確認
Hannah Lange, Lukas Homeier, Eugene Demler, Ulrich Schollwöck, Annabelle Bohrdt, Fabian Grusdt, (参考訳) 従来の超伝導を理解する鍵は、ドープ反強磁性体における移動電荷キャリアのペアリング機構を解き明かすことであり、強い反発性クーロン相互作用が存在する場合でも電荷間の効果的なアトラクションをもたらす。 ここでは, 有限ドーピング系において強く強化された, 強い結合エネルギーを特徴とする混合次元(mixD) $t-J$モデルにおけるペアリングについて検討する。 幅$w\leq 2$の2層の混合Dはしごは、小さな反発で密に拘束された穴の対(閉水路)から大きな反発でより空間的に拡張され、相関した個々の穴の対(開水路)へと交差する。 我々は、原子Feshbach共鳴に類似して、アトラクションが閉じたチャネルによって媒介される、後者の効果的なモデルを引き出す。 密度行列再正規化群 (DMRG) シミュレーションを用いて、フェルミ表面の体積の変化と、密接な有界ホール対へのクロスオーバーを伴う、約30 %$ドーピングで大きな結合エネルギーのドームを明らかにする。 我々の研究は、二層体、Ni系超伝導体と密接な関係にある支配的な反発を持つドープミックスD系におけるペアリングの顕微鏡理論を提供し、我々の予測は最先端の量子シミュレータで検証できる。

A key to understanding unconventional superconductivity lies in unraveling the pairing mechanism of mobile charge carriers in doped antiferromagnets, yielding an effective attraction between charges even in the presence of strong repulsive Coulomb interactions. Here, we study pairing in a mixed-dimensional (mixD) $t-J$ model, featuring robust binding energies -- despite dominant repulsive interactions -- that are strongly enhanced in the finite doping regime. The single and coupled mixD ladders we study, corresponding to bilayers of width $w\leq 2$, feature a crossover from tightly bound pairs of holes (closed channel) at small repulsion, to more spatially extended, correlated pairs of individual holes (open channel) at large repulsion. We derive an effective model for the latter, in which the attraction is mediated by the closed channel, in analogy to atomic Feshbach resonances. Using density matrix renormalization group (DMRG) simulations we reveal a dome of large binding energies at around $30\%$ doping, accompanied by a change of the Fermi surface volume and a crossover from extended to tightly bound hole pairs. Our work provides a microscopic theory of pairing in the doped mixD system with dominant repulsion, closely related to bilayer, Ni-based superconductors, and our predictions can be tested in state-of-the-art quantum simulators.
翻訳日:2024-03-28 01:10:34 公開日:2024-03-25
# Node-Aligned Graph-to-Graph (NAG2G): シングルステップ再合成におけるテンプレートなしディープラーニングアプローチの高揚化

Node-Aligned Graph-to-Graph (NAG2G): Elevating Template-Free Deep Learning Approaches in Single-Step Retrosynthesis ( http://arxiv.org/abs/2309.15798v2 )

ライセンス: Link先を確認
Lin Yao, Wentao Guo, Zhen Wang, Shang Xiang, Wentan Liu, Guolin Ke, (参考訳) 有機化学における単段階逆合成(SSR)は、コンピュータ支援合成設計における深層学習(DL)技術の恩恵を受けている。 テンプレートフリーDLモデルは、レトロシンセシス予測に柔軟で有望であるが、しばしば重要な2次元分子情報を無視し、ノード生成のための原子アライメントに苦労する。 これらの問題に対処するために、トランスフォーマーベースのテンプレートフリーDLモデルであるNode-Aligned Graph-to-Graph (NAG2G)を導入する。 NAG2Gは2D分子グラフと3Dコンフォメーションを組み合わせて包括的分子の詳細を保持し、ノードアライメントによる製品-反応原子マッピングを組み込んで、ノード・バイ・ノードグラフの出力プロセスの順序を自動回帰的に決定する。 厳密なベンチマークと詳細なケーススタディを通じて、NAG2GはUSPTO-50kおよびUSPTO-FULLの拡張データセットにおいて顕著な予測精度で際立っていることを実証した。 さらに、このモデルの実用性は、複数の薬物候補分子の合成経路の予測が成功したことによる。 このことは、NAG2Gの堅牢性だけでなく、将来の合成経路設計タスクのための複雑な化学合成プロセスの予測に革命をもたらす可能性も証明している。

Single-step retrosynthesis (SSR) in organic chemistry is increasingly benefiting from deep learning (DL) techniques in computer-aided synthesis design. While template-free DL models are flexible and promising for retrosynthesis prediction, they often ignore vital 2D molecular information and struggle with atom alignment for node generation, resulting in lower performance compared to the template-based and semi-template-based methods. To address these issues, we introduce Node-Aligned Graph-to-Graph (NAG2G), a transformer-based template-free DL model. NAG2G combines 2D molecular graphs and 3D conformations to retain comprehensive molecular details and incorporates product-reactant atom mapping through node alignment which determines the order of the node-by-node graph outputs process in an auto-regressive manner. Through rigorous benchmarking and detailed case studies, we have demonstrated that NAG2G stands out with its remarkable predictive accuracy on the expansive datasets of USPTO-50k and USPTO-FULL. Moreover, the model's practical utility is underscored by its successful prediction of synthesis pathways for multiple drug candidate molecules. This not only proves NAG2G's robustness but also its potential to revolutionize the prediction of complex chemical synthesis processes for future synthetic route design tasks.
翻訳日:2024-03-28 01:00:50 公開日:2024-03-25
# TACTiS-2:多変量時系列のためのより良く、より速く、よりシンプルな注意コプラ

TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series ( http://arxiv.org/abs/2310.01327v2 )

ライセンス: Link先を確認
Arjun Ashok, Étienne Marcotte, Valentina Zantedeschi, Nicolas Chapados, Alexandre Drouin, (参考訳) 本稿では,多変量確率時系列予測のための新しいモデルを提案する。 パウラ理論を基礎として,最近導入された変圧器を用いた注意パウラ (TACTiS) の簡易な目的について提案する。 新しい目的にはトレーニングカリキュラムの導入が必要だ。 得られたモデルでは,非整合および不整合時系列のシームレスなハンドリングなど,先行作業の柔軟性を維持しつつ,様々な実世界の予測タスクをまたいだ最先端のパフォーマンスを実現することができる。 コードはhttps://github.com/ServiceNow/TACTiS.comで公開されている。

We introduce a new model for multivariate probabilistic time series prediction, designed to flexibly address a range of tasks including forecasting, interpolation, and their combinations. Building on copula theory, we propose a simplified objective for the recently-introduced transformer-based attentional copulas (TACTiS), wherein the number of distributional parameters now scales linearly with the number of variables instead of factorially. The new objective requires the introduction of a training curriculum, which goes hand-in-hand with necessary changes to the original architecture. We show that the resulting model has significantly better training dynamics and achieves state-of-the-art performance across diverse real-world forecasting tasks, while maintaining the flexibility of prior work, such as seamless handling of unaligned and unevenly-sampled time series. Code is made available at https://github.com/ServiceNow/TACTiS.
翻訳日:2024-03-28 01:00:50 公開日:2024-03-25
# 光周波数コムトモグラフィーを用いた時間ミストアシン測定の量子理論

A Quantum Theory of Temporally Mismatched Homodyne Measurements with Applications to Optical Frequency Comb Metrology ( http://arxiv.org/abs/2310.03934v2 )

ライセンス: Link先を確認
Noah Lordi, Eugene J. Tsao, Alexander J. Lind, Scott A. Diddams, Joshua Combes, (参考訳) 精密時間保存と分光の分野は、ますます光周波数コム干渉計に依存している。 しかし、コムベースの測定は、大きなモードミスマッチと有限強度局所振動子の両方を示すため、既存の量子理論では説明されていない。 この量子論を確立するために、任意のモード重なりを持つホモダイン検出のための測定演算子を導出する。 これらの演算子は、二次的な測定と強度のような測定の組み合わせであり、二次的な測定信号-雑音比を最大化するフィルタを知らせる。 さらに、これらの演算子は周波数コム干渉法を、光の非古典状態のメトロジーを含む幅広いシナリオに拡張する基盤を確立する。

The fields of precision timekeeping and spectroscopy increasingly rely on optical frequency comb interferometry. However, comb-based measurements are not described by existing quantum theory because they exhibit both large mode mismatch and finite strength local oscillators. To establish this quantum theory, we derive measurement operators for homodyne detection with arbitrary mode overlap. These operators are a combination of quadrature and intensity-like measurements, which inform a filter that maximizes the quadrature measurement signal-to-noise ratio. Furthermore, these operators establish a foundation to extend frequency-comb interferometry to a wide range of scenarios, including metrology with nonclassical states of light.
翻訳日:2024-03-28 01:00:50 公開日:2024-03-25
# エントロピーMCMC:平底盆地からの試料採取

Entropy-MCMC: Sampling from Flat Basins with Ease ( http://arxiv.org/abs/2310.05401v5 )

ライセンス: Link先を確認
Bolian Li, Ruqi Zhang, (参考訳) ベイズ深層学習は, 後部分布推定の品質を考慮に入れている。 しかし、ディープニューラルネットワークの後部は本質的に非常に多モードであり、局所モードは様々な一般化性能を示す。 実用的な予算が与えられた場合、オリジナルの後部を標的にすると、いくつかのサンプルは「悪い」モードに閉じ込められ、過度な適合に苦しむ可能性があるため、最適以下のパフォーマンスにつながる可能性がある。 一般化誤差の低い「良い」モードはエネルギーランドスケープの平坦な流域にしばしば存在するという観察を活かし、これらの平坦な領域の後方の偏差サンプリングを提案する。 具体的には、シャープモードのない滑らかな後部分布に類似した定常分布である補助誘導変数を導入し、MCMC試料を平らな盆地に導く。 この導出変数をモデルパラメータと統合することにより、計算オーバーヘッドを最小限に抑えた効率的なサンプリングを可能にする、単純なジョイント分布を作成する。 提案手法の収束性を証明し, 強凸条件下での既存の平坦性認識法よりも高速に収束することを示す。 実験により,本手法は後方の平らな盆地から試料を採取し,分類,校正,分布外検出など,複数のベンチマークで比較基準線を上回り,性能が向上することを示した。

Bayesian deep learning counts on the quality of posterior distribution estimation. However, the posterior of deep neural networks is highly multi-modal in nature, with local modes exhibiting varying generalization performance. Given a practical budget, targeting at the original posterior can lead to suboptimal performance, as some samples may become trapped in "bad" modes and suffer from overfitting. Leveraging the observation that "good" modes with low generalization error often reside in flat basins of the energy landscape, we propose to bias sampling on the posterior toward these flat regions. Specifically, we introduce an auxiliary guiding variable, the stationary distribution of which resembles a smoothed posterior free from sharp modes, to lead the MCMC sampler to flat basins. By integrating this guiding variable with the model parameter, we create a simple joint distribution that enables efficient sampling with minimal computational overhead. We prove the convergence of our method and further show that it converges faster than several existing flatness-aware methods in the strongly convex setting. Empirical results demonstrate that our method can successfully sample from flat basins of the posterior, and outperforms all compared baselines on multiple benchmarks including classification, calibration, and out-of-distribution detection.
翻訳日:2024-03-28 01:00:50 公開日:2024-03-25
# 因果言語モデリングのための変圧器のメタラーニング

A Meta-Learning Perspective on Transformers for Causal Language Modeling ( http://arxiv.org/abs/2310.05884v2 )

ライセンス: Link先を確認
Xinbo Wu, Lav R. Varshney, (参考訳) Transformerアーキテクチャは、大規模な因果言語モデルの開発において顕著になっている。 しかし、その能力を説明するメカニズムはよく理解されていない。 そこで本研究では,トランスフォーマー内部の最適化プロセスを明らかにすることで,因果言語モデリングタスクのトレーニングを行う際に,トランスフォーマーアーキテクチャのメタラーニングビューを確立する。 さらに、内部最適化において、トランスフォーマーに基づく因果言語モデルにおいて、学習されたトークン表現のノルムの特別な特性を発見し、理論的に解析する。 我々の分析は様々な環境での実験によって支えられている。

The Transformer architecture has become prominent in developing large causal language models. However, mechanisms to explain its capabilities are not well understood. Focused on the training process, here we establish a meta-learning view of the Transformer architecture when trained for the causal language modeling task, by explicating an inner optimization process within the Transformer. Further, within the inner optimization, we discover and theoretically analyze a special characteristic of the norms of learned token representations within Transformer-based causal language models. Our analysis is supported by experiments in various settings.
翻訳日:2024-03-28 01:00:50 公開日:2024-03-25
# 品質認識翻訳モデル:1つのモデルにおける効率的な生成と品質推定

Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model ( http://arxiv.org/abs/2310.06707v3 )

ライセンス: Link先を確認
Christian Tomani, David Vilar, Markus Freitag, Colin Cherry, Subhajit Naskar, Mara Finkelstein, Xavier Garcia, Daniel Cremers, (参考訳) MAP復号(Maximum-a-posteriori)は、ニューラルネットワーク翻訳(NMT)モデルにおいて最も広く使われている復号法である。 基礎となる前提は、モデル確率は人間の判断とよく相関し、より良い翻訳がモデルによってより高いスコアを与えられるというものである。 しかし、この仮定が常に成り立つわけではないことを示し、最小ベイズリスク(MBR)や品質認識復号(Quality-Aware decoding)によって行われるように、計量や品質推定信号に裏打ちされたユーティリティ関数を最適化するためにデコードすることで、生成品質を改善することができる。 これらの手法の主な欠点は、復号化時に実用関数を計算するための追加モデルが必要であり、計算コストが大幅に増加することである。 本稿では,NMTモデル自体の品質を学習し,その品質を推定することで,NMTモデル自体を品質に適応させることを提案する。 MBRデコーディングのこのアプローチを用いることで、候補リストのサイズを大幅に削減でき、結果として2桁の速度が向上する。 MAPデコーディングに本手法を適用する際には,単一パスの復号化の効率が向上するのに対し,品質向上は品質向上と同等かそれ以上に優れている。

Maximum-a-posteriori (MAP) decoding is the most widely used decoding strategy for neural machine translation (NMT) models. The underlying assumption is that model probability correlates well with human judgment, with better translations getting assigned a higher score by the model. However, research has shown that this assumption does not always hold, and generation quality can be improved by decoding to optimize a utility function backed by a metric or quality-estimation signal, as is done by Minimum Bayes Risk (MBR) or Quality-Aware decoding. The main disadvantage of these approaches is that they require an additional model to calculate the utility function during decoding, significantly increasing the computational cost. In this paper, we propose to make the NMT models themselves quality-aware by training them to estimate the quality of their own output. Using this approach for MBR decoding we can drastically reduce the size of the candidate list, resulting in a speed-up of two-orders of magnitude. When applying our method to MAP decoding we obtain quality gains similar or even superior to quality reranking approaches, but with the efficiency of single pass decoding.
翻訳日:2024-03-28 01:00:50 公開日:2024-03-25
# 移動ロボットナビゲーションのための事前学習型マスク画像モデル

Pre-Trained Masked Image Model for Mobile Robot Navigation ( http://arxiv.org/abs/2310.07021v2 )

ライセンス: Link先を確認
Vishnu Dutt Sharma, Anukriti Singh, Pratap Tokekar, (参考訳) 2Dトップダウンマップは、未知の領域を通る移動ロボットのナビゲーションと探索に一般的に使用される。 通常、ロボットはオンボードセンサーを使った局所的な観測から、ナビゲーションマップを段階的に構築する。 近年の研究では、学習に基づくアプローチによって環境の構造パターンを予測することにより、タスク効率が大幅に向上することが示されている。 このような作業の多くは、限られたデータセットを使用してタスク固有のネットワークを構築するが、既存の基礎的なビジョンネットワークは微調整なしで同じことを実現できることを示す。 具体的には、路面画像に事前学習したMasked Autoencodersを用いて、フィールド・オブ・ビュー展開、単一エージェントトポロジ探索、屋内マッピングのためのマルチエージェント探索などの新しい応用を、異なる入力モードで提示する。 我々の研究は、一般的な構造予測駆動型アプリケーション、特にトレーニングデータの変形に対する基礎的視覚モデルの利用を動機付けている。 より質的な結果については、https://raaslab.org/projects/MIM4Robotsを参照してください。

2D top-down maps are commonly used for the navigation and exploration of mobile robots through unknown areas. Typically, the robot builds the navigation maps incrementally from local observations using onboard sensors. Recent works have shown that predicting the structural patterns in the environment through learning-based approaches can greatly enhance task efficiency. While many such works build task-specific networks using limited datasets, we show that the existing foundational vision networks can accomplish the same without any fine-tuning. Specifically, we use Masked Autoencoders, pre-trained on street images, to present novel applications for field-of-view expansion, single-agent topological exploration, and multi-agent exploration for indoor mapping, across different input modalities. Our work motivates the use of foundational vision models for generalized structure prediction-driven applications, especially in the dearth of training data. For more qualitative results see https://raaslab.org/projects/MIM4Robots.
翻訳日:2024-03-28 00:51:06 公開日:2024-03-25
# CacheGen: 高速言語モデルの実行のためのKVキャッシュ圧縮とストリーミング

CacheGen: KV Cache Compression and Streaming for Fast Language Model Serving ( http://arxiv.org/abs/2310.07240v4 )

ライセンス: Link先を確認
Yuhan Liu, Hanchen Li, Yihua Cheng, Siddhant Ray, Yuyang Huang, Qizheng Zhang, Kuntai Du, Jiayi Yao, Shan Lu, Ganesh Ananthanarayanan, Michael Maire, Henry Hoffmann, Ari Holtzman, Junchen Jiang, (参考訳) 大規模言語モデル(LLM)が複雑なタスクをこなすにつれて、その入力はドメイン知識やユーザ固有の情報を含む長いコンテキストで補完される。 しかし、長いコンテキストを使うことは、LLMが処理するまで何も生成できないため、応答性のあるLLMシステムにとって課題となる。 異なる入力間でコンテキストのKVキャッシュを再利用することで、コンテキスト処理の遅延を低減することができるが、ネットワーク上の大きなテンソルを含むKVキャッシュを取得すると、ネットワーク上の追加の遅延が発生する可能性がある。 CacheGenは、LLMシステムのための高速なコンテキストローディングモジュールである。 まず、CacheGenはKVキャッシュの分散プロパティを取り入れた独自のテンソルエンコーダを使用して、KVキャッシュをよりコンパクトなビットストリーム表現にエンコードする。 これにより、KVキャッシュを取得するための帯域幅の需要が減少する。 第二に、低コンテキストローディング遅延と高ジェネレーション品質を維持するために、CacheGenはストリーミング戦略を適用して、利用可能な帯域幅の変化に対処する。 利用可能な帯域幅が減少すると、CacheGenはコンテキストの一部の圧縮レベルを上げるか、KVキャッシュをオンザフライで再計算するかを選択する。 CacheGenは、さまざまなサイズの4つの人気のあるLLMと4つのデータセット(合計662のコンテキスト)でテストします。 KVキャッシュを再利用した最近のシステムと比較すると、CacheGenはKVキャッシュのサイズを3.7-4.3xに減らし、フェッチと処理の合計遅延を2.7-3.2xに減らした。

As large language models (LLMs) take on complex tasks, their inputs are supplemented with longer contexts that incorporate domain knowledge or user-specific information. Yet using long contexts poses a challenge for responsive LLM systems, as nothing can be generated until the whole context is processed by the LLM. While the context-processing delay can be reduced by reusing the KV cache of a context across different inputs, fetching the KV cache, which contains large tensors, over the network can cause extra network delays. CacheGen is a fast context-loading module for LLM systems. First, CacheGen uses a custom tensor encoder, which embraces KV cache's distributional properties, to encode a KV cache into more compact bitstream representations with negligible encoding/decoding overhead. This reduces the bandwidth demand to fetch the KV cache. Second, to maintain low context-loading delay and high generation quality, CacheGen adapts the streaming strategies to cope with changes in available bandwidth. When available bandwidth drops, CacheGen may raise the compression level for a part of the context or choose to recompute its KV cache on the fly. We test CacheGen on four popular LLMs of various sizes and four datasets (662 contexts in total). Compared to the recent systems that reuse the KV cache, CacheGen reduces the KV cache size by 3.7-4.3x and the total delay in fetching and processing contexts by 2.7-3.2x while having negligible impact on the LLM response quality in accuracy or perplexity.
翻訳日:2024-03-28 00:51:06 公開日:2024-03-25
# 超伝導空洞を用いた量子ランダムアクセスメモリアーキテクチャ

Quantum random access memory architectures using superconducting cavities ( http://arxiv.org/abs/2310.08288v3 )

ライセンス: Link先を確認
D. K. Weiss, Shruti Puri, S. M. Girvin, (参考訳) 量子ランダムアクセスメモリ(QRAM)は、量子化学、ウィンドウ付き量子演算、非構造化探索、機械学習、量子暗号など、多くの提案されたアルゴリズムのための一般的なアーキテクチャリソースである。 本稿では,高コヒーレンス超伝導共振器をベースとした2つのバケットブリガドQRAMアーキテクチャを提案する。 第一に、制御された$\mathsf{SWAP}$$$\textsf{CSWAP}$)演算を直接構成し、第二に、巨大一方向性エミッタ(GUE)の特性を利用する。 両方のアーキテクチャに対して、ボソニック量子ビットのシングルレールとデュアルレールの実装を分析します。 シングルレール符号化では1次アンシラ誤差を検出でき、デュアルレール符号化では光子損失を検出することができる。 利害関係のパラメータについて、二重レールアーキテクチャにおけるQRAMクエリのポストセレクト不完全性は、単一レールアーキテクチャにおける対応するクエリの桁違いである。 これらの結果から, 耐故障性以前のQRAMデバイスのアーキテクチャとして, デュアルレール符号化が特に魅力的であることが示唆された。

Quantum random access memory (QRAM) is a common architecture resource for algorithms with many proposed applications, including quantum chemistry, windowed quantum arithmetic, unstructured search, machine learning, and quantum cryptography. Here we propose two bucket-brigade QRAM architectures based on high-coherence superconducting resonators, which differ in their realizations of the conditional-routing operations. In the first, we directly construct controlled-$\mathsf{SWAP}$ ($\textsf{CSWAP}$) operations, while in the second we utilize the properties of giant-unidirectional emitters (GUEs). For both architectures we analyze single-rail and dual-rail implementations of a bosonic qubit. In the single-rail encoding we can detect first-order ancilla errors, while the dual-rail encoding additionally allows for the detection of photon losses. For parameter regimes of interest the post-selected infidelity of a QRAM query in a dual-rail architecture is nearly an order of magnitude below that of a corresponding query in a single-rail architecture. These findings suggest that dual-rail encodings are particularly attractive as architectures for QRAM devices in the era before fault tolerance.
翻訳日:2024-03-28 00:51:06 公開日:2024-03-25
# 単語からエクササイズからウェルネスへ:Farsi Chatbot for Self-Attachment Technique

From Words and Exercises to Wellness: Farsi Chatbot for Self-Attachment Technique ( http://arxiv.org/abs/2310.09362v3 )

ライセンス: Link先を確認
Sina Elahimanesh, Shayan Salehi, Sara Zahedi Movahed, Lisa Alazraki, Ruoyu Hu, Abbas Edalat, (参考訳) 社会的孤立とうつ病や不安の高まりを特徴とするポストパンデミック時代以降、デジタル心理療法に基づく会話エージェントは、伝統的なセラピーセッションよりも重要な役割を担っている。 本研究では,Farsiにおける音声対応型チャットボットを開発し,アタッチメント理論に基づく,新規で自己管理型,包括的心理学的手法であるセルフアタッチメント(SAT)を通じてユーザを誘導する。 我々のチャットボットは,会話を通してユーザ入力を理解し,対話フローチャートをナビゲートするために,ルールベースのモジュールと分類ベースのモジュールの動的配列を使用し,ユーザの感情や精神状態に依存する適切なSAT演習を推奨する。 特に、6000以上の発話のデータセットを収集し、ユーザの感情を12クラスに分類する新しい感情分析モジュールを92%以上の精度で開発する。 会話の新規化とエンゲージメントを維持するために、チャットボットの応答は、Farsi GPT-2と強化学習アプローチの助けを借りて作成した大量の発話データセットから検索されるので、人間のアノテーションは最小限である。 私たちのチャットボットはSAT Teacherという質問応答モジュールも提供しています。 最後に,ボットのユーザインタフェースとしてクロスプラットフォームアプリケーションを設計する。 チャットボットとの対話を合計2000回以上行ったN=52人のボランティアを対象に,このプラットフォームを10日間の人間実験で評価した。 その結果,ほとんどのユーザ(75%),72%がインタラクションの後に気分が良くなり,74%がSAT教師のパフォーマンスに満足していたことが示唆された。

In the wake of the post-pandemic era, marked by social isolation and surging rates of depression and anxiety, conversational agents based on digital psychotherapy can play an influential role compared to traditional therapy sessions. In this work, we develop a voice-capable chatbot in Farsi to guide users through Self-Attachment (SAT), a novel, self-administered, holistic psychological technique based on attachment theory. Our chatbot uses a dynamic array of rule-based and classification-based modules to comprehend user input throughout the conversation and navigates a dialogue flowchart accordingly, recommending appropriate SAT exercises that depend on the user's emotional and mental state. In particular, we collect a dataset of over 6,000 utterances and develop a novel sentiment-analysis module that classifies user sentiment into 12 classes, with accuracy above 92%. To keep the conversation novel and engaging, the chatbot's responses are retrieved from a large dataset of utterances created with the aid of Farsi GPT-2 and a reinforcement learning approach, thus requiring minimal human annotation. Our chatbot also offers a question-answering module, called SAT Teacher, to answer users' questions about the principles of Self-Attachment. Finally, we design a cross-platform application as the bot's user interface. We evaluate our platform in a ten-day human study with N=52 volunteers from the non-clinical population, who have had over 2,000 dialogues in total with the chatbot. The results indicate that the platform was engaging to most users (75%), 72% felt better after the interactions, and 74% were satisfied with the SAT Teacher's performance.
翻訳日:2024-03-28 00:51:06 公開日:2024-03-25
# 意思決定モデルによる初歩的なギャップのブリッジ化:数学ミスの即時化を事例として

Bridging the Novice-Expert Gap via Models of Decision-Making: A Case Study on Remediating Math Mistakes ( http://arxiv.org/abs/2310.10648v2 )

ライセンス: Link先を確認
Rose E. Wang, Qingyang Zhang, Carly Robinson, Susanna Loeb, Dorottya Demszky, (参考訳) 質の高いチューリングをスケールすることは、教育における大きな課題である。 需要の増大により、多くのプラットフォームは初心者の家庭教師を雇い、経験豊富な教育者とは異なり、学生の誤りに対処するのに苦労し、結果として初等学習の機会をつかむのに失敗する。 本研究は,大規模言語モデル (LLM) の可能性を探究し,算数ミスの即時処理における初歩的知識ギャップを埋めるものである。 認知的タスク分析を用いて、専門家の潜在思考プロセスを、修復のための意思決定モデルに変換する方法であるBridgeをコントリビュートする。 これには、(A) 生徒の誤り、(B) 修復戦略、(C) 反応を生成する前の意図を特定する専門家が含まれる。 我々は,700件の実際の学習談話のデータセットを構築し,その判断に専門家が注釈を付けた。 我々は、我々のデータセット上で最先端のLCMを評価し、専門家の意思決定モデルがLSMにとってギャップを埋めるのに重要であることを発見した。 ランダムな決定は、専門家による決定よりも、GPT4の応答品質を-97%削減します。 我々の研究は、初心者と専門家の知識ギャップを埋める能力を高めるために、専門家の思考プロセスをLLM世代に組み込む可能性を示している。 データセットとコードは以下の通りです。

Scaling high-quality tutoring remains a major challenge in education. Due to growing demand, many platforms employ novice tutors who, unlike experienced educators, struggle to address student mistakes and thus fail to seize prime learning opportunities. Our work explores the potential of large language models (LLMs) to close the novice-expert knowledge gap in remediating math mistakes. We contribute Bridge, a method that uses cognitive task analysis to translate an expert's latent thought process into a decision-making model for remediation. This involves an expert identifying (A) the student's error, (B) a remediation strategy, and (C) their intention before generating a response. We construct a dataset of 700 real tutoring conversations, annotated by experts with their decisions. We evaluate state-of-the-art LLMs on our dataset and find that the expert's decision-making model is critical for LLMs to close the gap: responses from GPT4 with expert decisions (e.g., ``simplify the problem'') are +76% more preferred than without. Additionally, context-sensitive decisions are critical to closing pedagogical gaps: random decisions decrease GPT4's response quality by -97% than expert decisions. Our work shows the potential of embedding expert thought processes in LLM generations to enhance their capability to bridge novice-expert knowledge gaps. Our dataset and code can be found at: \url{https://github.com/rosewang2008/bridge}.
翻訳日:2024-03-28 00:51:06 公開日:2024-03-25
# グリーディ・パースペクティブ: クラッタ環境における協調的知覚のための多次元視点計画

Greedy Perspectives: Multi-Drone View Planning for Collaborative Perception in Cluttered Environments ( http://arxiv.org/abs/2310.10863v2 )

ライセンス: Link先を確認
Krishna Suresh, Aditya Rauniyar, Micah Corah, Sebastian Scherer, (参考訳) 空飛ぶロボットのチームの配置は、チームスポーツや撮影などの分野への応用のために、複雑な環境での動的グループ(アクター)の大規模な撮影を可能にする。 この目的のために、逐次欲求計画による部分モジュラー最大化手法は、ロボットのチーム間でカメラビューのスケーラブルな最適化に使用できるが、散在する環境における効率的な調整を伴う課題に直面している。 障害物はオクルージョンを発生させ、ロボット同士の衝突の可能性を高め、ほぼ最適の保証の要求に反する可能性がある。 密集した環境下での人々の撮影グループにおける航空ロボットのチームを協調させるためには、より一般的なビュープランニングアプローチが必要である。 マルチロボット・マルチ・アクター・ビュー・プランナの開発を通じて,映像撮影における衝突・閉塞が映像撮影アプリケーションにどう影響するかを考察し,ロボット間衝突を無視するボケーション・プランナーとグリーディ・プランナーとの比較を行った。 提案手法は,5つのテスト環境と複雑なマルチアクタの挙動に基づいて評価する。 コンフォーメーションプランナーと比較して、シーケンシャルプランナーは3つのシナリオに対してアクターよりも14%大きなビュー報酬を生成し、他の2つのシナリオにおいてコンフォーメーションプランナーに匹敵するパフォーマンスを示した。 また,ロボット同士の衝突制約を伴わない連続的な計画において,ロボットが知覚タスクの性能を損なうことなく衝突を回避できることを示す,ほぼ同一の視点報酬も観測した。 全体として、衝突や閉塞を引き起こす障害物が混ざり合った環境下で、分割、融合、あるいは分散するグループを撮影するための、空中ロボットのチームの効果的な協調を実証する。

Deployment of teams of aerial robots could enable large-scale filming of dynamic groups of people (actors) in complex environments for applications in areas such as team sports and cinematography. Toward this end, methods for submodular maximization via sequential greedy planning can be used for scalable optimization of camera views across teams of robots but face challenges with efficient coordination in cluttered environments. Obstacles can produce occlusions and increase chances of inter-robot collision which can violate requirements for near-optimality guarantees. To coordinate teams of aerial robots in filming groups of people in dense environments, a more general view-planning approach is required. We explore how collision and occlusion impact performance in filming applications through the development of a multi-robot multi-actor view planner with an occlusion-aware objective for filming groups of people and compare with a formation planner and a greedy planner that ignores inter-robot collisions. We evaluate our approach based on five test environments and complex multi-actor behaviors. Compared with a formation planner, our sequential planner generates 14% greater view reward over the actors for three scenarios and comparable performance to formation planning on two others. We also observe near identical view rewards for sequential planning both with and without inter-robot collision constraints which indicates that robots are able to avoid collisions without impairing performance in the perception task. Overall, we demonstrate effective coordination of teams of aerial robots for filming groups that may split, merge, or spread apart and in environments cluttered with obstacles that may cause collisions or occlusions.
翻訳日:2024-03-28 00:51:06 公開日:2024-03-25
# コンテキスト認識型メタラーニング

Context-Aware Meta-Learning ( http://arxiv.org/abs/2310.10971v2 )

ライセンス: Link先を確認
Christopher Fifty, Dennis Duan, Ronald G. Junkins, Ehsan Amid, Jure Leskovec, Christopher Re, Sebastian Thrun, (参考訳) ChatGPTのような大規模言語モデルは、微調整なしで推論中に新しい概念を学ぶ能力を示す。 しかし、推論中に新しいオブジェクトを検出するために訓練された視覚モデルは、この機能を複製することができない。 本研究では,大規模言語モデルをエミュレートするメタ学習アルゴリズムを提案する。 提案手法では,凍結した事前学習された特徴抽出器を利用して,未知のラベルを持つデータポイントと未知のラベルを持つテストデータポイントを用いたシーケンスモデリングとして,視覚メタラーニングを再キャストする。 11のメタラーニングベンチマークのうち8つでは、メタトレーニングや微調整なしのアプローチが、これらのベンチマークでメタトレーニングされた最先端アルゴリズムであるP>M>Fを超え、一致します。 私たちのコードはhttps://github.com/cfifty/CAML.comで利用可能です。

Large Language Models like ChatGPT demonstrate a remarkable capacity to learn new concepts during inference without any fine-tuning. However, visual models trained to detect new objects during inference have been unable to replicate this ability, and instead either perform poorly or require meta-training and/or fine-tuning on similar objects. In this work, we propose a meta-learning algorithm that emulates Large Language Models by learning new visual concepts during inference without fine-tuning. Our approach leverages a frozen pre-trained feature extractor, and analogous to in-context learning, recasts visual meta-learning as sequence modeling over datapoints with known labels and a test datapoint with an unknown label. On 8 out of 11 meta-learning benchmarks, our approach -- without meta-training or fine-tuning -- exceeds or matches the state-of-the-art algorithm, P>M>F, which is meta-trained on these benchmarks. Our code is available at https://github.com/cfifty/CAML.
翻訳日:2024-03-28 00:51:06 公開日:2024-03-25
# 低データレジームにおける単語の意味学習を支援するビジュアルグラウンドリング

Visual Grounding Helps Learn Word Meanings in Low-Data Regimes ( http://arxiv.org/abs/2310.13257v2 )

ライセンス: Link先を確認
Chengxu Zhuang, Evelina Fedorenko, Jacob Andreas, (参考訳) 現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールであり、その内部表現は人間の脳内の言語表現と著しく整合している。 しかし、これらの結果を達成するには、LMは明らかに非人間的な方法で訓練されなければならない。 より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか? 本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。 我々は、様々なスケールのデータセットに基づいて、補助的な視覚的監督なしで、多様なLMアーキテクチャを訓練する。 次に、これらのモデルによる構文カテゴリーの学習、語彙関係、意味的特徴、単語の類似性、人間の神経表現との整合性を評価する。 視覚的監督は、実際に単語学習の効率を向上させることができる。 しかし、これらの改善は制限されており、ほとんどは低データ体制に存在し、時にはテキストからの豊富な分散信号を含めることでキャンセルされる。 テキストや画像によって伝達される情報は冗長ではなく、主に視覚情報によって駆動されるモデルは、主に単語の共起によって駆動されるものと質的に異なる。 しかし,従来のマルチモーダルモデリング手法では視覚情報を効果的に活用できず,人間のスケールデータから人間のような単語表現を構築できないことが示唆された。

Modern neural language models (LMs) are powerful tools for modeling human sentence production and comprehension, and their internal representations are remarkably well-aligned with representations of language in the human brain. But to achieve these results, LMs must be trained in distinctly un-human-like ways - requiring orders of magnitude more language data than children receive during development, and without perceptual or social context. Do models trained more naturalistically -- with grounded supervision -- exhibit more humanlike language learning? We investigate this question in the context of word learning, a key sub-task in language acquisition. We train a diverse set of LM architectures, with and without auxiliary visual supervision, on datasets of varying scales. We then evaluate these models' learning of syntactic categories, lexical relations, semantic features, word similarity, and alignment with human neural representations. We find that visual supervision can indeed improve the efficiency of word learning. However, these improvements are limited: they are present almost exclusively in the low-data regime, and sometimes canceled out by the inclusion of rich distributional signals from text. The information conveyed by text and images is not redundant -- models mainly driven by visual information yield qualitatively different from those mainly driven by word co-occurrences. However, our results suggest that current multimodal modeling approaches fail to effectively leverage visual information to build human-like word representations from human-scale data.
翻訳日:2024-03-28 00:51:06 公開日:2024-03-25
# RTSUM:マルチレベル・サリエンス・ビジュアライゼーションによるリレーショナルトリプルベース解釈可能な要約

RTSUM: Relation Triple-based Interpretable Summarization with Multi-level Salience Visualization ( http://arxiv.org/abs/2310.13895v2 )

ライセンス: Link先を確認
Seonglae Cho, Yonggi Cho, HoonJae Lee, Myungha Jang, Jinyoung Yeo, Dongha Lee, (参考訳) 本稿では,関係三重項を要約の基本単位として利用する教師なし要約フレームワークRTSUMを提案する。 入力文書が与えられた後、RtsuMはまず、多段階のサリエンススコアを用いて、サリエント関係のトリプルを選択し、その後、テキスト・トゥ・テキスト言語モデルを用いて、選択された関係のトリプルから簡潔な要約を生成する。 また、RTSUMに基づいて、解釈可能な要約ツールのWebデモを開発し、出力の要約を詳細に解釈する。 カスタマイズオプションのサポートにより、テキスト単位のサリエンスを3つの異なるレベル(文、関係トリプル、フレーズ)で可視化する。 コードは公開されています。

In this paper, we present RTSUM, an unsupervised summarization framework that utilizes relation triples as the basic unit for summarization. Given an input document, RTSUM first selects salient relation triples via multi-level salience scoring and then generates a concise summary from the selected relation triples by using a text-to-text language model. On the basis of RTSUM, we also develop a web demo for an interpretable summarizing tool, providing fine-grained interpretations with the output summary. With support for customization options, our tool visualizes the salience for textual units at three distinct levels: sentences, relation triples, and phrases. The codes,are publicly available.
翻訳日:2024-03-28 00:51:05 公開日:2024-03-25
# フローマッチングによる音声生成事前学習

Generative Pre-training for Speech with Flow Matching ( http://arxiv.org/abs/2310.16338v2 )

ライセンス: Link先を確認
Alexander H. Liu, Matt Le, Apoorv Vyas, Bowen Shi, Andros Tjandra, Wei-Ning Hsu, (参考訳) 生成モデルは、高忠実な合成データを生成するためにデータ分布の推定とサンプリングを必要とするタスクにおいて顕著な成功を収めたため、近年ますます注目を集めている。 音声では、音声合成とニューラルボコーダが生成モデルが輝いている良い例である。 生成モデルは音声の様々な応用に適用されているが、音声を直接モデル化する汎用生成モデルは存在しない。 本研究では,1つの事前学習された生成モデルを,高い性能で下流のタスクに適応できることを示すことによって,この方向への一歩を踏み出した。 具体的には,フローマッチングとマスキング条件を併用した60k時間の非転写音声に対して,SpeechFlowという生成モデルを事前学習した。 実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。 本研究は, 生成前訓練を用いて, 音声におけるタスク生成の基礎モデルを構築することを提案する。

Generative models have gained more and more attention in recent years for their remarkable success in tasks that required estimating and sampling data distribution to generate high-fidelity synthetic data. In speech, text-to-speech synthesis and neural vocoder are good examples where generative models have shined. While generative models have been applied to different applications in speech, there exists no general-purpose generative model that models speech directly. In this work, we take a step toward this direction by showing a single pre-trained generative model can be adapted to different downstream tasks with strong performance. Specifically, we pre-trained a generative model, named SpeechFlow, on 60k hours of untranscribed speech with Flow Matching and masked conditions. Experiment results show the pre-trained generative model can be fine-tuned with task-specific data to match or surpass existing expert models on speech enhancement, separation, and synthesis. Our work suggested a foundational model for generation tasks in speech can be built with generative pre-training.
翻訳日:2024-03-28 00:51:05 公開日:2024-03-25
# 複数のプログラミング言語にまたがる学習

Learning Transfers over Several Programming Languages ( http://arxiv.org/abs/2310.16937v2 )

ライセンス: Link先を確認
Razan Baltaji, Saurabh Pujar, Louis Mandel, Martin Hirzel, Luca Buratti, Lav Varshney, (参考訳) 大規模言語モデル(LLM)は、オープンソースのプログラミング言語の開発生産性を向上させるのに非常に適している。 これらのモデルでは、事前トレーニングに大量のラベル付きコードサンプルを、微調整やテキスト内学習に比較的少ないラベル付きコードサンプルを2種類使用しています。 残念なことに、多くのプログラミング言語は低リソースであり、ほとんどのタスクにラベル付きサンプルを欠いている。 そのため、低リソース言語(レガシ言語や新しい言語など)のユーザは、LLMの利点を見逃している。 言語間転送は、ソース言語からのデータを使用して、ターゲット言語でのモデルパフォーマンスを改善する。 自然言語によく研究されているが、プログラミング言語にはほとんど注目されていない。 本稿では,変圧器をベースとしたLLMと11から41のプログラミング言語を用いた4つのタスクに関する広範な実験を行い,以下の課題について考察する。 まず、異なる言語ペア間で与えられたタスクに対して、言語間転送がいかにうまく動作するか。 第二に、タスクとターゲット言語が与えられたら、どうやってソース言語を選択するべきか。 第三に、言語対の特徴は転送性能の予測であり、与えられたタスクにどのように依存するかである。 1,808の実験による実証研究は、KotlinやJavaScriptが最も転送可能なソース言語であり、実質的に異なる機能に依存するさまざまなタスクといった、実用的で科学的洞察を明らかにしています。 全体として、学習は複数のプログラミング言語間でうまく伝達される。

Large language models (LLMs) have become remarkably good at improving developer productivity for high-resource programming languages. These models use two kinds of data: large amounts of unlabeled code samples for pre-training and relatively smaller amounts of labeled code samples for fine-tuning or in-context learning. Unfortunately, many programming languages are low-resource, lacking labeled samples for most tasks and often even lacking unlabeled samples. Therefore, users of low-resource languages (e.g., legacy or new languages) miss out on the benefits of LLMs. Cross-lingual transfer uses data from a source language to improve model performance on a target language. It has been well-studied for natural languages, but has received little attention for programming languages. This paper reports extensive experiments on four tasks using a transformer-based LLM and 11 to 41 programming languages to explore the following questions. First, how well does cross-lingual transfer work for a given task across different language pairs. Second, given a task and target language, how should one choose a source language. Third, which characteristics of a language pair are predictive of transfer performance, and how does that depend on the given task. Our empirical study with 1,808 experiments reveals practical and scientific insights, such as Kotlin and JavaScript being the most transferable source languages and different tasks relying on substantially different features. Overall, we find that learning transfers well across several programming languages.
翻訳日:2024-03-28 00:51:05 公開日:2024-03-25
# Stern-Gerlach干渉計におけるSchroedinger-Newton方程式の探索

Probing the Schroedinger-Newton equation in a Stern-Gerlach interferometer ( http://arxiv.org/abs/2310.18072v3 )

ライセンス: Link先を確認
Gabriel H. S. Aguiar, George E. A. Matsas, (参考訳) 量子パラダイムの観点からマクロな物体の挙動を説明することは、今日1世紀にわたって科学界に挑戦してきた。 シュレーディンガー・ニュートン方程式(Schroedinger-Newton equation)と呼ばれる重力的自己相互作用のメカニズムは、その上に光を放つことを目的としている。 あらゆる努力にもかかわらず、このメカニズムは調査が困難であることが証明されている。 ここでは、簡単なStern-Gerlachのような実験を試す。 シュレーディンガー・ニュートン方程式は、特定の適切な条件下で解析的に解き、重力自己相互作用ポテンシャルによって引き起こされる脱落効果を計算することができる。

Explaining the behavior of macroscopic objects from the point of view of the quantum paradigm has challenged the scientific community for a century today. A mechanism of gravitational self-interaction, governed by the so-called Schroedinger-Newton equation, is among the proposals that aim to shed some light on it. Despite all efforts, this mechanism has been proven difficult to probe. Here, we consider a simple Stern-Gerlach-like experiment to try it out. The Schroedinger-Newton equation can be analytically solved under certain proper conditions, and a dephasing effect induced by the gravitational self-interacting potential can be calculated.
翻訳日:2024-03-28 00:51:05 公開日:2024-03-25
# 多状態量子計測のための練習型時間後処理装置

Practical trainable temporal post-processor for multi-state quantum measurement ( http://arxiv.org/abs/2310.18519v2 )

ライセンス: Link先を確認
Saeed A. Khan, Ryan Kaufman, Boris Mesits, Michael Hatridge, Hakan E. Türeci, (参考訳) 我々は、任意のノイズ処理を施した量子計測データの最適な処理を任意の数の量子状態を読み取るために、単純だが汎用的な機械学習アルゴリズムを利用した訓練可能な時間後処理(TPP)を開発し、実証する。 提案手法は従来,特定の雑音条件にのみ適用可能であるにもかかわらず,マッチングフィルタによる時間的処理に依存してきた。 以上の結果から,TPPは高出力化などの複雑な読み出し条件下での標準的なフィルタリング手法よりも確実に性能を向上できることが示された。 量子計測ノイズ源のシミュレーションを用いて、この利点は、位相保存量子増幅器によって付加される相関ノイズなど、データ中の一般的な量子ノイズ相関を考慮に入れた最適線形フィルタの学習能力に依存することを示す。 TPPで記述された変換は、効率的な半解析形式で表現することができ、測定チェーンから発する読み出し信号の最も一般的な雑音条件下で、任意の状態に対してマッチングフィルタを線形にスケーリングすることを可能にする。 TPPは、測定データに対して効率よく、自律的に、かつ、確実に訓練され、線形演算のみを必要とするため、一般的な量子システムからの測定データのリアルタイム処理には、cQEDでのFPGA実装に最適である。

We develop and demonstrate a trainable temporal post-processor (TPP) harnessing a simple but versatile machine learning algorithm to provide optimal processing of quantum measurement data subject to arbitrary noise processes, for the readout of an arbitrary number of quantum states. We demonstrate the TPP on the essential task of qubit state readout, which has historically relied on temporal processing via matched filters in spite of their applicability only for specific noise conditions. Our results show that the TPP can reliably outperform standard filtering approaches under complex readout conditions, such as high power readout. Using simulations of quantum measurement noise sources, we show that this advantage relies on the TPP's ability to learn optimal linear filters that account for general quantum noise correlations in data, such as those due to quantum jumps, or correlated noise added by a phase-preserving quantum amplifier. We show that the transformation described by the TPP can be expressed via an efficient semi-analytic form, providing a linearly-scaling generalization of matched filtering to an arbitrary number of states under the most general noise conditions of the readout signal emanating from the measurement chain. The TPP can be efficiently, autonomously, and reliably trained on measurement data, and requires only linear operations, making it ideal for FPGA implementations in cQED for real-time processing of measurement data from general quantum systems.
翻訳日:2024-03-28 00:41:21 公開日:2024-03-25
# LitSumm:非コーディングRNAの文献要約のための大規模言語モデル

LitSumm: Large language models for literature summarisation of non-coding RNAs ( http://arxiv.org/abs/2311.03056v2 )

ライセンス: Link先を確認
Andrew Green, Carlos Ribas, Nancy Ontiveros-Palacios, Sam Griffiths-Jones, Anton I. Petrov, Alex Bateman, Blake Sweeney, (参考訳) モチベーション(Motivation): 生命科学における文学のカリキュラムは、ますます難しい。 出版率の上昇は、世界中のキュレーターの数が比較的一定であることと相まって、バイオメディカルな知識ベースの開発者にとって大きな課題となっている。 関係する文献全体にスケールするリソースを持つ知識ベースは極めて少なく、すべて彼らの努力を優先する必要があります。 結果: 本研究は, 大規模言語モデル(LLM)を用いて, 非コーディングRNAの文献の要約を生成することにより, RNA科学におけるキュレーター時間不足を緩和する第一歩を踏み出した。 文献から,商業LSMと一連のプロンプトとチェックを用いて,高精度な参照を持つ高品質で事実的精度の高い要約を自動生成できることを実証した。 要約のサブセットについて手作業による評価が行われ、大多数は極めて高品質であると評価された。 また、最もよく使われている自動評価手法を適用し、人間の評価と相関しないことを示した。 最後に、我々のツールを4,600 ncRNAのセレクションに適用し、生成したサマリをRNA分散リソースを介して利用できるようにする。 文献の自動要約はLLMの現世代で実現可能であると結論し、注意深いプロンプトと自動チェックを適用した。 可用性: これらの要約を生成するために使用されるコードは、以下の通りである。 https://github.com/RNAcentral/litscan-summarization and the data of contexts and summaries。 RNAcentral (https://rnacentral.org/) の RNA レポートページにも要約が表示される。

Motivation: Curation of literature in life sciences is a growing challenge. The continued increase in the rate of publication, coupled with the relatively fixed number of curators worldwide presents a major challenge to developers of biomedical knowledgebases. Very few knowledgebases have resources to scale to the whole relevant literature and all have to prioritise their efforts. Results: In this work, we take a first step to alleviating the lack of curator time in RNA science by generating summaries of literature for non-coding RNAs using large language models (LLMs). We demonstrate that high-quality, factually accurate summaries with accurate references can be automatically generated from the literature using a commercial LLM and a chain of prompts and checks. Manual assessment was carried out for a subset of summaries, with the majority being rated extremely high quality. We also applied the most commonly used automated evaluation approaches, finding that they do not correlate with human assessment. Finally, we apply our tool to a selection of over 4,600 ncRNAs and make the generated summaries available via the RNAcentral resource. We conclude that automated literature summarization is feasible with the current generation of LLMs, provided careful prompting and automated checking are applied. Availability: Code used to produce these summaries can be found here: https://github.com/RNAcentral/litscan-summarization and the dataset of contexts and summaries can be found here: https://huggingface.co/datasets/RNAcentral/litsumm-v1. Summaries are also displayed on the RNA report pages in RNAcentral (https://rnacentral.org/)
翻訳日:2024-03-28 00:41:21 公開日:2024-03-25
# サイバー物理システムにおけるロバスト性の調査:システム逸脱に直面した仕様中心分析

Investigating Robustness in Cyber-Physical Systems: Specification-Centric Analysis in the face of System Deviations ( http://arxiv.org/abs/2311.07462v2 )

ライセンス: Link先を確認
Changjian Zhang, Parv Kapoor, Romulo Meira-Goes, David Garlan, Eunsuk Kang, Akila Ganlath, Shatadal Mishra, Nejib Ammar, (参考訳) サイバー物理システム(CPS)の採用は、自動運転車、IoT(Internet of Things)、スマートシティといった分野を含む複雑な物理的環境の台頭に近づいている。 CPSの重要な特性は堅牢性であり、運用環境の破壊や不確実性にもかかわらず、安全に運用できる能力を示している。 本稿では,STL(Signal Temporal Logic)によって記述された,特定のシステム要件を満たす上でのコントローラの有効性を特徴付ける,新たな仕様ベースロバスト性を提案する。 また,本定義に基づくロバストネス・ファルシフィケーションの問題も提案する。 本稿では, 微妙な堅牢性違反を識別するための2層シミュレーションに基づく解析フレームワークを提案する。 提案手法を評価するために,システムパラメータを調整し,様々な形態の不確実性や乱れをエミュレートするベンチマーク問題を考案した。 最初の評価は,従来のRL(Regress Learning, 強化学習)に基づく制御器の頑健性を比較する上で,我々のファルシフィケーションアプローチが頑健性違反を十分に認識していることを示している。

The adoption of cyber-physical systems (CPS) is on the rise in complex physical environments, encompassing domains such as autonomous vehicles, the Internet of Things (IoT), and smart cities. A critical attribute of CPS is robustness, denoting its capacity to operate safely despite potential disruptions and uncertainties in the operating environment. This paper proposes a novel specification-based robustness, which characterizes the effectiveness of a controller in meeting a specified system requirement, articulated through Signal Temporal Logic (STL) while accounting for possible deviations in the system. This paper also proposes the robustness falsification problem based on the definition, which involves identifying minor deviations capable of violating the specified requirement. We present an innovative two-layer simulation-based analysis framework designed to identify subtle robustness violations. To assess our methodology, we devise a series of benchmark problems wherein system parameters can be adjusted to emulate various forms of uncertainties and disturbances. Initial evaluations indicate that our falsification approach proficiently identifies robustness violations, providing valuable insights for comparing robustness between conventional and reinforcement learning (RL)-based controllers
翻訳日:2024-03-28 00:41:21 公開日:2024-03-25
# OFA: 大規模多言語継続事前学習のための未知語埋め込みを初期化するためのフレームワーク

OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining ( http://arxiv.org/abs/2311.08849v2 )

ライセンス: Link先を確認
Yihong Liu, Peiqin Lin, Mingyang Wang, Hinrich Schütze, (参考訳) 言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。 しかし、この手法は通常、新しいサブワードの埋め込みをランダムに初期化し、モデルにかなり多くの埋め込みパラメータを導入し、効率を低下させる。 これらの問題に対処するために、新しいフレームワークを提案する。 $\textbf{O}$ne $\textbf{F}$or $\textbf{A}$ll ($\textbf{OFA}$)。 OFAは、外部の多言語静的単語ベクトルを利用して、アライメント知識をサブワード埋め込みに注入する。 さらに、OFAは行列分解を適用し、2つの低次元行列にカンサム埋め込みを置き換え、パラメータの数が大幅に減少する。 OFAは炭素フットプリントの発生が少ないほど環境に優しい継続事前訓練の収束を加速することを示す。 広範にわたる実験により、OFAは、広範囲にわたる下流タスクにおけるベースラインのトレーニングを継続するデフォルトよりも、競争力やパフォーマンスが向上することを示した。 コードとモデルを公開しています。

Instead of pretraining multilingual language models from scratch, a more efficient method is to adapt existing pretrained language models (PLMs) to new languages via vocabulary extension and continued pretraining. However, this method usually randomly initializes the embeddings of new subwords and introduces substantially more embedding parameters to the model, thus weakening the efficiency. To address these issues, we propose a novel framework: $\textbf{O}$ne $\textbf{F}$or $\textbf{A}$ll ($\textbf{OFA}$), which wisely initializes the embeddings of unseen subwords and thus can adapt a PLM to multiple languages efficiently and effectively. OFA takes advantage of external well-aligned multilingual static word vectors and injects the alignment knowledge into the subword embeddings. In addition, OFA applies matrix factorization and replaces the cumbersome embeddings with two lower-dimensional matrices, which largely reduces the number of parameters. We show OFA accelerates the convergence of continued pretraining, which is environmentally friendly as much fewer carbon footprints are generated. Through extensive experiments, we demonstrate OFA can achieve competitive or better performance than default continued pretraining baselines on a wide range of crosslingual downstream tasks. We make our code and models publicly available.
翻訳日:2024-03-28 00:31:37 公開日:2024-03-25
# Universal NER:ゴールドスタンダードの多言語名前付きエンティティ認識ベンチマーク

Universal NER: A Gold-Standard Multilingual Named Entity Recognition Benchmark ( http://arxiv.org/abs/2311.09122v2 )

ライセンス: Link先を確認
Stephen Mayhew, Terra Blevins, Shuheng Liu, Marek Šuppa, Hila Gonen, Joseph Marvin Imperial, Börje F. Karlsson, Peiqin Lin, Nikola Ljubešić, LJ Miranda, Barbara Plank, Arij Riabi, Yuval Pinter, (参考訳) オープンなコミュニティ主導プロジェクトであるUniversal NER(UNER)を紹介し,多くの言語でゴールドスタンダードなNERベンチマークを開発する。 UNERの包括的な目標は、多言語NER研究を容易にし、標準化するための高品質で言語横断的なアノテーションを提供することである。 UNER v1には、12の異なる言語にまたがる言語間一貫性のあるスキーマで、名前付きエンティティで注釈付けされた18のデータセットが含まれている。 本稿では、UNERのデータセット作成と構成について詳述し、言語内と言語間の両方の学習環境において、初期モデルベースラインを提供する。 データ、コード、および適合したモデルを一般に公開しています。

We introduce Universal NER (UNER), an open, community-driven project to develop gold-standard NER benchmarks in many languages. The overarching goal of UNER is to provide high-quality, cross-lingually consistent annotations to facilitate and standardize multilingual NER research. UNER v1 contains 18 datasets annotated with named entities in a cross-lingual consistent schema across 12 diverse languages. In this paper, we detail the dataset creation and composition of UNER; we also provide initial modeling baselines on both in-language and cross-lingual learning settings. We release the data, code, and fitted models to the public.
翻訳日:2024-03-28 00:31:37 公開日:2024-03-25
# Mind's Mirror: 自己評価能力の蒸留と大規模言語モデルからの理解

Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models ( http://arxiv.org/abs/2311.09214v2 )

ライセンス: Link先を確認
Weize Liu, Guocong Li, Kai Zhang, Bang Du, Qiyuan Chen, Xuming Hu, Hongxia Xu, Jintai Chen, Jian Wu, (参考訳) 大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。 しかし、これらのモデルの大規模かつ計算的な要求は、資源制約のある環境での実践的展開を考えると、非常に困難な課題である。 チェーン・オブ・ソート (CoT) 蒸留のような技術は, LLMを小言語モデル (SLM) に蒸留する可能性を示しているが, 蒸留したSLMがLLMの欠点や幻覚を継承するリスクがある。 まず, LLM から SLM への自己評価能力を蒸留する方法を提案し, 欠陥のある推論や LLM から受け継いだ幻覚の悪影響を軽減することを目的とした。 第2に,複数の異なるCoTと自己評価出力を組み込むことで,より包括的で堅牢な知識のSLMへの伝達を保証することで,より包括的な思考の蒸留を提唱する。 3つのNLPベンチマーク実験により, 蒸留SLMの性能は大幅に向上し, 資源制約環境下でより効率的かつ効率的なSLMの開発に向けた新たな視点が得られた。

Large language models (LLMs) have achieved remarkable advancements in natural language processing. However, the massive scale and computational demands of these models present formidable challenges when considering their practical deployment in resource-constrained environments. While techniques such as chain-of-thought (CoT) distillation have displayed promise in distilling LLMs into small language models (SLMs), there is a risk that distilled SLMs may still inherit flawed reasoning and hallucinations from LLMs. To address these issues, we propose a twofold methodology: First, we introduce a novel method for distilling the self-evaluation capability from LLMs into SLMs, aiming to mitigate the adverse effects of flawed reasoning and hallucinations inherited from LLMs. Second, we advocate for distilling more comprehensive thinking by incorporating multiple distinct CoTs and self-evaluation outputs, to ensure a more thorough and robust knowledge transfer into SLMs. Experiments on three NLP benchmarks demonstrate that our method significantly improves the performance of distilled SLMs, offering a new perspective for developing more effective and efficient SLMs in resource-constrained environments.
翻訳日:2024-03-28 00:31:37 公開日:2024-03-25
# 言語モデルは感情を予測するときに感情トリガーを考慮しない

Language Models (Mostly) Do Not Consider Emotion Triggers When Predicting Emotion ( http://arxiv.org/abs/2311.09602v2 )

ライセンス: Link先を確認
Smriti Singh, Cornelia Caragea, Junyi Jessy Li, (参考訳) 状況や出来事は人間の感情を誘発するが、感情検出モデルの予測はどの程度まで伝達されるのか? この研究は、人間に注釈付けされた感情が、モデルが感情の予測に適していると見なされる特徴とどのように相関するかを調査する。 まず,3つの異なるデータセットから得られた900のソーシャルメディア投稿からなる,新しいデータセットEmoTriggerを紹介した。 EmoTriggerを用いて、感情トリガーを識別する大規模言語モデル(LLM)の能力を評価し、これらのタスクにおいて重要なと思われる特徴をLLMと微調整モデルで比較分析する。 分析の結果、感情のトリガーは感情予測モデルにとって健全な特徴ではなく、様々な特徴と感情検出のタスクの間に複雑な相互作用があることが判明した。

Situations and events evoke emotions in humans, but to what extent do they inform the prediction of emotion detection models? This work investigates how well human-annotated emotion triggers correlate with features that models deemed salient in their prediction of emotions. First, we introduce a novel dataset EmoTrigger, consisting of 900 social media posts sourced from three different datasets; these were annotated by experts for emotion triggers with high agreement. Using EmoTrigger, we evaluate the ability of large language models (LLMs) to identify emotion triggers, and conduct a comparative analysis of the features considered important for these tasks between LLMs and fine-tuned models. Our analysis reveals that emotion triggers are largely not considered salient features for emotion prediction models, instead there is intricate interplay between various features and the task of emotion detection.
翻訳日:2024-03-28 00:31:37 公開日:2024-03-25
# 大規模グラフ上での信号サンプリングにおけるポアンカレの不等式と一貫性結果

A Poincaré Inequality and Consistency Results for Signal Sampling on Large Graphs ( http://arxiv.org/abs/2311.10610v2 )

ライセンス: Link先を確認
Thien Le, Luana Ruiz, Stefanie Jegelka, (参考訳) 大規模グラフ機械学習は、学習モデルの複雑さがグラフサイズとともにスケールするため、困難である。 グラフのサンプリングは実行可能な代替手段であるが、グラフがユークリッドではないため、グラフのサンプリングは自明ではない。 既存のグラフサンプリング技術では、大きな行列のスペクトルを演算するだけでなく、グラフが成長するなど、これらの計算を繰り返し行う必要がある。 本稿では,グラフ制限の一種であるグラフオンに対する信号サンプリング理論を提案する。 この不等式を満たすノード部分集合の補集合が、グラフン信号のパリー・ウィーナー空間のユニークなサンプリング集合であることを示す。 スペクトルクラスタリングとガウス除去との接続を爆発させることで、そのようなサンプリングセットは収束グラフ列上の一意なサンプリングセットがグラフオン上の一意なサンプリングセットに収束するという意味で一貫したものであることを示す。 そこで我々は,大規模グラフに対する関連するグラフ信号サンプリングアルゴリズムを提案し,グラフ機械学習タスクにおいて,その優れた経験的性能を示す。

Large-scale graph machine learning is challenging as the complexity of learning models scales with the graph size. Subsampling the graph is a viable alternative, but sampling on graphs is nontrivial as graphs are non-Euclidean. Existing graph sampling techniques require not only computing the spectra of large matrices but also repeating these computations when the graph changes, e.g., grows. In this paper, we introduce a signal sampling theory for a type of graph limit -- the graphon. We prove a Poincar\'e inequality for graphon signals and show that complements of node subsets satisfying this inequality are unique sampling sets for Paley-Wiener spaces of graphon signals. Exploiting connections with spectral clustering and Gaussian elimination, we prove that such sampling sets are consistent in the sense that unique sampling sets on a convergent graph sequence converge to unique sampling sets on the graphon. We then propose a related graphon signal sampling algorithm for large graphs, and demonstrate its good empirical performance on graph machine learning tasks.
翻訳日:2024-03-28 00:31:37 公開日:2024-03-25
# 地すべりセグメンテーションモデルにおける不確かさの推定

Estimating Uncertainty in Landslide Segmentation Models ( http://arxiv.org/abs/2311.11138v2 )

ライセンス: Link先を確認
Savinay Nagendra, Chaopeng Shen, Daniel Kifer, (参考訳) 地すべりは繰り返し発生し、広範囲にわたる危険である。 準備と緩和の努力は、グローバルなリスク領域をカバーする高品質で大規模なデータセットによって支援される。 このようなデータセットは現在存在しておらず、手動で構築することは不可能である。 近年,衛星画像からの地すべりセグメンテーション(ピクセルラベリング)の深層学習モデルに焦点が当てられている。 しかし、そのようなセグメンテーションの不確実性や信頼度を特徴付けることも重要である。 正確でロバストな不確実性推定は、自動生成した地すべりデータベースの低コスト(手作業による)監視を可能にし、エラーを解決し、厳しい負の例を特定し、ラベル付きトレーニングデータのサイズを増やすことができる。 本稿では,セグメンテーションの画素レベルの不確実性を評価するためのいくつかの手法を評価する。 アーキテクチャの変更を必要としない3つの手法を比較した。例えば、事前のアクティベーション、Monte-Carlo Dropout、Test-Time Augmentation – データ拡張に直面した予測の堅牢性を測定する方法だ。 実験では, 後者の手法の精度は, データセットのさまざまなモデルやメトリクスに対して, 他よりも一貫して高かった。

Landslides are a recurring, widespread hazard. Preparation and mitigation efforts can be aided by a high-quality, large-scale dataset that covers global at-risk areas. Such a dataset currently does not exist and is impossible to construct manually. Recent automated efforts focus on deep learning models for landslide segmentation (pixel labeling) from satellite imagery. However, it is also important to characterize the uncertainty or confidence levels of such segmentations. Accurate and robust uncertainty estimates can enable low-cost (in terms of manual labor) oversight of auto-generated landslide databases to resolve errors, identify hard negative examples, and increase the size of labeled training data. In this paper, we evaluate several methods for assessing pixel-level uncertainty of the segmentation. Three methods that do not require architectural changes were compared, including Pre-Threshold activations, Monte-Carlo Dropout and Test-Time Augmentation -- a method that measures the robustness of predictions in the face of data augmentation. Experimentally, the quality of the latter method was consistently higher than the others across a variety of models and metrics in our dataset.
翻訳日:2024-03-28 00:31:37 公開日:2024-03-25
# 統計的学習理論を深層学習に適用する

Applying statistical learning theory to deep learning ( http://arxiv.org/abs/2311.15404v2 )

ライセンス: Link先を確認
Cédric Gerbelot, Avetik Karagulyan, Stefani Karp, Kavya Ravichandran, Menachem Stern, Nathan Srebro, (参考訳) 統計的学習理論は、教師付き学習を理解するための堅牢な枠組みを提供するが、ディープラーニングの多くの理論的側面は、特に勾配に基づく手法を用いて訓練された場合、どのように異なるアーキテクチャが帰納的バイアスをもたらすかは、はっきりしない。 これらの講義の目的は、ディープラーニングを学習理論の観点から理解しようとするときに生じる主な疑問の概観を提供することである。 統計的学習理論と確率的最適化に関する簡単なリマインダーの後、良心過剰化の文脈における暗黙のバイアスについて議論する。 次に、ミラー降下アルゴリズムの一般的な記述に移行し、パラメータ空間と学習問題に対応する関数空間の間を行き来し、学習問題の幾何学が計量テンソルによってどのように表現されるかを示す。 本稿では,ネットワークの初期化における損失関数,パラメータのスケール,およびネットワークの深さが,特にカーネルや特徴学習間の遷移など,様々な形態の暗黙のバイアスを引き起こす可能性を示す。

Although statistical learning theory provides a robust framework to understand supervised learning, many theoretical aspects of deep learning remain unclear, in particular how different architectures may lead to inductive bias when trained using gradient based methods. The goal of these lectures is to provide an overview of some of the main questions that arise when attempting to understand deep learning from a learning theory perspective. After a brief reminder on statistical learning theory and stochastic optimization, we discuss implicit bias in the context of benign overfitting. We then move to a general description of the mirror descent algorithm, showing how we may go back and forth between a parameter space and the corresponding function space for a given learning problem, as well as how the geometry of the learning problem may be represented by a metric tensor. Building on this framework, we provide a detailed study of the implicit bias of gradient descent on linear diagonal networks for various regression tasks, showing how the loss function, scale of parameters at initialization and depth of the network may lead to various forms of implicit bias, in particular transitioning between kernel or feature learning.
翻訳日:2024-03-28 00:21:53 公開日:2024-03-25
# ミニマックス拡散による効率的なデータセット蒸留

Efficient Dataset Distillation via Minimax Diffusion ( http://arxiv.org/abs/2311.15529v2 )

ライセンス: Link先を確認
Jianyang Gu, Saeed Vahidian, Vyacheslav Kungurtsev, Haonan Wang, Wei Jiang, Yang You, Yiran Chen, (参考訳) データセット蒸留は、元の大規模データの豊富な情報をカプセル化した小さなサロゲートデータセットを生成することで、ネットワークのトレーニングの記憶と計算消費を減らす。 しかし, 従来の蒸留法は, サンプリングワイド反復最適化方式に大きく依存している。 画像毎クラス(IPC)の設定や画像解像度が大きくなるにつれて、必要な計算は圧倒的な時間とリソースを必要とする。 本研究は,サロゲートデータセットの計算に生成拡散技術を導入することを目的としている。 実効的なサロゲートデータセットを構築する上で重要な要素は代表性と多様性であることに気付き、生成訓練における追加のミニマックス基準を設計し、これらのファセットを拡散モデルの生成画像に対して強化する。 本稿では,これらの基準を目標とする拡散過程の柔軟性を示す階層的拡散制御として,標本の忠実さを所望の分布に損なうことなく,プロセスの理論モデルを提案する。 提案手法は,計算資源の削減を図りながら,最先端の検証性能を実現する。 ImageWoofの100-IPC設定では,従来手法の蒸留時間は20分の1以下であったが,性能は向上した。 ソースコードと生成されたデータはhttps://github.com/vimar-gu/MinimaxDiffusionで入手できる。

Dataset distillation reduces the storage and computational consumption of training a network by generating a small surrogate dataset that encapsulates rich information of the original large-scale one. However, previous distillation methods heavily rely on the sample-wise iterative optimization scheme. As the images-per-class (IPC) setting or image resolution grows larger, the necessary computation will demand overwhelming time and resources. In this work, we intend to incorporate generative diffusion techniques for computing the surrogate dataset. Observing that key factors for constructing an effective surrogate dataset are representativeness and diversity, we design additional minimax criteria in the generative training to enhance these facets for the generated images of diffusion models. We present a theoretical model of the process as hierarchical diffusion control demonstrating the flexibility of the diffusion process to target these criteria without jeopardizing the faithfulness of the sample to the desired distribution. The proposed method achieves state-of-the-art validation performance while demanding much less computational resources. Under the 100-IPC setting on ImageWoof, our method requires less than one-twentieth the distillation time of previous methods, yet yields even better performance. Source code and generated data are available in https://github.com/vimar-gu/MinimaxDiffusion.
翻訳日:2024-03-28 00:21:53 公開日:2024-03-25
# Check, Locate, Rectify: テキスト・画像生成のためのトレーニング不要レイアウト校正システム

Check, Locate, Rectify: A Training-Free Layout Calibration System for Text-to-Image Generation ( http://arxiv.org/abs/2311.15773v3 )

ライセンス: Link先を確認
Biao Gong, Siteng Huang, Yutong Feng, Shiwei Zhang, Yuyuan Li, Yu Liu, (参考訳) 拡散モデルは最近、現実的な画像の生成において顕著な進歩を遂げた。 しかし、テキストプロンプトのレイアウト要求を正確に理解し、合成することは依然として課題である。 生成した画像をレイアウト指示と整合させるため,推定時間中に生成過程に介入するトレーニング不要なレイアウトキャリブレーションシステムSimMを提案する。 具体的には、"チェック位置修正"パイプラインに従って、システムはまずターゲットレイアウトを生成するプロンプトを分析し、中間出力と比較してエラーを自動的に検出する。 そして、位置したアクティベーションを移動させ、マップ内およびマップ間調整を行うことで、補正処理を無視可能な計算オーバーヘッドで行うことができる。 レイアウト要求の範囲でSimMを評価するため,既存のデータセットの空間関係の欠如を補うベンチマークSimMBenchを提案する。 また, 定量的および定性的な結果から, レイアウトの不整合の校正におけるSimMの有効性が示された。 プロジェクトページはhttps://simm-t2i.github.io/SimM.com/。

Diffusion models have recently achieved remarkable progress in generating realistic images. However, challenges remain in accurately understanding and synthesizing the layout requirements in the textual prompts. To align the generated image with layout instructions, we present a training-free layout calibration system SimM that intervenes in the generative process on the fly during inference time. Specifically, following a "check-locate-rectify" pipeline, the system first analyses the prompt to generate the target layout and compares it with the intermediate outputs to automatically detect errors. Then, by moving the located activations and making intra- and inter-map adjustments, the rectification process can be performed with negligible computational overhead. To evaluate SimM over a range of layout requirements, we present a benchmark SimMBench that compensates for the lack of superlative spatial relations in existing datasets. And both quantitative and qualitative results demonstrate the effectiveness of the proposed SimM in calibrating the layout inconsistencies. Our project page is at https://simm-t2i.github.io/SimM.
翻訳日:2024-03-28 00:21:53 公開日:2024-03-25
# アクションカスタマイズテキスト・ツー・イメージ生成のためのアンタングル型識別器の学習

Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation ( http://arxiv.org/abs/2311.15841v3 )

ライセンス: Link先を確認
Siteng Huang, Biao Gong, Yutong Feng, Xi Chen, Yuqian Fu, Yu Liu, Donglin Wang, (参考訳) 本研究では,テキスト・ツー・イメージ(T2I)生成における新しいタスク,すなわちアクション・カスタマイズに焦点を当てた。 この課題の目的は、限られたデータから既存の行動を学び、それを見えない人間や動物に一般化することである。 実験結果から,既存の主観的カスタマイズ手法では,行動の代表的な特徴を学習できず,外観を含む文脈的特徴から行動の疎結合に苦慮していることが明らかとなった。 低レベルの特徴の嗜好と高レベルの特徴の絡み合いを克服するため,従来の画像からアクション固有識別子を学習するための逆解析法であるADIを提案する。 ADIはまず、レイヤワイド識別子トークンを導入してセマンティックコンディショニング空間を拡張し、異なる特徴にまたがってインバージョンを分散しながら表現豊かさを増大させる。 そして、アクションに依存しない特徴の逆転を阻止するために、ADIは、構築されたサンプルトリプルから勾配不変性を抽出し、無関係チャネルの更新を隠蔽する。 タスクを包括的に評価するために、さまざまなアクションを含むActionBenchを、慎重に選択されたサンプルとともに提示する。 定量的および定性的な結果から,我々のADIは既存のT2I生成のベースラインより優れていたことが示唆された。 プロジェクトページはhttps://adi-t2i.github.io/ADI.com/。

This study focuses on a novel task in text-to-image (T2I) generation, namely action customization. The objective of this task is to learn the co-existing action from limited data and generalize it to unseen humans or even animals. Experimental results show that existing subject-driven customization methods fail to learn the representative characteristics of actions and struggle in decoupling actions from context features, including appearance. To overcome the preference for low-level features and the entanglement of high-level features, we propose an inversion-based method Action-Disentangled Identifier (ADI) to learn action-specific identifiers from the exemplar images. ADI first expands the semantic conditioning space by introducing layer-wise identifier tokens, thereby increasing the representational richness while distributing the inversion across different features. Then, to block the inversion of action-agnostic features, ADI extracts the gradient invariance from the constructed sample triples and masks the updates of irrelevant channels. To comprehensively evaluate the task, we present an ActionBench that includes a variety of actions, each accompanied by meticulously selected samples. Both quantitative and qualitative results show that our ADI outperforms existing baselines in action-customized T2I generation. Our project page is at https://adi-t2i.github.io/ADI.
翻訳日:2024-03-28 00:21:53 公開日:2024-03-25
# ContextSeg: コンテキストを注意してクエリすることで、セマンティックセマンティックセマンティックセマンティックセグメンテーションを実現する

ContextSeg: Sketch Semantic Segmentation by Querying the Context with Attention ( http://arxiv.org/abs/2311.16682v2 )

ライセンス: Link先を確認
Jiawei Wang, Changjian Li, (参考訳) スケッチセマンティックセグメンテーション(Sketch semantic segmentation)は、コンピュータビジョンにおいて、予め定義された部分ラベルを個々のストロークに割り当てることを含む、よく研究され重要な問題である。 本稿では、この問題を2段階に分けて扱うための、シンプルかつ高効率なアプローチであるContextSegについて述べる。 最初の段階では、ストロークの形状と位置情報をよりよく符号化するために、オートエンコーダネットワークにおいて、構造情報学習を強化するために、余分な密集距離場を予測することを提案する。 第2段階では、全ストロークを単一のエンティティとして扱い、デフォルトのアテンション機構を備えた自動回帰変換器を用いて、同じ意味部分内でストロークのグループをラベル付けする。 グループベースのラベリングにより、残りのストローク群について決定を行う際にコンテキスト情報を完全に活用することができる。 提案手法は,2つの代表的なデータセットに対する最先端手法と比較して高いセグメンテーション精度を達成し,その性能を広く評価してきた。 さらに、トレーニングデータにおける部分不均衡の解決に関する洞察と、この分野での今後の研究を刺激するクロスカテゴリトレーニングに関する予備的な実験を提供する。

Sketch semantic segmentation is a well-explored and pivotal problem in computer vision involving the assignment of pre-defined part labels to individual strokes. This paper presents ContextSeg - a simple yet highly effective approach to tackling this problem with two stages. In the first stage, to better encode the shape and positional information of strokes, we propose to predict an extra dense distance field in an autoencoder network to reinforce structural information learning. In the second stage, we treat an entire stroke as a single entity and label a group of strokes within the same semantic part using an auto-regressive Transformer with the default attention mechanism. By group-based labeling, our method can fully leverage the context information when making decisions for the remaining groups of strokes. Our method achieves the best segmentation accuracy compared with state-of-the-art approaches on two representative datasets and has been extensively evaluated demonstrating its superior performance. Additionally, we offer insights into solving part imbalance in training data and the preliminary experiment on cross-category training, which can inspire future research in this field.
翻訳日:2024-03-28 00:21:53 公開日:2024-03-25
# CADTalk:CADプログラムのセマンティックコメントのためのアルゴリズムとベンチマーク

CADTalk: An Algorithm and Benchmark for Semantic Commenting of CAD Programs ( http://arxiv.org/abs/2311.16703v3 )

ライセンス: Link先を確認
Haocheng Yuan, Jing Xu, Hao Pan, Adrien Bousseau, Niloy J. Mitra, Changjian Li, (参考訳) CADプログラムは、パラメトリックな修正が容易な操作のシーケンスとして、形状をコンパクトにエンコードする一般的な方法である。 しかし、十分なセマンティックなコメントや構造がなければ、このようなプログラムは理解するのが難しくなる。 そこで本研究では,意味的に意味のある形状の部分に対応するコードブロックに入力プログラムを分割し,各ブロックに意味ラベルを割り当てることが目的である。 基礎言語と視覚モデルにおける近年の進歩によって得られた,プログラム解析と視覚意味解析を組み合わせることで,この問題を解決する。 具体的には、入力プログラムを実行することで、条件付きフォトリアリスティックな画像を生成するために、そのような画像にセマンティックアノテータを使用する形状を生成する。 次に、画像全体にわたって情報を蒸留し、元のプログラムにリンクして意味論的にコメントします。 さらに,5,288件の機械製プログラムと45件の人間製プログラムからなるベンチマークデータセットCADTalkを収集し,注釈を付した。 提案手法をGPTベースライン,オープンセット形状分割ベースラインと比較し,新しいCADTalkデータセットで83.24%の精度を報告した。 コードとデータ:https://enigma-li.github.io/CADTalk/。

CAD programs are a popular way to compactly encode shapes as a sequence of operations that are easy to parametrically modify. However, without sufficient semantic comments and structure, such programs can be challenging to understand, let alone modify. We introduce the problem of semantic commenting CAD programs, wherein the goal is to segment the input program into code blocks corresponding to semantically meaningful shape parts and assign a semantic label to each block. We solve the problem by combining program parsing with visual-semantic analysis afforded by recent advances in foundational language and vision models. Specifically, by executing the input programs, we create shapes, which we use to generate conditional photorealistic images to make use of semantic annotators for such images. We then distill the information across the images and link back to the original programs to semantically comment on them. Additionally, we collected and annotated a benchmark dataset, CADTalk, consisting of 5,288 machine-made programs and 45 human-made programs with ground truth semantic comments. We extensively evaluated our approach, compared it to a GPT-based baseline, and an open-set shape segmentation baseline, and reported an 83.24% accuracy on the new CADTalk dataset. Code and data: https://enigma-li.github.io/CADTalk/.
翻訳日:2024-03-28 00:21:53 公開日:2024-03-25
# LEOD:イベントカメラのためのラベル効率の良いオブジェクト検出

LEOD: Label-Efficient Object Detection for Event Cameras ( http://arxiv.org/abs/2311.17286v2 )

ライセンス: Link先を確認
Ziyi Wu, Mathias Gehrig, Qing Lyu, Xudong Liu, Igor Gilitschenski, (参考訳) イベントカメラによるオブジェクト検出は、センサーの低レイテンシと高ダイナミックレンジの恩恵を受ける。 しかし、時間分解能が高いため、教師付きトレーニングのためにイベントストリームを完全にラベル付けするのはコストがかかる。 このコストを削減するために,ラベル効率の高いイベントベース検出法であるLEODを提案する。 本手法は, 自己学習機構を用いて, 弱い物体検出と半教師付き物体検出を統一する。 まず、限定ラベルで事前訓練された検出器を用いて、ラベルのない事象に対して擬似基底真理を生成する。 そして、検出器を実ラベルと生成ラベルの両方で再訓練する。 イベントの時間的一貫性を活用して、双方向の推論を実行し、追跡ベースの後処理を適用して、擬似ラベルの品質を高める。 ラベルノイズに対するトレーニングを安定させるために,ソフトアンカーの割り当て戦略をさらに設計する。 本稿では,Gen1および1Mpxデータセット上でのラベル効率の高いイベントベース検出タスクを評価するための新しい実験プロトコルを提案する。 LEODは、教師付きベースラインを様々なラベリング比で一貫して上回る。 例えばGen1では、1%と2%のラベルでトレーニングされたRVT-Sに対して、mAPを8.6%改善し、7.8%改善している。 1Mpxでは、10%のラベルを持つRVT-Sが100%のラベルを使用して完全に監督されたラベルを超える。 LEODは、ラベル付きデータがすべて利用可能である場合でも、その有効性を維持し、新しい最先端の結果に到達する。 最後に,本手法は大規模検出器の改良にも有用であることを示す。 コードはhttps://github.com/Wuziyi616/LEODで公開されている。

Object detection with event cameras benefits from the sensor's low latency and high dynamic range. However, it is costly to fully label event streams for supervised training due to their high temporal resolution. To reduce this cost, we present LEOD, the first method for label-efficient event-based detection. Our approach unifies weakly- and semi-supervised object detection with a self-training mechanism. We first utilize a detector pre-trained on limited labels to produce pseudo ground truth on unlabeled events. Then, the detector is re-trained with both real and generated labels. Leveraging the temporal consistency of events, we run bi-directional inference and apply tracking-based post-processing to enhance the quality of pseudo labels. To stabilize training against label noise, we further design a soft anchor assignment strategy. We introduce new experimental protocols to evaluate the task of label-efficient event-based detection on Gen1 and 1Mpx datasets. LEOD consistently outperforms supervised baselines across various labeling ratios. For example, on Gen1, it improves mAP by 8.6% and 7.8% for RVT-S trained with 1% and 2% labels. On 1Mpx, RVT-S with 10% labels even surpasses its fully-supervised counterpart using 100% labels. LEOD maintains its effectiveness even when all labeled data are available, reaching new state-of-the-art results. Finally, we show that our method readily scales to improve larger detectors as well. Code is released at https://github.com/Wuziyi616/LEOD
翻訳日:2024-03-28 00:21:53 公開日:2024-03-25
# SCHEME:視覚変換器用のスケーラブルチャンナーミキサー

SCHEME: Scalable Channer Mixer for Vision Transformers ( http://arxiv.org/abs/2312.00412v2 )

ライセンス: Link先を確認
Deepak Sridhar, Yunsheng Li, Nuno Vasconcelos, (参考訳) 視覚変換器は多くの視覚タスクにおける印象的な性能のために大きな注目を集めている。 トークンミキサー (トークンミキサー) やアテンションブロック (アテンションブロック) の研究は盛んに行われているが, チャネルミキサー (FFN) や特徴ミキシングブロック (MLP) は, モデル内のパラメータや計算の大部分を占めるにもかかわらず, 深くは検討されていない。 本研究は,密接な接続をスパルス混合で置き換えることができ,これをブロック対角形MLP構造で確認し,拡張比を大きくして精度を向上できるかどうかを考察する。 この構造により形成された特徴クラスタを改善し、精度をさらに向上するため、トレーニング中に並列ブランチとして軽量でパラメータフリーなチャネル共分散アテンション(CCA)機構を導入する。 このCCAの設計は、訓練が収束するにつれて寄与がゼロになる訓練中、チャネル群間の段階的な特徴混合を可能にする。 これにより、推論中にCAAブロックを破棄することができ、計算コストを増大させることなく性能を向上させることができる。 結果として生じる$\textit{Scalable CHannEl MixEr}$ (SCHEME) は、任意の ViT アーキテクチャにプラグインされ、MLPのブロック対角構造サイズを制御することで、複雑性と性能のトレードオフが異なるモデルのガムが得られる。 これは新しいSCHEMEformerモデルの導入によって示され、特に小型モデルサイズの高速トランスフォーマーにおいて、精度対FLOPS、精度対モデルサイズ、精度対スループットの新たなParetoフロンティアを確立することが示されている。 例えば、SCHEMEformer は ImageNet-1K の1.77G FLOP で純アテンションミキサーを用いて ViT の 79.7% の精度の SOTA を確立する。

Vision Transformers have received significant attention due to their impressive performance in many vision tasks. While the token mixer or attention block has been studied in great detail, the channel mixer or feature mixing block (FFN or MLP) has not been explored in depth albeit it accounts for a bulk of the parameters and computation in a model. In this work, we study whether sparse feature mixing can replace the dense connections and confirm this with a block diagonal MLP structure that improves the accuracy by supporting larger expansion ratios. To improve the feature clusters formed by this structure and thereby further improve the accuracy, a lightweight, parameter-free, channel covariance attention (CCA) mechanism is introduced as a parallel branch during training. This design of CCA enables gradual feature mixing across channel groups during training whose contribution decays to zero as the training progresses to convergence. This allows the CCA block to be discarded during inference, thus enabling enhanced performance with no additional computational cost. The resulting $\textit{Scalable CHannEl MixEr}$ (SCHEME) can be plugged into any ViT architecture to obtain a gamut of models with different trade-offs between complexity and performance by controlling the block diagonal structure size in the MLP. This is shown by the introduction of a new family of SCHEMEformer models that is shown to establish new Pareto frontiers for accuracy vs FLOPS, accuracy vs model size, and accuracy vs throughput, especially for fast transformers of small model size. For example, the SCHEMEformer establishes a new SOTA of 79.7% accuracy for ViTs using pure attention mixers on ImageNet-1K at 1.77G FLOPs.
翻訳日:2024-03-28 00:21:53 公開日:2024-03-25
# 拡散モデルを保存するPACプライバシ

PAC Privacy Preserving Diffusion Models ( http://arxiv.org/abs/2312.01201v2 )

ライセンス: Link先を確認
Qipan Xu, Youlong Ding, Xinxi Zhang, Jie Gao, Hao Wang, (参考訳) データプライバシー保護は、研究者の間で注目を集めている。 拡散モデル(DM)、特に厳密な差分プライバシーは、高いプライバシーと視覚的品質の両方で画像を生成する可能性がある。 しかしながら、特定のデータ属性の民営化において堅牢な保護を確保すること、現在のモデルがしばしば不足する領域などの課題が発生する。 これらの課題に対処するため,PACプライバシー保護拡散モデル(PAC Privacy Preserving Diffusion Model)を導入する。 我々は、Langevinサンプリングプロセスにプライベート分類器ガイダンスを統合することにより、プライバシー保護を強化する。 さらに、モデルのプライバシを測定する際のギャップを認識し、プライバシレベルを測定するための新しい指標を開発した。 PACバウンドに対するガウス行列計算によって評価された本モデルでは,ベンチマークテストにより,既存の主要なプライベート生成モデルに比べて,プライバシ保護性能が優れていた。

Data privacy protection is garnering increased attention among researchers. Diffusion models (DMs), particularly with strict differential privacy, can potentially produce images with both high privacy and visual quality. However, challenges arise such as in ensuring robust protection in privatizing specific data attributes, areas where current models often fall short. To address these challenges, we introduce the PAC Privacy Preserving Diffusion Model, a model leverages diffusion principles and ensure Probably Approximately Correct (PAC) privacy. We enhance privacy protection by integrating a private classifier guidance into the Langevin Sampling Process. Additionally, recognizing the gap in measuring the privacy of models, we have developed a novel metric to gauge privacy levels. Our model, assessed with this new metric and supported by Gaussian matrix computations for the PAC bound, has shown superior performance in privacy protection over existing leading private generative models according to benchmark tests.
翻訳日:2024-03-27 22:23:06 公開日:2024-03-25
# MEDPSeg:階層型多型マルチタスク学習による断層ガラス不透明度のセグメンテーション, 凝縮, 肺構造物のCTによる解析

MEDPSeg: Hierarchical polymorphic multitask learning for the segmentation of ground-glass opacities, consolidation, and pulmonary structures on computed tomography ( http://arxiv.org/abs/2312.02365v2 )

ライセンス: Link先を確認
Diedre S. Carmo, Jean A. Ribeiro, Alejandro P. Comellas, Joseph M. Reinhardt, Sarah E. Gerard, Letícia Rittner, Roberto A. Lotufo, (参考訳) 新型コロナウイルス(COVID-19)のパンデミック対応は、胸部CT(Central Computed Tomography)における肺構造と病変の自動分離による肺疾患の診断、予後、理解を促進するためのディープラーニング手法の可能性を強調した。 肺病変をGGO(グラウンドグラス不透明度)に自動分離し,この課題の労働集約的,主観的特性により結束を阻害し,教師付き学習のためのグラウンド真実の入手が困難となる。 この問題に対処するため,我々はMEDPSegを提案する。 MEDPSegは階層型多形マルチタスク学習(HPML)を通じて異種胸部CTから学習する。 HPMLは、GGOの階層的性質と統合、肺病変、肺を探索し、マルチタスク気道と肺動脈の分節化によってさらなる利益を得る。 異なるラベル付きソースから6000以上のCTスキャンをトレーニングとテストに使用した。 実験では、GGOと統合セグメンテーションタスクのための新しい最先端パフォーマンスを実現するPMLが示されている。 さらに、MEDPSegは同時に肺発作、気道、肺動脈、肺病変のセグメンテーションを行い、それぞれに特有の最先端の手法に匹敵するパフォーマンスで、単一の前方予測を行う。 最後に、私たちは、https://github.com/MICLab-Unicamp/medpseg.comでグラフィカルなユーザーインターフェースを備えたオープンソース実装を提供しています。

The COVID-19 pandemic response highlighted the potential of deep learning methods in facilitating the diagnosis, prognosis and understanding of lung diseases through automated segmentation of pulmonary structures and lesions in chest computed tomography (CT). Automated separation of lung lesion into ground-glass opacity (GGO) and consolidation is hindered due to the labor-intensive and subjective nature of this task, resulting in scarce availability of ground truth for supervised learning. To tackle this problem, we propose MEDPSeg. MEDPSeg learns from heterogeneous chest CT targets through hierarchical polymorphic multitask learning (HPML). HPML explores the hierarchical nature of GGO and consolidation, lung lesions, and the lungs, with further benefits achieved through multitasking airway and pulmonary artery segmentation. Over 6000 volumetric CT scans from different partially labeled sources were used for training and testing. Experiments show PML enabling new state-of-the-art performance for GGO and consolidation segmentation tasks. In addition, MEDPSeg simultaneously performs segmentation of the lung parenchyma, airways, pulmonary artery, and lung lesions, all in a single forward prediction, with performance comparable to state-of-the-art methods specialized in each of those targets. Finally, we provide an open-source implementation with a graphical user interface at https://github.com/MICLab-Unicamp/medpseg.
翻訳日:2024-03-27 22:23:06 公開日:2024-03-25
# 政策誘導軌道拡散による世界モデル

World Models via Policy-Guided Trajectory Diffusion ( http://arxiv.org/abs/2312.08533v3 )

ライセンス: Link先を確認
Marc Rigter, Jun Yamada, Ingmar Posner, (参考訳) 世界モデルはインテリジェントエージェントを開発するための強力なツールである。 一連の行動の結果を予測することで、世界モデルは、合成データ、すなわち「想像力」を用いて、政治上の強化学習(RL)を通じてポリシーを最適化することができる。 既存の世界モデルは、次の状態を予測するために、ポリシーから次のアクションをサンプリングする、自己回帰的である。 軌道長が大きくなるにつれて、予測誤差は必然的に化合物となる。 本研究では, 自己回帰的でない新しい世界モデリング手法を提案する。 我々のアプローチであるPolyGRAD(PolyGRAD)は、政策の行動分布の勾配に加え、デノナイジングモデルを利用して、初期ランダムな状態と行動の軌跡をオンライン合成軌道に拡散させる。 我々は,PolyGRAD,スコアベース生成モデル,および分類器誘導拡散モデル間の関係を分析する。 以上の結果から,PolyGRADは,自己回帰拡散を除いて,短い軌道の軌道予測誤差において,最先端のベースラインよりも優れていたことが示唆された。 短い軌道では、PolyGRADは自己回帰拡散と同様の誤差を得るが、計算量は少ない。 長い軌道では、PolyGRADはベースラインに匹敵するパフォーマンスを得る。 この実験により, MuJoCo の連続制御領域において, 実効性ポリシーをオンライン RL でトレーニングできることが実証された。 そこでPolyGRADは, 自己回帰サンプリングを伴わない, 正確なオンライン世界モデリングのための新しいパラダイムを導入した。

World models are a powerful tool for developing intelligent agents. By predicting the outcome of a sequence of actions, world models enable policies to be optimised via on-policy reinforcement learning (RL) using synthetic data, i.e. in "in imagination". Existing world models are autoregressive in that they interleave predicting the next state with sampling the next action from the policy. Prediction error inevitably compounds as the trajectory length grows. In this work, we propose a novel world modelling approach that is not autoregressive and generates entire on-policy trajectories in a single pass through a diffusion model. Our approach, Policy-Guided Trajectory Diffusion (PolyGRAD), leverages a denoising model in addition to the gradient of the action distribution of the policy to diffuse a trajectory of initially random states and actions into an on-policy synthetic trajectory. We analyse the connections between PolyGRAD, score-based generative models, and classifier-guided diffusion models. Our results demonstrate that PolyGRAD outperforms state-of-the-art baselines in terms of trajectory prediction error for short trajectories, with the exception of autoregressive diffusion. For short trajectories, PolyGRAD obtains similar errors to autoregressive diffusion, but with lower computational requirements. For long trajectories, PolyGRAD obtains comparable performance to baselines. Our experiments demonstrate that PolyGRAD enables performant policies to be trained via on-policy RL in imagination for MuJoCo continuous control domains. Thus, PolyGRAD introduces a new paradigm for accurate on-policy world modelling without autoregressive sampling.
翻訳日:2024-03-27 22:23:06 公開日:2024-03-25
# LAENeRF:ニューラルラジアンスフィールドのための局所的な外観編集

LAENeRF: Local Appearance Editing for Neural Radiance Fields ( http://arxiv.org/abs/2312.09913v2 )

ライセンス: Link先を確認
Lukas Radl, Michael Steiner, Andreas Kurz, Markus Steinberger, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)の完全解釈のため、編集可能な暗黙的な3D表現への関心はここ数年で急増している。 しかし, モデルパラメータにエンコードされた外観や形状の絡み合いのため, 暗黙的表現やハイブリッド表現の編集は困難である。 これらの課題にもかかわらず、最近の研究では、フォトリアリスティックおよびノンフォトリアリスティックな外観編集への第一歩が示されている。 関連する作業の主なオープンな課題には、限定的な対話性、ローカル編集のサポートの欠如、大規模なメモリ要件などが含まれており、実際にはあまり役に立たない。 我々はこれらの制限を、NeRFのフォトリアリスティックおよびノンフォトリアリスティックな外観編集のための統一的なフレームワークであるLAENeRFを用いて解決する。 局所的な編集に対処するため,我々は領域選択の出発点としてボクセルグリッドを利用する。 我々は、予想される光線終端から最終的な出力色へのマッピングを学習し、スタイル損失によって任意に教師できるので、選択された領域のフォトリアリスティックかつ非フォトリアリスティックな外観編集を行うことができるフレームワークを実現する。 マッピングのために1光線当たりの1点を頼りにすることで、メモリ要件を制限し、高速な最適化を可能にします。 対話性を保証するため, 付加層混合で構成した学習, 変更可能なベースカラーの集合を用いて, 出力色を構成する。 LAENeRFは並列処理と比較して、処理時間を低く保ちながら、再色とスタイリングを可能にする。 さらに,本手法が定量的かつ定性的にベースライン法を超越していることが実証された。

Due to the omnipresence of Neural Radiance Fields (NeRFs), the interest towards editable implicit 3D representations has surged over the last years. However, editing implicit or hybrid representations as used for NeRFs is difficult due to the entanglement of appearance and geometry encoded in the model parameters. Despite these challenges, recent research has shown first promising steps towards photorealistic and non-photorealistic appearance edits. The main open issues of related work include limited interactivity, a lack of support for local edits and large memory requirements, rendering them less useful in practice. We address these limitations with LAENeRF, a unified framework for photorealistic and non-photorealistic appearance editing of NeRFs. To tackle local editing, we leverage a voxel grid as starting point for region selection. We learn a mapping from expected ray terminations to final output color, which can optionally be supervised by a style loss, resulting in a framework which can perform photorealistic and non-photorealistic appearance editing of selected regions. Relying on a single point per ray for our mapping, we limit memory requirements and enable fast optimization. To guarantee interactivity, we compose the output color using a set of learned, modifiable base colors, composed with additive layer mixing. Compared to concurrent work, LAENeRF enables recoloring and stylization while keeping processing time low. Furthermore, we demonstrate that our approach surpasses baseline methods both quantitatively and qualitatively.
翻訳日:2024-03-27 22:13:20 公開日:2024-03-25
# Point Transformer V3: よりシンプルで、より速く、より強く

Point Transformer V3: Simpler, Faster, Stronger ( http://arxiv.org/abs/2312.10035v2 )

ライセンス: Link先を確認
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao, (参考訳) 本論文は,注目機構内でのイノベーションを追求する動機にはならない。 その代わり、ポイントクラウド処理のコンテキストにおいて、正確性と効率の既存のトレードオフを克服し、スケールのパワーを活用することに重点を置いている。 近年の3次元大規模表現学習の進歩から着想を得た結果,モデルの性能は複雑な設計よりもスケールに影響されていることがわかった。 そこで我々は,KNNによる正確な隣接探索を,特定のパターンで整理された点雲の効率的な直列化近傍マッピングに置き換えるなど,スケーリング後の全体的な性能に劣る機構の精度よりも,単純さと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。 この原理により、受容野を16点から1024点に拡張し、効率を保ちながら、大きなスケーリングが可能となる(処理速度は3倍、メモリ効率は10倍に向上する)。 PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。 PTv3は、マルチデータセットのジョイントトレーニングによってさらに強化され、これらの結果をより高いレベルに押し上げる。

This paper is not motivated to seek innovation within the attention mechanism. Instead, it focuses on overcoming the existing trade-offs between accuracy and efficiency within the context of point cloud processing, leveraging the power of scale. Drawing inspiration from recent advances in 3D large-scale representation learning, we recognize that model performance is more influenced by scale than by intricate design. Therefore, we present Point Transformer V3 (PTv3), which prioritizes simplicity and efficiency over the accuracy of certain mechanisms that are minor to the overall performance after scaling, such as replacing the precise neighbor search by KNN with an efficient serialized neighbor mapping of point clouds organized with specific patterns. This principle enables significant scaling, expanding the receptive field from 16 to 1024 points while remaining efficient (a 3x increase in processing speed and a 10x improvement in memory efficiency compared with its predecessor, PTv2). PTv3 attains state-of-the-art results on over 20 downstream tasks that span both indoor and outdoor scenarios. Further enhanced with multi-dataset joint training, PTv3 pushes these results to a higher level.
翻訳日:2024-03-27 22:13:20 公開日:2024-03-25
# 大型ビジョンランゲージモデルのFew-Shot適応について

A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models ( http://arxiv.org/abs/2312.12730v2 )

ライセンス: Link先を確認
Julio Silva-Rodríguez, Sina Hajimiri, Ismail Ben Ayed, Jose Dolz, (参考訳) 効率的な伝達学習(ETL)が注目され、いくつかのラベル付きサンプルを用いて、下流タスクに大規模な事前学習言語ビジョンモデルを適用するようになっている。 現状のETL手法は, 厳密に定義された実験装置でのみ高い性能を示し, ラベル付きサンプルの大きなコーパスに基づいて, ハイパーパラメータを慎重に調整した。 特に、2つの興味深い、驚くべき経験的な観察を行います。 まず、単純な線形探索ベースラインを上回り、これらの手法は各タスクのハイパーパラメータを最適化する必要がある。 第2に、通常は、分布流の存在下での標準のゼロショット予測を(時には劇的に)過小評価する。 既存の文献における非現実的な仮定、すなわち、最適なハイパーパラメーターに対する大規模な検証セットとケース固有のグリッド探索へのアクセスに動機付けられ、現実のシナリオの要件を満たす新しいアプローチを提案する。 より具体的には、この文脈に合わせて一般化されたラグランジアン法を適応させることにより、バランス項を最適化するCLass-Adaptive linear Probe (CLAP) の目的を導入する。 CLAPを広範囲のデータセットとシナリオで総合的に評価し、SoTAアプローチを一貫して上回りながら、はるかに効率的な代替手段であることを実証した。

Efficient transfer learning (ETL) is receiving increasing attention to adapt large pre-trained language-vision models on downstream tasks with a few labeled samples. While significant progress has been made, we reveal that state-of-the-art ETL approaches exhibit strong performance only in narrowly-defined experimental setups, and with a careful adjustment of hyperparameters based on a large corpus of labeled samples. In particular, we make two interesting, and surprising empirical observations. First, to outperform a simple Linear Probing baseline, these methods require to optimize their hyper-parameters on each target task. And second, they typically underperform -- sometimes dramatically -- standard zero-shot predictions in the presence of distributional drifts. Motivated by the unrealistic assumptions made in the existing literature, i.e., access to a large validation set and case-specific grid-search for optimal hyperparameters, we propose a novel approach that meets the requirements of real-world scenarios. More concretely, we introduce a CLass-Adaptive linear Probe (CLAP) objective, whose balancing term is optimized via an adaptation of the general Augmented Lagrangian method tailored to this context. We comprehensively evaluate CLAP on a broad span of datasets and scenarios, demonstrating that it consistently outperforms SoTA approaches, while yet being a much more efficient alternative.
翻訳日:2024-03-27 22:13:20 公開日:2024-03-25
# MetaSegNet:リモートセンシング画像のセマンティックセグメンテーションのためのメタデータ協調型視覚言語表現学習

MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images ( http://arxiv.org/abs/2312.12735v2 )

ライセンス: Link先を確認
Libo Wang, Sijun Dong, Ying Chen, Xiaoliang Meng, Shenghui Fang, Ayman Habib, Songlin Fei, (参考訳) リモートセンシング画像のセマンティックセグメンテーションは、土地利用土地被覆マッピング、環境モニタリング、持続可能な開発など、幅広い地球観測(EO)応用において重要な役割を担っている。 人工知能(AI)の急速な発展によって、深層学習(DL)がセマンティックセグメンテーションの主流となり、リモートセンシングの分野で多くのブレークスルーを達成した。 しかし、既存のDLベースの手法は、現実の世界に関わる豊富なマルチモーダル情報を無視しながら、単調な視覚データに重点を置いており、通常は弱い信頼性と世代化を示している。 視覚変換器と大規模言語モデルの成功に触発されて,遠隔センシング画像のセマンティックセマンティックセマンティックセマンティクスに視覚言語表現学習を適用する,メタデータ協調型マルチモーダルセマンティクスネットワーク(MetaSegNet)を提案する。 一元的視覚データのみを使用する一般的なモデル構造とは異なり、利用可能なリモートセンシング画像メタデータから重要な特徴(例えば気候帯)を抽出し、汎用的なChatGPTを介して知識ベースのテキストプロンプトに転送する。 そして,画像エンコーダ,テキストエンコーダ,モーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出し,画像とテキストのインタラクションを適用する。 このような設計により、提案されたMetaSegNetは優れた一般化を示し、大規模なOpenEarthMapデータセット(68.6% mIoU)とPotsdamデータセット(93.3%はF1スコア)とLoveDAデータセット(52.2% mIoU)の最先端セマンティックセマンティックセマンティックセグメンテーション手法と競合する精度を達成する。

Semantic segmentation of remote sensing images plays a vital role in a wide range of Earth Observation (EO) applications, such as land use land cover mapping, environment monitoring, and sustainable development. Driven by rapid developments in Artificial Intelligence (AI), deep learning (DL) has emerged as the mainstream tool for semantic segmentation and has achieved many breakthroughs in the field of remote sensing. However, the existing DL-based methods mainly focus on unimodal visual data while ignoring the rich multimodal information involved in the real world, usually demonstrating weak reliability and generlization. Inspired by the success of Vision Transformers and large language models, we propose a novel metadata-collaborative multimodal segmentation network (MetaSegNet) that applies vision-language representation learning for semantic segmentation of remote sensing images. Unlike the common model structure that only uses unimodal visual data, we extract the key characteristic (e.g. the climate zone) from freely available remote sensing image metadata and transfer it into knowledge-based text prompts via the generic ChatGPT. Then, we construct an image encoder, a text encoder and a cross-modal attention fusion subnetwork to extract the image and text feature and apply image-text interaction. Benefiting from such a design, the proposed MetaSegNet demonstrates superior generalization and achieves competitive accuracy with the state-of-the-art semantic segmentation methods on the large-scale OpenEarthMap dataset (68.6% mIoU) and Potsdam dataset (93.3% mean F1 score) as well as LoveDA dataset (52.2% mIoU).
翻訳日:2024-03-27 22:13:20 公開日:2024-03-25
# 部分データからの極性双対と量子共分散行列の再構成

Polar Duality and the Reconstruction of Quantum Covariance Matrices from Partial Data ( http://arxiv.org/abs/2312.14823v2 )

ライセンス: Link先を確認
Maurice A. de Gosson, (参考訳) ラグランジアンとシンプレクティック極双対の概念を用いた量子共分散行列の再構成の問題に対処する。 我々は、パウリの再構成問題を非自明に一般化するガウス量子状態に適用し、そのような状態の簡単なトモグラフィー的特徴を述べる。

We address the problem of the reconstruction of quantum covariance matrices using the notion of Lagrangian and symplectic polar duality introduced in previous work. We apply our constructions to Gaussian quantum states which leads to a non-trivial generalization of Pauli's reconstruction problem and we state a simple tomographic characterization of such states.
翻訳日:2024-03-27 22:13:20 公開日:2024-03-25
# 構成を一般化するモジュラー解の発見

Discovering modular solutions that generalize compositionally ( http://arxiv.org/abs/2312.15001v2 )

ライセンス: Link先を確認
Simon Schug, Seijin Kobayashi, Yassir Akram, Maciej Wołczyk, Alexandra Proca, Johannes von Oswald, Razvan Pascanu, João Sacramento, Angelika Steger, (参考訳) 多くの複雑なタスクは、単純で独立した部分に分解できる。 そのような構成構造を明らかにすることは、構成の一般化を可能にする可能性がある。 進歩にもかかわらず、我々の最も強力なシステムは柔軟に組み立てるのに苦労している。 したがって、モデルが多くのタスクの構成的性質を捉えるのに役立つようにモジュール化されることは自然に思える。 しかし、モジュラーシステムが隠れた構成構造を発見できる状況は不明確である。 そこで,本研究では,地中真理モジュールの構成を完全に制御できるモジュール型教師を用いた教師学生設定について検討する。 これにより、構成一般化の問題と、基礎となる加群を識別する問題とを関連付けることができる。 特に、乗法相互作用の一般的なクラスを表すハイパーネットワークにおけるモジュラリティについて研究する。 実演から純粋に線形変換への同定は指数関数的な加群の組み合わせを学習することなく可能であることを理論的に示す。 さらに、理論的に特定された条件下では、有限データからのメタラーニングは、多くの複雑な環境で構成を一般化するモジュラーポリシーを発見することができることを実証的に実証する。

Many complex tasks can be decomposed into simpler, independent parts. Discovering such underlying compositional structure has the potential to enable compositional generalization. Despite progress, our most powerful systems struggle to compose flexibly. It therefore seems natural to make models more modular to help capture the compositional nature of many tasks. However, it is unclear under which circumstances modular systems can discover hidden compositional structure. To shed light on this question, we study a teacher-student setting with a modular teacher where we have full control over the composition of ground truth modules. This allows us to relate the problem of compositional generalization to that of identification of the underlying modules. In particular we study modularity in hypernetworks representing a general class of multiplicative interactions. We show theoretically that identification up to linear transformation purely from demonstrations is possible without having to learn an exponential number of module combinations. We further demonstrate empirically that under the theoretically identified conditions, meta-learning from finite data can discover modular policies that generalize compositionally in a number of complex environments.
翻訳日:2024-03-27 22:13:20 公開日:2024-03-25
# Fix-Con: 自動フォールトローカライゼーションとフレームワーク間のディープラーニングモデル変換の修復

Fix-Con: Automatic Fault Localization and Repair of Deep Learning Model Conversions between Frameworks ( http://arxiv.org/abs/2312.15101v3 )

ライセンス: Link先を確認
Nikolaos Louloudakis, Perry Gibson, José Cano, Ajitha Rajan, (参考訳) ディープラーニングモデルをフレームワーク間で変換することは、デバイス間のモデル互換性を最大化し、ひとつのディープラーニングフレームワークでのみ提供される最適化機能を活用するための一般的なステップである。 しかし、この変換プロセスはバグによって取り除かれ、変換されたモデルはデプロイ不能または問題なく、予測の正確性を著しく低下させる。 本稿では,ディープラーニングフレームワーク間のモデル変換において,障害局所化と修正のための自動アプローチであるFix-Conを提案する。 Fix-Conは、変換中にモデル入力、パラメータ、ハイパーパラメータ、モデルグラフに導入された障害を検出し、修正することができる。 Fix-Conでは、変換対象モデルの潜在的な変換障害をローカライズするために、一連の障害タイプ(‘nick{in code repository and forums}’と報告されている変換問題から抽出した)を使用して、ターゲットモデルのパラメータをソースモデルに置き換えるなど、適切な修正を行う。 これはデータセット内のすべての画像に対して反復的に行われ、ソースモデルと変換対象モデルとの出力ラベルの差を、すべての差が解決されるまで比較する。 本研究では,4つのディープラーニングフレームワーク間で変換された3つの画像認識モデルのモデル変換バグの修正におけるFix-Conの有効性を評価する。 全体としてFix-Conは、検出された変換障害755ドルのうち462ドルを修正できた。

Converting deep learning models between frameworks is a common step to maximize model compatibility across devices and leverage optimization features that may be exclusively provided in one deep learning framework. However, this conversion process may be riddled with bugs, making the converted models either undeployable or problematic, considerably degrading their prediction correctness. In this paper we propose an automated approach for fault localization and repair, Fix-Con, during model conversion between deep learning frameworks. Fix-Con is capable of detecting and fixing faults introduced in model input, parameters, hyperparameters, and the model graph during conversion. Fix-Con uses a set of fault types (mined from surveying conversion issues reported \nick{in code repositories and forums}) to localize potential conversion faults in the converted target model and then repair them appropriately, e.g., replacing the parameters of the target model with those from the source model. This is done iteratively for every image in the dataset, comparing output label differences between the source model and the converted target model until all differences are resolved. We evaluate the effectiveness of Fix-Con in fixing model conversion bugs of three widely used image recognition models converted across four different deep learning frameworks. Overall, Fix-Con was able to fix $462$ out of $755$ detected conversion faults, either completely repairing or significantly improving the performance of $14$ out of the $15$ erroneous conversion cases.
翻訳日:2024-03-27 22:13:20 公開日:2024-03-25
# ブロックチェーンによる監査ログ管理のためのセキュアなセキュア署名

Blockchain-Envisioned Post-Quantum Secure Sanitizable Signature for Audit Logs Management ( http://arxiv.org/abs/2312.16322v2 )

ライセンス: Link先を確認
Vikas Srivastava, Paresh Baidya, Sihem Mesnager, Debasish Roy, Sumit Kumar Debnath, (参考訳) 監査ログは、システムのイベントを透過的に追跡し、企業組織やエンタープライズビジネスシステムにおける継続的な監視を維持する上で、最も重要なツールの1つです。 監査ログが機密データを含んでいる場合や、監査ログが巨大である場合が多い。 このような状況下では、データセット全体よりもデータのサブセットを扱う方が実用的です。 これらの問題に対処するためのセキュアなソリューションを提供するため、SSS(S sanitizable signature scheme)は実行可能な暗号プリミティブである。 ここでは、最初に量子後セキュアなマルチ変数ベースSSS、すなわちMul-SANを提示する。 提案した設計は,MQ の問題が NP-hard であるという前提の下で,フォッギビリティ,プライバシ,不変性,シグナ説明責任,サニタイザ説明責任を提供する。 Mul-SANは非常に効率的で、その実装には計算場乗算と有限体上の加算しか必要としない。 Mul-SANは、医療産業や政府機関などにおける認証データの制御を部分的に委譲する実践的な方法として、自らを挙げている。 さらに、Blockchainを使用して、タンパー保護と堅牢な監査ログメカニズムの提供も検討しています。

Audit logs are one of the most important tools for transparently tracking system events and maintaining continuous oversight in corporate organizations and enterprise business systems. There are many cases where the audit logs contain sensitive data, or the audit logs are enormous. In these situations, dealing with a subset of the data is more practical than the entire data set. To provide a secure solution to handle these issues, a sanitizable signature scheme (SSS) is a viable cryptographic primitive. Herein, we first present the first post-quantum secure multivariate-based SSS, namely Mul-SAN. Our proposed design provides unforgeability, privacy, immutability, signer accountability, and sanitizer accountability under the assumption that the MQ problem is NP-hard. Mul-SAN is very efficient and only requires computing field multiplications and additions over a finite field for its implementation. Mul-SAN presents itself as a practical method to partially delegate control of the authenticated data in avenues like the healthcare industry and government organizations. We also explore using Blockchain to provide a tamper-proof and robust audit log mechanism.
翻訳日:2024-03-27 22:13:20 公開日:2024-03-25
# 量子テレポーテーションによる重力波検出のための周波数依存性スクイーズ

Frequency-dependent squeezing for gravitational-wave detection through quantum teleportation ( http://arxiv.org/abs/2401.04295v2 )

ライセンス: Link先を確認
Yohei Nishino, Stefan Danilishin, Yutaro Enomoto, Teng Zhang, (参考訳) 地表面の干渉計による重力波検出器は、弱い力に対する高精度なセンサーであり、光の量子揺らぎによって検出帯域の感度が制限されている。 現在および今後の機器はこの制限に対処するため、周波数依存性の圧縮真空を検知ポートに注入し、狭帯域で低損失の光学キャビティを用いて各信号周波数でスキーズ楕円を最適に回転させる。 本研究は、量子テレポーテーションと光の絡み合った状態の原理を用いた新しいスキームを紹介する。 これはアインシュタイン望遠鏡のxylophone検出器内の低周波検出器のベースライン設計であり、主干渉計のコア光学への追加のフィルタキャビティや修正を必要とせず、デチューテッド信号再生における量子ノイズのブロードバンド抑制を実現することができる。

Ground-based interferometric gravitational wave detectors are highly precise sensors for weak forces, limited in sensitivity across their detection band by quantum fluctuations of light. Current and future instruments address this limitation by injecting frequency-dependent squeezed vacuum into the detection port, utilizing narrow-band, low-loss optical cavities for optimal rotation of the squeezing ellipse at each signal frequency. This study introduces a novel scheme employing the principles of quantum teleportation and entangled states of light. It allows achieving broadband suppression of quantum noise in detuned signal recycled-Fabry-Perot--Michelson interferometers, which is the baseline design of the low-frequency detector within the Einstein Telescope xylophone detector, without requiring additional filter cavities or modifications to the core optics of the main interferometer.
翻訳日:2024-03-27 22:13:20 公開日:2024-03-25
# TACO: 汎用的な双方向ツール-アクティベーション-オブジェクト理解のベンチマーク

TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding ( http://arxiv.org/abs/2401.08399v2 )

ライセンス: Link先を確認
Yun Liu, Haolin Yang, Xu Si, Ling Liu, Zipeng Li, Yuxiang Zhang, Yebin Liu, Li Yi, (参考訳) 人間は通常、日常生活において複数の物体で作業し、オブジェクトの機能的規則を理解することによって、操作スキルを新しい物体に直感的に伝達することができる。 しかし、手オブジェクト操作の分析と合成のための既存の技術的アプローチは、データサポートの欠如により、主に片手とオブジェクトの処理に限られる。 そこで本研究では,多種多様なツール・アクション・オブジェクト・コンポジションにまたがる広範囲な双方向ハンド・オブジェクト・インタラクション・データセットであるTACOを構築した。 TACOには、第三者や自我中心のビュー、正確な手動3Dメッシュ、アクションラベルと組み合わせた2.5Kのモーションシーケンスが含まれている。 光モーションキャプチャシステムとマルチビューセンシングを組み合わせた完全自動データ取得パイプラインを提案する。 TACOが提供する膨大な研究分野を用いて,構成的動作認識,汎用的手対象動作予測,協調的把握合成という3つの汎用的手対象対話タスクをベンチマークした。 広範囲にわたる実験により、一般化可能な手動解析と合成の研究を進めるための新たな洞察、挑戦、機会が明らかにされた。 私たちのデータとコードはhttps://taco2024.github.io.comで公開されています。

Humans commonly work with multiple objects in daily life and can intuitively transfer manipulation skills to novel objects by understanding object functional regularities. However, existing technical approaches for analyzing and synthesizing hand-object manipulation are mostly limited to handling a single hand and object due to the lack of data support. To address this, we construct TACO, an extensive bimanual hand-object-interaction dataset spanning a large variety of tool-action-object compositions for daily human activities. TACO contains 2.5K motion sequences paired with third-person and egocentric views, precise hand-object 3D meshes, and action labels. To rapidly expand the data scale, we present a fully automatic data acquisition pipeline combining multi-view sensing with an optical motion capture system. With the vast research fields provided by TACO, we benchmark three generalizable hand-object-interaction tasks: compositional action recognition, generalizable hand-object motion forecasting, and cooperative grasp synthesis. Extensive experiments reveal new insights, challenges, and opportunities for advancing the studies of generalizable hand-object motion analysis and synthesis. Our data and code are available at https://taco2024.github.io.
翻訳日:2024-03-27 22:03:36 公開日:2024-03-25
# 量子ビット数が少ない大規模量子最適化器を目指して

Towards large-scale quantum optimization solvers with few qubits ( http://arxiv.org/abs/2401.09421v2 )

ライセンス: Link先を確認
Marco Sciorilli, Lucas Borges, Taylor L. Patti, Diego García-Martín, Giancarlo Camilo, Anima Anandkumar, Leandro Aolita, (参考訳) 我々は、$m=\mathcal{O}(n^k)$バイナリ変数に対して、$n$ qubitsのみを用いてチューナブルな$k>1$を用いて、組合せ最適化のための変分量子解法を導入する。 パラメータ数と回路深度はそれぞれ$m$の線形およびサブ線形のスケーリングを軽度に表示する。 さらに,特定量子ビット効率の符号化がバレン高原の超ポリノミカル緩和を内蔵特徴としてもたらすことを解析的に証明した。 これは前例のない量子解法のパフォーマンスをもたらす。 $m=7000$の場合、数値シミュレーションは最先端の古典解法と競合する解を生成する。 逆に$m=2000$の場合、$n=17$トラップイオン量子ビットを用いた実験では、MaxCut近似比が0.941$を超えると見積もられた。 私たちの知る限り、これはそのようなサイズで実験的に得られた最高の品質です。 我々の発見は、量子にインスパイアされた解法に対する新しいヒューリスティックスと、近未来の量子デバイスにおける商業的関連問題の解決への有望な道筋を提供する。

We introduce a variational quantum solver for combinatorial optimizations over $m=\mathcal{O}(n^k)$ binary variables using only $n$ qubits, with tunable $k>1$. The number of parameters and circuit depth display mild linear and sublinear scalings in $m$, respectively. Moreover, we analytically prove that the specific qubit-efficient encoding brings in a super-polynomial mitigation of barren plateaus as a built-in feature. This leads to unprecedented quantum-solver performances. For $m=7000$, numerical simulations produce solutions competitive in quality with state-of-the-art classical solvers. In turn, for $m=2000$, an experiment with $n=17$ trapped-ion qubits featured MaxCut approximation ratios estimated to be beyond the hardness threshold $0.941$. To our knowledge, this is the highest quality attained experimentally on such sizes. Our findings offer a novel heuristics for quantum-inspired solvers as well as a promising route towards solving commercially-relevant problems on near term quantum devices.
翻訳日:2024-03-27 22:03:36 公開日:2024-03-25
# 線形に変化する非相反ホッピングを有する一次元格子における非エルミート皮膚効果の解消

Dissolution of the non-Hermitian skin effect in one-dimensional lattices with linearly varying nonreciprocal hopping ( http://arxiv.org/abs/2401.09697v2 )

ライセンス: Link先を確認
Bo Hou, Han Xiao, Rong Lü, Qi-Bo Zeng, (参考訳) 線形に変化する非相互ホッピングを持つ一次元非エルミタン格子について検討し、非エルミタン皮膚効果(NHSE)は非相互性の強さが増加するにつれて徐々に溶解することを示した。 開境界条件下でのエネルギースペクトルは、非相互ホッピングが弱いときの実と虚の固有エネルギーから構成される。 興味深いことに、真の固有エネルギーは等間隔のはしごを形成し、対応する固有状態は NHSE によるガウス分布との境界で局所化される。 非相互性を高めることで、真の固有エネルギーの数は減少し、さらに多くの固有エネルギーが虚偽となる。 スペクトルの実際の仮想遷移を伴う固有状態は、境界から格子のバルクに移動する。 非相互性が十分に強くなると、全スペクトルは虚数となり、NHSEはシステム内で完全に消滅する。 我々の研究は、空間的に異なる非相互ホッピングを持つ非エルミート系のエキゾチックな性質を明らかにする。

We study the one-dimensional non-Hermitian lattices with linearly varying nonreciprocal hopping, where the non-Hermitian skin effect (NHSE) is found to be dissolved gradually as the strength of nonreciprocity increases. The energy spectrum under the open boundary condition is composed of real and imaginary eigenenergies when the nonreciprocal hopping is weak. Interestingly, the real eigenenergies form an equally spaced ladder, and the corresponding eigenstates are localized at the boundary with a Gaussian distribution due to NHSE. By increasing the nonreciprocity, the number of real eigenenergies will decrease while more and more eigenenergies become imaginary. Accompanied by the real-imaginary transition in the spectrum, the eigenstates are shifted from the boundary into the bulk of the lattice. When the nonreciprocity gets strong enough, the whole spectrum will be imaginary and the NHSE disappears completely in the system; i.e., all the eigenstates become Gaussian bound states localized inside the bulk. Our work unveils the exotic properties of non-Hermitian systems with spatially varying nonreciprocal hopping.
翻訳日:2024-03-27 22:03:36 公開日:2024-03-25
# ランク・パッケージ・アローブ:参加予算における投票方法

Rank, Pack, or Approve: Voting Methods in Participatory Budgeting ( http://arxiv.org/abs/2401.12423v3 )

ライセンス: Link先を確認
Lodewijk Gelauff, Ashish Goel, (参考訳) 参加型予算編成は、地方自治体による予算決定に住民を巻き込む一般的な方法である。 スタンフォード参加予算プラットフォーム(Stanford Participatory Budgeting Platform)は、150以上の予算プロセスで住民を巻き込むために使用されているオンラインプラットフォームである。 ここでは,K-approval,K- rank,knapsackプライマリ・バロットを用いて,これらのプロセスから匿名化された予算意見のデータセットを提示する。 有権者のサブセットには、同じプロセスで異なる勧誘方法によるペア投票が含まれる。 投票者、プロジェクト、設定はすべて、有権者が実際に関心を持っている実世界の決定に関係している。 予備投票のデータから、投票の複雑さ(選択するプロジェクト数、選択するプロジェクト数、投票の長さ)は有権者が費やした中央値の時間と相関するが、高い放棄率とは相関しないことがわかった。 投票方法が異なる投票方法を用いた投票ペアを用いて,選択したプロジェクトのコストに対する投票方法の効果を,従来よりも包括的に分析する。 ほとんどの選挙では、有権者はknapsackよりもK-approvalを使ったコストの高いプロジェクトを選択している。 この効果は、個々の投票者だけでなく、集計レベルでも起こり、投票方法の暗黙の制約と投票インターフェースの明示的な制約の両方に影響される。 最後に、knapsack 投票のための紙代替手段として K 級の elicitation の使用を検証する。

Participatory budgeting is a popular method to engage residents in budgeting decisions by local governments. The Stanford Participatory Budgeting platform is an online platform that has been used to engage residents in more than 150 budgeting processes. We present a data set with anonymized budget opinions from these processes with K-approval, K-ranking or knapsack primary ballots. For a subset of the voters, it includes paired votes with a different elicitation method in the same process. This presents a unique data set, as the voters, projects and setting are all related to real-world decisions that the voters have an actual interest in. With data from primary ballots we find that while ballot complexity (number of projects to choose from, number of projects to select and ballot length) is correlated with a higher median time spent by voters, it is not correlated with a higher abandonment rate. We use vote pairs with different voting methods to analyze the effect of voting methods on the cost of selected projects, more comprehensively than was previously possible. In most elections, voters selected significantly more expensive projects using K-approval than using knapsack, although we also find a small number of examples with a significant effect in the opposite direction. This effect happens at the aggregate level as well as for individual voters, and is influenced both by the implicit constraints of the voting method and the explicit constraints of the voting interface. Finally, we validate the use of K-ranking elicitation to offer a paper alternative for knapsack voting.
翻訳日:2024-03-27 22:03:36 公開日:2024-03-25
# エンド・ツー・エンドマルチタスク対話システムの強化:訓練と適応性向上のための本質的動機強化学習アルゴリズムの検討

Enhancing End-to-End Multi-Task Dialogue Systems: A Study on Intrinsic Motivation Reinforcement Learning Algorithms for Improved Training and Adaptability ( http://arxiv.org/abs/2401.18040v2 )

ライセンス: Link先を確認
Navin Kamuni, Hardik Shah, Sathishkumar Chintala, Naveen Kunchakuri, Sujatha Alla Old Dominion, (参考訳) エンドツーエンドのマルチタスク対話システムは、通常、対話パイプライン用の別々のモジュールで設計される。 これらの中、ポリシーモジュールは、ユーザの入力に応じて何をするかを決定するために不可欠である。 このポリシーは、エージェントが報酬信号の形でフィードバックを受ける環境を利用して、強化学習アルゴリズムによって訓練される。 しかし、現在の対話システムは、明快で簡潔な報酬しか提供していない。 本研究の目的は,本研究の本質的なモチベーション強化学習アルゴリズムを検討することである。 これにより、エージェントは、迅速に訓練を加速し、内部インセンティブシステムを教えることにより、その行動の質を判断する能力を向上させることができる。 特に,ランダムネットワーク蒸留と好奇心駆動型強化学習の手法を応用し,発話間の意味的類似性を利用して,国家訪問の頻度を測定し,探索を促進する。 不均質なデータセットであるMultiWOZの実験結果は、本質的なモチベーションに基づく議論システムは、外生的なインセンティブに依存する政策より優れていることを示している。 例えば,ユーザシステム対話間の意味的類似性を用いて訓練されたランダムネットワーク蒸留を採用することにより,驚くべき平均成功率は73%に達する。 これは、平均成功率60%のベースラインであるPPO(Proximal Policy Optimization)よりも大幅に改善されている。 さらに、予約率や完了率などのパフォーマンス指標は、ベースラインよりも10%上昇している。 さらに、これらの本質的なインセンティブモデルは、より多くのドメインにおいてシステムのポリシーのレジリエンスを改善するのに役立ちます。 これは、より広い範囲のドメインをカバーする設定までスケールアップするのに有用であることを意味する。

End-to-end multi-task dialogue systems are usually designed with separate modules for the dialogue pipeline. Among these, the policy module is essential for deciding what to do in response to user input. This policy is trained by reinforcement learning algorithms by taking advantage of an environment in which an agent receives feedback in the form of a reward signal. The current dialogue systems, however, only provide meagre and simplistic rewards. Investigating intrinsic motivation reinforcement learning algorithms is the goal of this study. Through this, the agent can quickly accelerate training and improve its capacity to judge the quality of its actions by teaching it an internal incentive system. In particular, we adapt techniques for random network distillation and curiosity-driven reinforcement learning to measure the frequency of state visits and encourage exploration by using semantic similarity between utterances. Experimental results on MultiWOZ, a heterogeneous dataset, show that intrinsic motivation-based debate systems outperform policies that depend on extrinsic incentives. By adopting random network distillation, for example, which is trained using semantic similarity between user-system dialogues, an astounding average success rate of 73% is achieved. This is a significant improvement over the baseline Proximal Policy Optimization (PPO), which has an average success rate of 60%. In addition, performance indicators such as booking rates and completion rates show a 10% rise over the baseline. Furthermore, these intrinsic incentive models help improve the system's policy's resilience in an increasing amount of domains. This implies that they could be useful in scaling up to settings that cover a wider range of domains.
翻訳日:2024-03-27 21:53:51 公開日:2024-03-25
# ExtremeCast:グローバル気象予報における極値予測の強化

ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast ( http://arxiv.org/abs/2402.01295v2 )

ライセンス: Link先を確認
Wanghan Xu, Kang Chen, Tao Han, Hao Chen, Wanli Ouyang, Lei Bai, (参考訳) 機械学習(ML)に基づくデータ駆動天気予報は、従来の物理に基づく力学モデルと比較して、急速に発展し、世界中距離予測において優れた性能を示した。 しかし、これらのMLモデルのほとんどは、極端な天気を正確に予測するのに苦労しており、これは極端な値予測と密接に関連している。 数学的解析により、平均二乗誤差 (MSE) のような対称損失を用いることで、偏りのある予測や極端な値の過小評価につながることが証明される。 この問題に対処するために,非対称な最適化を行う新しい損失関数Exlossを導入する。 さらに,ExEnsembleというトレーニング不要な極値拡張戦略を導入し,画素値のばらつきを増大させ,予測ロバスト性を向上させる。 先進的なグローバル気象予報モデルと組み合わせることで、我々のソリューションは極端気象予報において最先端の性能を達成でき、同時に、上位中距離予報モデルに匹敵する全体的な予測精度を維持できることを示す。

Data-driven weather forecast based on machine learning (ML) has experienced rapid development and demonstrated superior performance in the global medium-range forecast compared to traditional physics-based dynamical models. However, most of these ML models struggle with accurately predicting extreme weather, which is closely related to the extreme value prediction. Through mathematical analysis, we prove that the use of symmetric losses, such as the Mean Squared Error (MSE), leads to biased predictions and underestimation of extreme values. To address this issue, we introduce Exloss, a novel loss function that performs asymmetric optimization and highlights extreme values to obtain accurate extreme weather forecast. Furthermore, we introduce a training-free extreme value enhancement strategy named ExEnsemble, which increases the variance of pixel values and improves the forecast robustness. Combined with an advanced global weather forecast model, extensive experiments show that our solution can achieve state-of-the-art performance in extreme weather prediction, while maintaining the overall forecast accuracy comparable to the top medium-range forecast models.
翻訳日:2024-03-27 21:53:51 公開日:2024-03-25
# 変分量子アルゴリズムにおけるユニタリノイズを超えて-ノイズ誘起バレンプラトーと固定点

Beyond unital noise in variational quantum algorithms: noise-induced barren plateaus and fixed points ( http://arxiv.org/abs/2402.08721v3 )

ライセンス: Link先を確認
P. Singkanipa, D. A. Lidar, (参考訳) 変分量子アルゴリズム(VQA)は、多くの可能性を秘めているが、指数的に小さな勾配の挑戦に直面している。 このバレンプラトー(BP)現象は、VQAの指数的トレーニングオーバーヘッドをもたらす。 おそらく最も悪名高いのがノイズ誘起バレン台地(NIBP)であり、これはオープン・システム・エフェクトから生じる避けられないBPの一種である。 ここでは、NIBP の研究をより一般的な正のトレース保存写像に一般化し、ユニタリケースにおける NIBP の存在とヒルベルト・シュミット (HS)-コントラクティブ (Hilbert-Schmidt) と呼ばれる非ユニタリ写像のクラスを確立する。 後者は振幅減衰を含む。 我々は、NIBPが出現する回路深さの早期境界に固執する。 本稿では,VQAコスト関数の雑音誘起定点(NIFP)の関連現象を同定し,その存在を一元的および非一元的ノイズマップで証明する。 その過程で、VQAのパラメータシフトルールをノイズ設定に拡張する。 解析結果を示す非分極および振幅減衰マップの数値シミュレーションとともに、NIBPとNIFPを生じさせる関連するパラメータに関して厳密な境界を提供する。

Variational quantum algorithms (VQAs) hold much promise but face the challenge of exponentially small gradients. Unmitigated, this barren plateau (BP) phenomenon leads to an exponential training overhead for VQAs. Perhaps the most pernicious are noise-induced barren plateaus (NIBPs), a type of unavoidable BP arising from open system effects, which have so far been shown to exist for unital noise maps. Here, we generalize the study of NIBPs to more general completely positive, trace-preserving maps, establishing the existence of NIBPs in the unital case and a class of non-unital maps we call Hilbert-Schmidt (HS)-contractive. The latter includes amplitude damping. We tighten to logarithmic earlier bounds on the circuit depth at which an NIBP appears. We identify the associated phenomenon of noise-induced fixed points (NIFP) of the VQA cost function and prove its existence for both unital and HS-contractive non-unital noise maps. Along the way, we extend the parameter shift rule of VQAs to the noisy setting. We provide rigorous bounds in terms of the relevant parameters that give rise to NIBPs and NIFPs, along with numerical simulations of the depolarizing and amplitude-damping maps that illustrate our analytical results.
翻訳日:2024-03-27 21:53:51 公開日:2024-03-25
# AIと人間は真にコミュニケーションできるのか?

Can AI and humans genuinely communicate? ( http://arxiv.org/abs/2402.09494v2 )

ライセンス: Link先を確認
Constant Bonard, (参考訳) AIと人間は真にコミュニケーションできるのか? 本稿では、背景を述べ、私の提案を動機づけた上で(第1節から第3節まで)、「メンタル・ビヘイビア・方法論」(第4節と第5節)と呼ぶこの問いに答える方法を探る。 この方法論は以下の3つのステップに従っている: まず、人間のコミュニケーションに(より一般的にはコミュニケーションとは対照的に)精神的な能力が十分であるかを綴る。 次に、振る舞いがこれらの能力を示すかどうかをテストするのに必要な実験パラダイムを綴ります。 第3に、これらのパラダイムを適用して、AIが関連する振る舞いを表示するかどうかをテストする。 最初の2つのステップが成功し、AIが人間のような結果でテストに合格すれば、このAIと人間が真にコミュニケーションできる証拠となる。 このメンタル行動方法論は、標準的なディープニューラルネットワークのようなブラックボックスアルゴリズムの動作を理解する必要がないという利点がある。 これは、人間の脳がどのように働くかを理解しなくても、人間が真にコミュニケーションできるという事実に匹敵するものです。 この方法論にも欠点があり、そのいくつかについて論じます(第6条)。

Can AI and humans genuinely communicate? In this article, after giving some background and motivating my proposal (sections 1 to 3), I explore a way to answer this question that I call the "mental-behavioral methodology" (sections 4 and 5). This methodology follows the following three steps: First, spell out what mental capacities are sufficient for human communication (as opposed to communication more generally). Second, spell out the experimental paradigms required to test whether a behavior exhibits these capacities. Third, apply or adapt these paradigms to test whether an AI displays the relevant behaviors. If the first two steps are successfully completed, and if the AI passes the tests with human-like results, this constitutes evidence that this AI and humans can genuinely communicate. This mental-behavioral methodology has the advantage that we don't need to understand the workings of black-box algorithms, such as standard deep neural networks. This is comparable to the fact that we don't need to understand how human brains work to know that humans can genuinely communicate. This methodology also has its disadvantages and I will discuss some of them (section 6).
翻訳日:2024-03-27 21:53:51 公開日:2024-03-25
# 遅延更新による確率近似:マルコフサンプリングにおける有限時間率

Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling ( http://arxiv.org/abs/2402.11800v2 )

ライセンス: Link先を確認
Arman Adibi, Nicolo Dal Fabbro, Luca Schenato, Sanjeev Kulkarni, H. Vincent Poor, George J. Pappas, Hamed Hassani, Aritra Mitra, (参考訳) 大規模・マルチエージェント強化学習の応用により,マルコフサンプリング下での遅延更新を伴う確率近似(SA)スキームの漸近的性能について検討した。 遅延の影響は最適化のために広く研究されているが、それらが基礎となるマルコフ過程と相互作用し、SAの有限時間性能を形成する方法はまだよく分かっていない。 この文脈において、我々の最初の主な貢献は、時間変化した有界遅延の下で、遅延SA更新規則は、SA演算子の固定点の周囲の球に \emph{last iterate} が指数関数的に高速収束することを保証していることを示すことである。 特に、我々の境界は最大遅延$\tau_{max}$と混合時間$\tau_{mix}$の両方に依存して \emph{tight} となる。 この厳密な境界を達成するために、既存の様々な遅延最適化解析とは異なり、イテレートの均一な有界性を確立することに依存する新しい帰納的証明手法を開発した。 したがって、我々の証明は独立した関心を持つかもしれない。 次に、最大遅延が収束率に与える影響を軽減するために、マルコフサンプリングの下での遅延適応型SAスキームの最初の有限時間解析を行う。 特に、このスキームの収束指数は、バニラ遅延SA則に対する$\tau_{max}$とは対照的に、$\tau_{avg}$でスケールダウンする。 さらに、適応型スキームはステップサイズチューニングのための遅延シーケンスの事前知識を必要としない。 理論的には, マルコフサンプリング下でのTD学習, Q-ラーニング, 確率勾配降下を含む, 幅広いアルゴリズムの遅延の有限時間効果に光を当てた。

Motivated by applications in large-scale and multi-agent reinforcement learning, we study the non-asymptotic performance of stochastic approximation (SA) schemes with delayed updates under Markovian sampling. While the effect of delays has been extensively studied for optimization, the manner in which they interact with the underlying Markov process to shape the finite-time performance of SA remains poorly understood. In this context, our first main contribution is to show that under time-varying bounded delays, the delayed SA update rule guarantees exponentially fast convergence of the \emph{last iterate} to a ball around the SA operator's fixed point. Notably, our bound is \emph{tight} in its dependence on both the maximum delay $\tau_{max}$, and the mixing time $\tau_{mix}$. To achieve this tight bound, we develop a novel inductive proof technique that, unlike various existing delayed-optimization analyses, relies on establishing uniform boundedness of the iterates. As such, our proof may be of independent interest. Next, to mitigate the impact of the maximum delay on the convergence rate, we provide the first finite-time analysis of a delay-adaptive SA scheme under Markovian sampling. In particular, we show that the exponent of convergence of this scheme gets scaled down by $\tau_{avg}$, as opposed to $\tau_{max}$ for the vanilla delayed SA rule; here, $\tau_{avg}$ denotes the average delay across all iterations. Moreover, the adaptive scheme requires no prior knowledge of the delay sequence for step-size tuning. Our theoretical findings shed light on the finite-time effects of delays for a broad class of algorithms, including TD learning, Q-learning, and stochastic gradient descent under Markovian sampling.
翻訳日:2024-03-27 21:53:51 公開日:2024-03-25
# テキスト・トゥ・SQLにおけるノイズの影響を理解する:BIRD-Benchベンチマークの検討

Understanding the Effects of Noise in Text-to-SQL: An Examination of the BIRD-Bench Benchmark ( http://arxiv.org/abs/2402.12243v4 )

ライセンス: Link先を確認
Niklas Wretblad, Fredrik Gordh Riseby, Rahul Biswas, Amin Ahmadi, Oskar Holmström, (参考訳) 自然言語を構造化クエリ言語(SQL)に変換することを含むText-to-SQLは、専門家の知識のない構造化データベースへの広範なアクセスを可能にするために不可欠である。 しかし、あいまいな質問や構文上の誤りなどの「ノイズ」が存在するなど、多くの要因により、そのようなタスクのモデルの設計は困難である。 本研究では,広範に使用されているBIRD-Benchベンチマークにおけるノイズの分布とタイプ,およびモデルに対するノイズの影響を詳細に分析する。 BIRD-Benchは汚くてノイズの多いデータベースの値をモデル化するために作られたが、質問やゴールドクエリにノイズやエラーを含むように作られたものではない。 問合せやゴールドクエリのノイズはデータセットに多く存在し、ドメイン毎に様々な量があり、ノイズタイプ間で不均一な分布があることがわかった。 誤ったゴールドSQLクエリの存在は、誤ったゴールド回答を発生させ、ベンチマークの信頼性に大きな影響を及ぼす。 驚いたことに、修正SQLクエリのモデルを評価するとき、ゼロショットベースラインは最先端のプロンプトメソッドのパフォーマンスを上回った。 様々な種類のノイズを処理できる新しいテキスト-SQL手法を開発するためには,情報的ノイズラベルと信頼性の高いベンチマークが不可欠である,と結論付けている。 すべてのデータセット、アノテーション、コードはhttps://github.com/niklaswretblad/the-effects-of-text-to-SQLで利用できる。

Text-to-SQL, which involves translating natural language into Structured Query Language (SQL), is crucial for enabling broad access to structured databases without expert knowledge. However, designing models for such tasks is challenging due to numerous factors, including the presence of 'noise,' such as ambiguous questions and syntactical errors. This study provides an in-depth analysis of the distribution and types of noise in the widely used BIRD-Bench benchmark and the impact of noise on models. While BIRD-Bench was created to model dirty and noisy database values, it was not created to contain noise and errors in the questions and gold queries. We found that noise in questions and gold queries are prevalent in the dataset, with varying amounts across domains, and with an uneven distribution between noise types. The presence of incorrect gold SQL queries, which then generate incorrect gold answers, has a significant impact on the benchmark's reliability. Surprisingly, when evaluating models on corrected SQL queries, zero-shot baselines surpassed the performance of state-of-the-art prompting methods. We conclude that informative noise labels and reliable benchmarks are crucial to developing new Text-to-SQL methods that can handle varying types of noise. All datasets, annotations, and code are available at https://github.com/niklaswretblad/the-effects-of-noise-in-text-to-SQL.
翻訳日:2024-03-27 21:53:51 公開日:2024-03-25
# Zero-BEV:BEVマップへの初歩的なモダリティのゼロショットプロジェクション

Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps ( http://arxiv.org/abs/2402.13848v2 )

ライセンス: Link先を確認
Gianluca Monaci, Leonid Antsfeld, Boris Chidlovskii, Christian Wolf, (参考訳) 鳥眼図 (Bird's-eye view, BEV) は、ロボット工学、特に自動運転車や地上ロボットにおいて広く使われている、幾何学的に構造化された重要な表現である。 既存のアルゴリズムでは、常に確実に利用できるとは限らない幾何学的射影の深度情報を必要とするか、あるいは視覚的ファーストパーソンの観察をBEV表現にマッピングする完全に教師付き方法でエンドツーエンドに訓練されているため、訓練された出力モダリティに制限される。 対照的に、本研究では、対応するBEVマップに対して、一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。 これは、幾何学的逆視点射影をモダリティ変換から切り離すことによって達成される。 RGBを占有する。 提案手法は汎用的であり,BEVに提案する3つのモード(セマンティックセグメンテーション,運動ベクトル,物体境界ボックス)について述べる。 本研究では,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。

Bird's-eye view (BEV) maps are an important geometrically structured representation widely used in robotics, in particular self-driving vehicles and terrestrial robots. Existing algorithms either require depth information for the geometric projection, which is not always reliably available, or are trained end-to-end in a fully supervised way to map visual first-person observations to BEV representation, and are therefore restricted to the output modality they have been trained for. In contrast, we propose a new model capable of performing zero-shot projections of any modality available in a first person view to the corresponding BEV map. This is achieved by disentangling the geometric inverse perspective projection from the modality transformation, eg. RGB to occupancy. The method is general and we showcase experiments projecting to BEV three different modalities: semantic segmentation, motion vectors and object bounding boxes detected in first person. We experimentally show that the model outperforms competing methods, in particular the widely used baseline resorting to monocular depth estimation.
翻訳日:2024-03-27 21:53:51 公開日:2024-03-25
# 完全絡み合った部分空間の有用変種と摂動、および拡張不可能な積基底のスパン

Useful variants and perturbations of completely entangled subspaces and spans of unextendible product bases ( http://arxiv.org/abs/2402.14697v2 )

ライセンス: Link先を確認
Ritabrata Sengupta, Ajit Iqbal Singh, (参考訳) 純粋状態に対する有限次元の絡み合いは、量子情報理論で広く使われている。 テンソル積構造によっては、分離可能な状態の集合でさえ非直観的文字を示すことができる。 Bennett et al [Phys. Rev. 82, 5385, (1999)] による拡張不可能な積基底と、[Proc. Indian Acad. Sci. Math. Sci. Sci. 4 (2004)] においてパルタサラティによって明示的に与えられる完全に絡み合った部分空間である。 最近では Boyer, Liss, and Mor [Phys. Rev. A 95, 032308 (2017)], Boyer and Mor [Preprints 2023080529, (2023)], and Liss, Mor, and Winter (arXiv: 2309.05144, (2023)] が有限個の純積状態しか持たない空間を研究している。 これをさらに実行し、例えば拡張不可能な積基底の直交補空間やパルタサラティの完全に絡み合った空間のような異なる空間を、特定の積ベクトルで線型スパンを取ることで摂動する問題を考察する。 この目的のために、ある拡張不可能な積基底の線型スパンの変分と摂動の方法と理論、それらの直交補空間、そしてパルタサラティの完全に絡み合った部分空間も開発する。 最後に、無限に多くの純積状態を持つ摂動の例を示す。

Finite dimensional entanglement for pure states has been used extensively in quantum information theory. Depending on the tensor product structure, even set of separable states can show non-intuitive characters. Two situations are well studied in the literature, namely the unextendible product basis by Bennett et al [Phys. Rev. Lett. 82, 5385, (1999)], and completely entangled subspaces explicitly given by Parthasarathy in [Proc. Indian Acad. Sci. Math. Sci. 114, 4 (2004)]. More recently Boyer, Liss, and Mor [Phys. Rev. A 95, 032308 (2017)]; Boyer and Mor [Preprints 2023080529, (2023)]; and Liss, Mor, and Winter [arXiv: 2309.05144, (2023)] have studied spaces which have only finitely many pure product states. We carry this further and consider the problem of perturbing different spaces, such as the orthogonal complement of an unextendible product basis and also Parthasarathy's completely entangled spaces, by taking linear spans with specified product vectors. To this end, we develop methods and theory of variations and perturbations of the linear spans of certain unextendible product bases, their orthogonal complements, and also Parthasarathy's completely entangled sub-spaces. Finally we give examples of perturbations with infinitely many pure product states.
翻訳日:2024-03-27 21:44:06 公開日:2024-03-25
# 実処理インメモリシステムにおけるグラフニューラルネットワークの高速化

Accelerating Graph Neural Networks on Real Processing-In-Memory Systems ( http://arxiv.org/abs/2402.16731v2 )

ライセンス: Link先を確認
Christina Giannoula, Peiming Yang, Ivan Fernandez Vega, Jiacheng Yang, Yu Xin Li, Juan Gomez Luna, Mohammad Sadrosadati, Onur Mutlu, Gennady Pekhimenko, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造データを解析するためのMLモデルである。 Graph Neural Network (GNN) の実行には、計算集約型カーネルとメモリ集約型カーネルの両方が含まれる。 Processing-In-Memory (PIM) システムは、単純なプロセッサをメモリアレイの近傍または内側に配置することで、このデータ移動のボトルネックを軽減することができる。 本稿では,実PIMシステム上でGNNを高速化する効率的なMLフレームワークであるPyGimを紹介する。 我々は,実PIMシステムに適したGNNのメモリ集約カーネルのためのインテリジェント並列化手法を提案し,それらのための便利なPython APIを開発した。 計算集約型カーネルとメモリ集約型カーネルをそれぞれプロセッサ中心のコンピュータシステムとメモリ中心のコンピュータシステムで実行し,そのアルゴリズム特性に適合するハイブリッドGNN実行を提供する。 我々は、1992年のPIMコアを持つ実世界のPIMシステム上で、新しいGNNモデルを用いてPyGimを広範囲に評価し、Intel Xeonの最先端CPUを平均3.04倍で上回り、CPUやGPUシステムよりも高いリソース利用を実現することを実証した。 私たちの仕事は、ソフトウェア、システム、ハードウェアデザイナに有用なレコメンデーションを提供します。 PyGimはオープンソースとして公開され、GNNでPIMシステムを広く利用できるようになる。

Graph Neural Networks (GNNs) are emerging ML models to analyze graph-structure data. Graph Neural Network (GNN) execution involves both compute-intensive and memory-intensive kernels, the latter dominates the total time, being significantly bottlenecked by data movement between memory and processors. Processing-In-Memory (PIM) systems can alleviate this data movement bottleneck by placing simple processors near or inside to memory arrays. In this work, we introduce PyGim, an efficient ML framework that accelerates GNNs on real PIM systems. We propose intelligent parallelization techniques for memory-intensive kernels of GNNs tailored for real PIM systems, and develop handy Python API for them. We provide hybrid GNN execution, in which the compute-intensive and memory-intensive kernels are executed in processor-centric and memory-centric computing systems, respectively, to match their algorithmic nature. We extensively evaluate PyGim on a real-world PIM system with 1992 PIM cores using emerging GNN models, and demonstrate that it outperforms its state-of-the-art CPU counterpart on Intel Xeon by on average 3.04x, and achieves higher resource utilization than CPU and GPU systems. Our work provides useful recommendations for software, system and hardware designers. PyGim will be open-sourced to enable the widespread use of PIM systems in GNNs.
翻訳日:2024-03-27 21:44:06 公開日:2024-03-25
# マルウェア検出における機械学習によるMal-API-2019データセットの総合評価

Comprehensive evaluation of Mal-API-2019 dataset by machine learning in malware detection ( http://arxiv.org/abs/2403.02232v2 )

ライセンス: Link先を確認
Zhenglin Li, Haibei Zhu, Houze Liu, Jintong Song, Qishuo Cheng, (参考訳) 本研究では,Mal-API-2019データセットを用いた各種分類モデルの評価に焦点をあて,機械学習を用いたマルウェア検出の徹底的な検討を行う。 その目的は、脅威をより効果的に識別し緩和することで、サイバーセキュリティの能力を向上させることである。 ランダムフォレスト(Random Forest)、XGBoost(XGBoost)、K Nearest Neighbor(KNN)、ニューラルネットワーク(Neural Networks)などのアンサンブルおよび非アンサンブル機械学習手法について検討した。 特に,データ前処理技術,特にTF-IDF表現と主成分分析が,モデル性能の向上に重要視されている。 その結果,アンサンブル法,特にランダムフォレストとXGBoostは,他の方法に比べて精度,精度,リコールが優れており,マルウェア検出の有効性が示された。 また,マルウェアの進化する性質に対処する継続的適応の必要性を強調し,限界や今後の方向性についても論じる。 この研究はサイバーセキュリティに関する継続的な議論に寄与し、デジタル時代のより堅牢なマルウェア検出システムを開発するための実践的な洞察を提供する。

This study conducts a thorough examination of malware detection using machine learning techniques, focusing on the evaluation of various classification models using the Mal-API-2019 dataset. The aim is to advance cybersecurity capabilities by identifying and mitigating threats more effectively. Both ensemble and non-ensemble machine learning methods, such as Random Forest, XGBoost, K Nearest Neighbor (KNN), and Neural Networks, are explored. Special emphasis is placed on the importance of data pre-processing techniques, particularly TF-IDF representation and Principal Component Analysis, in improving model performance. Results indicate that ensemble methods, particularly Random Forest and XGBoost, exhibit superior accuracy, precision, and recall compared to others, highlighting their effectiveness in malware detection. The paper also discusses limitations and potential future directions, emphasizing the need for continuous adaptation to address the evolving nature of malware. This research contributes to ongoing discussions in cybersecurity and provides practical insights for developing more robust malware detection systems in the digital era.
翻訳日:2024-03-27 21:44:06 公開日:2024-03-25
# OffLanDat: プロンプトエンジニアリングによる大規模言語モデルによって生成されたコミュニティベースの暗黙の言語データセット

OffLanDat: A Community Based Implicit Offensive Language Dataset Generated by Large Language Model Through Prompt Engineering ( http://arxiv.org/abs/2403.02472v4 )

ライセンス: Link先を確認
Amit Das, Mostafa Rahgouy, Dongji Feng, Zheng Zhang, Tathagata Bhattacharya, Nilanjana Raychawdhary, Mary Sandage, Lauramarie Pope, Gerry Dozier, Cheryl Seals, (参考訳) ソーシャルメディア上での攻撃的言語の存在は、社会的幸福に悪影響を及ぼしている。 結果として、この問題に高い優先順位で対処することが非常に重要になっている。 攻撃的な言語は明示的な形と暗黙的な形の両方に存在するが、後者は検出することがより困難である。 この領域における現在の研究はいくつかの課題に直面している。 まず、既存のデータセットは主に明示的な攻撃的なキーワードを含むテキストの収集に依存しており、これらのキーワードを欠いた暗黙的に攻撃的なコンテンツをキャプチャすることは困難である。 第二に、通常の方法論は、コミュニティ情報が提供する価値ある洞察を無視して、テキスト分析にのみ焦点をあてる傾向がある。 そこで本研究では,ChatGPTが生成したコミュニティベースの暗黙的攻撃言語データセットであるOffLanDatについて紹介する。 倫理的制約によりChatGPTを用いた攻撃的テキストの生成に制限があるにもかかわらず、暗黙的な攻撃的言語を効果的に生成するプロンプトベースのアプローチを提案する。 データ品質を確保するために、我々はデータを人間で評価する。 さらに,ChatGPTを用いたプロンプトベースのZero-Shot法を用いて,人間のアノテーションとChatGPTアノテーションの検知結果を比較する。 既存の最先端モデルを用いて、そのような言語を検出するのがいかに効果的かを確認する。 他の研究者のために、コードとデータセットを公開します。

The widespread presence of offensive languages on social media has resulted in adverse effects on societal well-being. As a result, it has become very important to address this issue with high priority. Offensive languages exist in both explicit and implicit forms, with the latter being more challenging to detect. Current research in this domain encounters several challenges. Firstly, the existing datasets primarily rely on the collection of texts containing explicit offensive keywords, making it challenging to capture implicitly offensive contents that are devoid of these keywords. Secondly, usual methodologies tend to focus solely on textual analysis, neglecting the valuable insights that community information can provide. In this research paper, we introduce a novel dataset OffLanDat, a community based implicit offensive language dataset generated by ChatGPT containing data for 38 different target groups. Despite limitations in generating offensive texts using ChatGPT due to ethical constraints, we present a prompt-based approach that effectively generates implicit offensive languages. To ensure data quality, we evaluate our data with human. Additionally, we employ a prompt-based Zero-Shot method with ChatGPT and compare the detection results between human annotation and ChatGPT annotation. We utilize existing state-of-the-art models to see how effective they are in detecting such languages. We will make our code and dataset public for other researchers.
翻訳日:2024-03-27 21:44:06 公開日:2024-03-25
# InjecAgent: ツール統合大規模言語モデルエージェントにおける間接プロンプトインジェクションのベンチマーク

InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents ( http://arxiv.org/abs/2403.02691v2 )

ライセンス: Link先を確認
Qiusi Zhan, Zhixiang Liang, Zifan Ying, Daniel Kang, (参考訳) 最近の研究はLLMをエージェントとして具体化し、ツールにアクセスし、アクションを実行し、外部コンテンツ(eメールやWebサイトなど)と対話することを可能にする。 しかし、外部コンテンツは間接的プロンプトインジェクション(IPI)攻撃のリスクを導入し、悪意のある命令がLLMによって処理されたコンテンツに埋め込まれ、これらのエージェントを操作してユーザに対する有害なアクションを実行する。 このような攻撃による潜在的に深刻な結果を考えると、これらのリスクを評価し緩和するためのベンチマークを確立することが不可欠である。 本稿では,ツール統合LDMエージェントのIPI攻撃に対する脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。 InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。 攻撃意図を2つの主要なタイプに分類する。 我々は30種類のLDMエージェントを評価し、エージェントがIPI攻撃に対して脆弱であることを示し、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱であることを示した。 攻撃指示をハッキングプロンプトで補強する強化設定に関するさらなる調査は、さらなる成功率の増加を示し、ReAct-prompted GPT-4の攻撃成功率をほぼ2倍にしている。 以上の結果から, LLMエージェントの広範な展開に関する疑問が浮かび上がった。 私たちのベンチマークはhttps://github.com/uiuc-kang-lab/InjecAgent.comで公開されています。

Recent work has embodied LLMs as agents, allowing them to access tools, perform actions, and interact with external content (e.g., emails or websites). However, external content introduces the risk of indirect prompt injection (IPI) attacks, where malicious instructions are embedded within the content processed by LLMs, aiming to manipulate these agents into executing detrimental actions against users. Given the potentially severe consequences of such attacks, establishing benchmarks to assess and mitigate these risks is imperative. In this work, we introduce InjecAgent, a benchmark designed to assess the vulnerability of tool-integrated LLM agents to IPI attacks. InjecAgent comprises 1,054 test cases covering 17 different user tools and 62 attacker tools. We categorize attack intentions into two primary types: direct harm to users and exfiltration of private data. We evaluate 30 different LLM agents and show that agents are vulnerable to IPI attacks, with ReAct-prompted GPT-4 vulnerable to attacks 24% of the time. Further investigation into an enhanced setting, where the attacker instructions are reinforced with a hacking prompt, shows additional increases in success rates, nearly doubling the attack success rate on the ReAct-prompted GPT-4. Our findings raise questions about the widespread deployment of LLM Agents. Our benchmark is available at https://github.com/uiuc-kang-lab/InjecAgent.
翻訳日:2024-03-27 21:44:06 公開日:2024-03-25
# 意識認識型自己適応型プロンプトを用いた数ショットクラスインクリメンタルラーニング

Few-Shot Class Incremental Learning with Attention-Aware Self-Adaptive Prompt ( http://arxiv.org/abs/2403.09857v2 )

ライセンス: Link先を確認
Chenxi Liu, Zhenyi Wang, Tianyi Xiong, Ruibo Chen, Yihan Wu, Junfeng Guo, Heng Huang, (参考訳) FSCIL(Few-Shot Class-Incremental Learning)モデルは、古いクラスに関する知識を保ちながら、サンプルが少ないクラスで段階的に新しいクラスを学習することを目的としている。 既存のFSCILメソッドは通常、バックボーン全体を微調整する。 一方、最近のプロンプトベースのCILアプローチでは、各タスクに十分なデータを持つトレーニングプロンプトによる忘れを軽減している。 本研究では,注意を意識した自己適応型プロンプト(ASP.NET)という新しいフレームワークを提案する。 ASP.NETはタスク不変のプロンプトを奨励し、注意点から特定の情報を減らすことで共有知識をキャプチャする。 さらに、ASPの自己適応的なタスク固有のプロンプトは、インフォメーション・ボトルネック学習の目的を持つ古いクラスから新しいクラスに、特定の情報を提供し、知識を伝達する。 要約すると、ASPはベースタスクの過度な適合を防ぎ、数秒のインクリメンタルタスクで膨大なデータを必要としない。 3つのベンチマークデータセットに対する大規模な実験は、ASPが新しいクラスを学習し、忘れを緩和するという点で、最先端のFSCILとプロンプトベースのCILメソッドを一貫して上回っていることを検証している。

Few-Shot Class-Incremental Learning (FSCIL) models aim to incrementally learn new classes with scarce samples while preserving knowledge of old ones. Existing FSCIL methods usually fine-tune the entire backbone, leading to overfitting and hindering the potential to learn new classes. On the other hand, recent prompt-based CIL approaches alleviate forgetting by training prompts with sufficient data in each task. In this work, we propose a novel framework named Attention-aware Self-adaptive Prompt (ASP). ASP encourages task-invariant prompts to capture shared knowledge by reducing specific information from the attention aspect. Additionally, self-adaptive task-specific prompts in ASP provide specific information and transfer knowledge from old classes to new classes with an Information Bottleneck learning objective. In summary, ASP prevents overfitting on base task and does not require enormous data in few-shot incremental tasks. Extensive experiments on three benchmark datasets validate that ASP consistently outperforms state-of-the-art FSCIL and prompt-based CIL methods in terms of both learning new classes and mitigating forgetting.
翻訳日:2024-03-27 21:34:22 公開日:2024-03-25
# ホワイトボックスの深層学習に向けて

Towards White Box Deep Learning ( http://arxiv.org/abs/2403.09863v2 )

ライセンス: Link先を確認
Maciej Satkiewicz, (参考訳) 本稿では、本質的に解釈可能なニューラルネットワークを構築するための概念的枠組みとして意味的特徴を紹介する。 MNISTの情報的サブプロブレムの概念モデルの証明は、合計で5Kの学習可能なパラメータを持つ4つの層から構成される。 モデルはモチベーションが良く、本質的に解釈可能で、ハイパーパラメータチューニングがほとんど必要とせず、人間レベルの対人テストの精度が達成されます。 これらの結果とアプローチの一般的な性質は、意味的特徴に関するさらなる研究を保証している。 コードはhttps://github.com/314-Foundation/white-box-nnで公開されている。

This paper introduces semantic features as a candidate conceptual framework for building inherently interpretable neural networks. A proof of concept model for informative subproblem of MNIST consists of 4 such layers with the total of 5K learnable parameters. The model is well-motivated, inherently interpretable, requires little hyperparameter tuning and achieves human-level adversarial test accuracy - with no form of adversarial training! These results and the general nature of the approach warrant further research on semantic features. The code is available at https://github.com/314-Foundation/white-box-nn
翻訳日:2024-03-27 21:34:22 公開日:2024-03-25
# 手話における非手話マーカーの言語学的解析のためのメディアパイプホロスティックテスト

Testing MediaPipe Holistic for Linguistic Analysis of Nonmanual Markers in Sign Languages ( http://arxiv.org/abs/2403.10367v2 )

ライセンス: Link先を確認
Anna Kuznetsova, Vadim Kimmelman, (参考訳) Deep Learningの進歩は、さまざまなタスクに使用できる人体と顔の信頼できるランドマーク追跡を可能にした。 最近のコンピュータビジョンソリューションであるMediaPipe Holistic (MPH) をテストし、顔の特徴の追跡が手話からのデータの言語学的分析に十分信頼できるかどうかを確認し、それを古いソリューション(OpenFace, OF)と比較する。 我々は、カザフ語とロシア語の手話における既存の文のデータセットと、頭傾きと眼球運動を備えたビデオの小さなデータセットを使用する。 眼球運動の言語学的解析にはMPHが十分ではないことが判明した。 我々は、これらの制限を克服するために追加の修正モデルをトレーニングする以前の提案を再検討する。

Advances in Deep Learning have made possible reliable landmark tracking of human bodies and faces that can be used for a variety of tasks. We test a recent Computer Vision solution, MediaPipe Holistic (MPH), to find out if its tracking of the facial features is reliable enough for a linguistic analysis of data from sign languages, and compare it to an older solution (OpenFace, OF). We use an existing data set of sentences in Kazakh-Russian Sign Language and a newly created small data set of videos with head tilts and eyebrow movements. We find that MPH does not perform well enough for linguistic analysis of eyebrow movement - but in a different way from OF, which is also performing poorly without correction. We reiterate a previous proposal to train additional correction models to overcome these limitations.
翻訳日:2024-03-27 21:24:38 公開日:2024-03-25
# オプションと状態表現による強化学習

Reinforcement Learning with Options and State Representation ( http://arxiv.org/abs/2403.10855v2 )

ライセンス: Link先を確認
Ayoub Ghriss, Masashi Sugiyama, Alessandro Lazaric, (参考訳) 現在の論文は、強化学習分野を探求し、高次元・複雑な環境における学習の課題に取り組むために、改良された学習手法を構築することを目的としている。 階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。 第1章では、Markov Decision Processフレームワークに精通し、次の章で使用した最新のテクニックを紹介します。 そして、単一の原始的な政策の限界に対する答えとして、階層的な政策学習の構築を進めます。 階層はトップのマネージャエージェントと下位の従業員エージェントで構成されています。 この論文の核となる最後の章では、"固有オプション(Eigenoption)"として知られるマネージャレベルとは独立して、階層の下位要素を学習しようとします。 環境のグラフ構造に基づいて、Eigenoptionsは環境の幾何学的および動的性質を認識したエージェントを構築することができる。 環境の対称変換に不変であり、結果として学習タスクの複雑さを大幅に減らすことができる。

The current thesis aims to explore the reinforcement learning field and build on existing methods to produce improved ones to tackle the problem of learning in high-dimensional and complex environments. It addresses such goals by decomposing learning tasks in a hierarchical fashion known as Hierarchical Reinforcement Learning. We start in the first chapter by getting familiar with the Markov Decision Process framework and presenting some of its recent techniques that the following chapters use. We then proceed to build our Hierarchical Policy learning as an answer to the limitations of a single primitive policy. The hierarchy is composed of a manager agent at the top and employee agents at the lower level. In the last chapter, which is the core of this thesis, we attempt to learn lower-level elements of the hierarchy independently of the manager level in what is known as the "Eigenoption". Based on the graph structure of the environment, Eigenoptions allow us to build agents that are aware of the geometric and dynamic properties of the environment. Their decision-making has a special property: it is invariant to symmetric transformations of the environment, allowing as a consequence to greatly reduce the complexity of the learning task.
翻訳日:2024-03-27 21:24:37 公開日:2024-03-25
# 古典を再考する:韻文・詩文におけるジェンダーステレオタイプを同定・定式化する研究

Revisiting The Classics: A Study on Identifying and Rectifying Gender Stereotypes in Rhymes and Poems ( http://arxiv.org/abs/2403.11752v2 )

ライセンス: Link先を確認
Aditya Narayan Sankaran, Vigneshwaran Shankaran, Sampath Lonka, Rajesh Sharma, (参考訳) 韻律や詩は文化規範や社会的な役割を伝達する強力な媒体である。 しかしながら、これらの作品における男女のステレオタイプが広く存在することは、偏見の知覚を永続させ、個人のアイデンティティの範囲を制限する。 過去の研究では、幼児期にステレオタイピングと偏見が出現することが示されており、因果的メカニズムに関する発達的研究は、ステレオタイピングと偏見の理解と制御に不可欠である。 本研究は,性別のステレオタイプを特定するために韻文と詩のデータセットを収集し,97%の精度で性別バイアスを識別するモデルを提案する。 ジェンダーのステレオタイプをLarge Language Model (LLM) を用いて修正し、その効果を人間の教育者に対する比較調査で評価した。 要約すると、本研究は文学作品におけるジェンダーステレオタイプの普及性を強調し、ジェンダーステレオタイプを是正するLLMの可能性を明らかにする。 本研究は,ジェンダー平等に関する言説に重要な貢献をし,芸術表現におけるインクリシティを高めることを目的としている。

Rhymes and poems are a powerful medium for transmitting cultural norms and societal roles. However, the pervasive existence of gender stereotypes in these works perpetuates biased perceptions and limits the scope of individuals' identities. Past works have shown that stereotyping and prejudice emerge in early childhood, and developmental research on causal mechanisms is critical for understanding and controlling stereotyping and prejudice. This work contributes by gathering a dataset of rhymes and poems to identify gender stereotypes and propose a model with 97% accuracy to identify gender bias. Gender stereotypes were rectified using a Large Language Model (LLM) and its effectiveness was evaluated in a comparative survey against human educator rectifications. To summarize, this work highlights the pervasive nature of gender stereotypes in literary works and reveals the potential of LLMs to rectify gender stereotypes. This study raises awareness and promotes inclusivity within artistic expressions, making a significant contribution to the discourse on gender equality.
翻訳日:2024-03-27 21:24:37 公開日:2024-03-25
# Counting-Stars: 長期の大規模言語モデルを評価するためのシンプルで効率的で合理的な戦略

Counting-Stars: A Simple, Efficient, and Reasonable Strategy for Evaluating Long-Context Large Language Models ( http://arxiv.org/abs/2403.11802v2 )

ライセンス: Link先を確認
Mingyang Song, Mao Zheng, Xuan Luo, (参考訳) 最近の研究は、堅牢な長期コンテキスト能力を持つLarge Language Models (LLM)の開発に集中しているが、適切な評価戦略が欠如しているため、LLM(例えば、GPT-4 Turbo、Kimi Chat)の長期コンテキスト能力とパフォーマンスについてはあまり分かっていない。 このギャップに対処するために、長文LLMを新しいベンチマークであるCounting-Starsとして評価するための、シンプルで効率的で合理的な戦略を提案する。 Counting-Starsは、LLMが長いコンテキストにおける長い依存関係を完全に理解し、キャプチャすることを要求し、さらにタスクを完了するためにコンテキスト全体にまたがる複数のエビデンスにまたがる依存性を収集できるように設計されている。 計数星に基づいて, GPT-4 Turbo と Kimi Chat の2つの長文 LLM の評価実験を行った。 実験の結果, GPT-4 Turbo と Kimi Chat は, 4K から 18K までの長い文脈で高い性能を示した。 さらに,LLM処理長コンテキストの動作に関する興味深い分析をいくつか提示する。

While recent research endeavors have concentrated on developing Large Language Models (LLMs) with robust long-context capabilities, due to the lack of appropriate evaluation strategies, relatively little is known about how well the long-context capability and performance of leading LLMs (e.g., GPT-4 Turbo and Kimi Chat). To address this gap, we propose a simple, efficient, and reasonable strategy for evaluating long-context LLMs as a new benchmark, named Counting-Stars. The Counting-Stars is designed to require LLMs to fully understand and capture long dependencies in long contexts, further being able to collect inter-dependency across multiple pieces of evidence spanning the entire context to finish the task. Based on the Counting-Stars, we conduct experiments to evaluate the two leading long-context LLMs, i.e., GPT-4 Turbo and Kimi Chat. The experimental results indicate that GPT-4 Turbo and Kimi Chat achieve significant performance in the long context from 4K to 128K. We further present several intriguing analyses regarding the behavior of LLMs processing long context.
翻訳日:2024-03-27 21:24:37 公開日:2024-03-25
# Pixelsからインサイトへ:大規模基盤モデルの時代における自動チャート理解に関する調査

From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models ( http://arxiv.org/abs/2403.12027v2 )

ライセンス: Link先を確認
Kung-Hsiang Huang, Hou Pong Chan, Yi R. Fung, Haoyi Qiu, Mingyang Zhou, Shafiq Joty, Shih-Fu Chang, Heng Ji, (参考訳) グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。 自動チャート理解は、近年の大規模基盤モデルの台頭とともに、大きな進歩をみせている。 大規模言語モデルのような基礎モデルは、様々な自然言語処理タスクに革命をもたらし、チャート理解タスクにますます応用されている。 本稿では,これらの基礎モデルの文脈におけるチャート理解の最近の展開,課題,今後の方向性について概観する。 本稿では,チャート理解タスク研究に不可欠な基本構造ブロックについて概説する。 さらに、様々なタスクとその評価指標と、チャートとテキスト入力の両方のソースについて検討する。 次に、分類ベースと生成ベースの両方のアプローチと、チャート理解性能を高めるツール拡張技術を含む、様々なモデリング戦略について検討する。 さらに、各タスクの最先端性能について論じ、その性能を改善する方法について論じる。 課題と今後の方向性に対処し、ドメイン固有のチャート、評価指標の開発への努力の欠如、エージェント指向の設定など、いくつかのトピックの重要性を強調している。 本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の総合的な資源として機能し,大規模基盤モデルを活用したチャート理解における今後の研究に有用な洞察と方向性を提供する。 この論文で言及された研究は、新しい研究とともに、次のように継続的に更新される。

Data visualization in the form of charts plays a pivotal role in data analysis, offering critical insights and aiding in informed decision-making. Automatic chart understanding has witnessed significant advancements with the rise of large foundation models in recent years. Foundation models, such as large language models, have revolutionized various natural language processing tasks and are increasingly being applied to chart understanding tasks. This survey paper provides a comprehensive overview of the recent developments, challenges, and future directions in chart understanding within the context of these foundation models. We review fundamental building blocks crucial for studying chart understanding tasks. Additionally, we explore various tasks and their evaluation metrics and sources of both charts and textual inputs. Various modeling strategies are then examined, encompassing both classification-based and generation-based approaches, along with tool augmentation techniques that enhance chart understanding performance. Furthermore, we discuss the state-of-the-art performance of each task and discuss how we can improve the performance. Challenges and future directions are addressed, highlighting the importance of several topics, such as domain-specific charts, lack of efforts in developing evaluation metrics, and agent-oriented settings. This survey paper serves as a comprehensive resource for researchers and practitioners in the fields of natural language processing, computer vision, and data analysis, providing valuable insights and directions for future research in chart understanding leveraging large foundation models. The studies mentioned in this paper, along with emerging new research, will be continually updated at: https://github.com/khuangaf/Awesome-Chart-Understanding.
翻訳日:2024-03-27 21:24:37 公開日:2024-03-25
# ゼロショットオブジェクト状態分類のための知識グラフへの大言語モデルからのドメイン特化コンテンツの利用

Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification ( http://arxiv.org/abs/2403.12151v2 )

ライセンス: Link先を確認
Filippos Gouidis, Katerina Papantoniou, Konstantinos Papoutsakis Theodore Patkos, Antonis Argyros, Dimitris Plexousakis, (参考訳) ドメイン固有の知識は、幅広いビジョンタスクへの対処に大きく貢献する。 しかし、そのような知識の創出には相当な人的労働力と時間的コストが伴う。 本研究では,Large Language Models (LLMs) のセマンティック埋め込みによるドメイン固有情報の生成と提供の可能性について検討する。 これを実現するために、LLMは知識グラフと事前訓練されたセマンティックベクターを、ビジョンベースのゼロショットオブジェクト状態分類タスクのコンテキストで使用するパイプラインに統合される。 広範囲なアブレーション研究を通じて, LLMの挙動を徹底的に検討した。 その結果,LLMをベースとした組込みと汎用的な事前学習型組込みを組み合わせることで,大幅な性能向上が期待できることがわかった。 このアブレーション研究から得られた知見を引用し、競合するモデルとの比較分析を行い、提案手法により達成された最先端の性能を明らかにする。

Domain-specific knowledge can significantly contribute to addressing a wide variety of vision tasks. However, the generation of such knowledge entails considerable human labor and time costs. This study investigates the potential of Large Language Models (LLMs) in generating and providing domain-specific information through semantic embeddings. To achieve this, an LLM is integrated into a pipeline that utilizes Knowledge Graphs and pre-trained semantic vectors in the context of the Vision-based Zero-shot Object State Classification task. We thoroughly examine the behavior of the LLM through an extensive ablation study. Our findings reveal that the integration of LLM-based embeddings, in combination with general-purpose pre-trained embeddings, leads to substantial performance improvements. Drawing insights from this ablation study, we conduct a comparative analysis against competing models, thereby highlighting the state-of-the-art performance achieved by the proposed approach.
翻訳日:2024-03-27 21:24:37 公開日:2024-03-25
# グラフベイズ最適化を用いた単一スナップショット観測からの複数音源位置推定

Multiple-Source Localization from a Single-Snapshot Observation Using Graph Bayesian Optimization ( http://arxiv.org/abs/2403.16818v1 )

ライセンス: Link先を確認
Zonghan Zhang, Zijian Zhang, Zhiqian Chen, (参考訳) 様々な応用の重要性から、拡散の危険性に直面する最も重要な手段の1つとして、ソースのローカライゼーションが注目されている。 シングルスナップショット観測によるマルチソースのローカライゼーションは、その頻度が原因で特に重要となる。 しかし、限られた情報、ソース間の相互作用、拡散モデルへの依存など、この問題の本質的な複雑さは、解決に挑戦する。 現在の方法は通常、ヒューリスティックスと欲求選択を利用し、通常は1つの拡散モデルと結合する。 その結果、その効果は制限される。 これらの制約に対処するため,BOSouLと呼ばれるシミュレーションに基づく手法を提案する。 ベイズ最適化(BO)はサンプル効率を近似するために用いられる。 代理関数は、限られた情報から不確実性をモデル化する。 個々のノードの代わりに入力としてノードの集合を取る。 BOSouLは、シミュレーションを通じてデータ取得プロセスに任意の拡散モデルを組み込むことができる。 実験的な研究は、グラフ構造や拡散モデルにまたがってその性能が堅牢であることを示した。 コードはhttps://github.com/XGraph-Team/BOSouL.comで公開されている。

Due to the significance of its various applications, source localization has garnered considerable attention as one of the most important means to confront diffusion hazards. Multi-source localization from a single-snapshot observation is especially relevant due to its prevalence. However, the inherent complexities of this problem, such as limited information, interactions among sources, and dependence on diffusion models, pose challenges to resolution. Current methods typically utilize heuristics and greedy selection, and they are usually bonded with one diffusion model. Consequently, their effectiveness is constrained. To address these limitations, we propose a simulation-based method termed BOSouL. Bayesian optimization (BO) is adopted to approximate the results for its sample efficiency. A surrogate function models uncertainty from the limited information. It takes sets of nodes as the input instead of individual nodes. BOSouL can incorporate any diffusion model in the data acquisition process through simulations. Empirical studies demonstrate that its performance is robust across graph structures and diffusion models. The code is available at https://github.com/XGraph-Team/BOSouL.
翻訳日:2024-03-27 21:05:08 公開日:2024-03-25
# スピンとアイソスピン自由度を持つ2体系に対するニューラルネットワークによるアプローチ

A neural network approach for two-body systems with spin and isospin degrees of freedom ( http://arxiv.org/abs/2403.16819v1 )

ライセンス: Link先を確認
Chuanxin Wang, Tomoya Naito, Jian Li, Haozhao Liang, (参考訳) 本研究では,2体システムの基底状態を計算するための強化された機械学習手法を提案する。 本手法は,従来の手法(内藤,内藤,橋本,Phys.Rev. Research 5, 033189 (2023))と比較して,非完全連結深層ニューラルネットワークと教師なし機械学習技術を用いて,スピンとアイソスピンの自由度を考えることができる。 この方法の妥当性は、重陽子の一意な有界状態を計算することによって検証される。

We propose an enhanced machine learning method to calculate the ground state of two-body systems. Compared to the original method [Naito, Naito, and Hashimoto, Phys. Rev. Research 5, 033189 (2023)], the present method enables one to consider the spin and isospin degrees of freedom by employing a non-fully-connected deep neural network and the unsupervised machine learning technique. The validity of this method is verified by calculating the unique bound state of deuteron.
翻訳日:2024-03-27 21:05:08 公開日:2024-03-25
# 言語間の文脈化されたフレーズ検索

Cross-lingual Contextualized Phrase Retrieval ( http://arxiv.org/abs/2403.16820v1 )

ライセンス: Link先を確認
Huayang Li, Deng Cai, Zhi Qu, Qu Cui, Hidetaka Kamigaito, Lemao Liu, Taro Watanabe, (参考訳) フレーズレベルの高密度検索は、フレーズが提供するきめ細かい情報を活用することで、下流のNLPタスクに多くの魅力的な特徴を示してきた。 本研究では,文脈情報を用いた多義語処理による多義語処理の強化を目的とした,多義語検索,多義語句検索の新たなタスク定式化を提案する。 しかしながら、特定のトレーニングデータやモデルがないことが、私たちの目標を達成するための大きな課題です。 その結果,パラレル文から自動生成される単語アライメント情報を用いて,言語横断句のペアを抽出する。 その後、コントラスト学習を用いて、言語間コンテクスト化されたフレーズ検索(CCPR)を訓練し、類似した文脈と意味を持つフレーズの隠れ表現を、密接に整合させることを奨励する。 言語横断句検索タスクと下流タスク,すなわち機械翻訳の総合的な実験は,CCPRの有効性を実証する。 フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。 CCPRを用いて大言語モデルベースの翻訳を行う場合、WMT16データセット上で、X=>Enからの翻訳に対してBERTScoreの0.7と1.5の平均ゲインを達成する。 私たちのコードとデータは、 \url{https://github.com/ghrua/ccpr_release}で利用可能です。

Phrase-level dense retrieval has shown many appealing characteristics in downstream NLP tasks by leveraging the fine-grained information that phrases offer. In our work, we propose a new task formulation of dense retrieval, cross-lingual contextualized phrase retrieval, which aims to augment cross-lingual applications by addressing polysemy using context information. However, the lack of specific training data and models are the primary challenges to achieve our goal. As a result, we extract pairs of cross-lingual phrases using word alignment information automatically induced from parallel sentences. Subsequently, we train our Cross-lingual Contextualized Phrase Retriever (CCPR) using contrastive learning, which encourages the hidden representations of phrases with similar contexts and semantics to align closely. Comprehensive experiments on both the cross-lingual phrase retrieval task and a downstream task, i.e, machine translation, demonstrate the effectiveness of CCPR. On the phrase retrieval task, CCPR surpasses baselines by a significant margin, achieving a top-1 accuracy that is at least 13 points higher. When utilizing CCPR to augment the large-language-model-based translator, it achieves average gains of 0.7 and 1.5 in BERTScore for translations from X=>En and vice versa, respectively, on WMT16 dataset. Our code and data are available at \url{https://github.com/ghrua/ccpr_release}.
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# ハイブリッドLiFiおよびWiFiネットワークにおける資源・モビリティ管理 : ユーザ中心学習アプローチ

Resource and Mobility Management in Hybrid LiFi and WiFi Networks: A User-Centric Learning Approach ( http://arxiv.org/abs/2403.16823v1 )

ライセンス: Link先を確認
Han Ji, Xiping Wu, (参考訳) LiFi(Hybrid Lightfidelity)とWiFi(Wi-Fifidelity)ネットワーク(HLWNets)は、LiFiの可視光スペクトルとWi-Fiのユビキタス通信の利点を組み合わせた、新興の屋内無線通信パラダイムである。 一方、ロードバランシング(LB)は、そのようなハイブリッドネットワークのリソース管理において重要な課題となっている。 既存のLBメソッドは、主にネットワーク中心であり、ユーザー全員にソリューションを作るために中央のユニットに依存している。 結果として、ソリューションは、移行状況に関わらず、すべてのユーザに対して、同じペースで更新される必要があります。 これは2つの面でネットワーク性能に影響する。 一 更新頻度が低いときは、急速移動利用者の接続を損なうこと。 二 更新頻度が高いときは、不要なハンドオーバを発生させ、かつ、スロームーブなユーザーにとって重いフィードバックコストを発生させる。 そこで本研究では,ユーザが異なるペースでソリューションを更新できるユーザ中心のLBについて検討する。 本研究は、準静電チャネルで個人ユーザに対してLBを実行できる適応的ターゲット条件ニューラルネットワーク(ATCNN)に関するこれまでの研究に基づいて開発された。 本稿では,個々のユーザに対して適応的な更新間隔を実現するために,ディープニューラルネットワーク(DNN)モデルを設計する。 この新モデルは、モビリティ支援ニューラルネットワーク(MSNN)と呼ばれる。 資源管理と移動管理を同時に行うため,MSNN とATCNN を連携させるため,MSNN をモビリティ支援 ATCNN (MS-ATCNN) という,ユーザ中心の LB フレームワークを提案する。 その結果,MS-ATCNNは平均更新間隔の同じレベルで,ゲーム理論などの従来のLB手法よりも最大215\%高いスループットを達成できることがわかった。 さらに、MS-ATCNNは100s$\mu$sの超低ランタイムを消費し、ゲーム理論よりも2~3桁低い。

Hybrid light fidelity (LiFi) and wireless fidelity (WiFi) networks (HLWNets) are an emerging indoor wireless communication paradigm, which combines the advantages of the capacious optical spectra of LiFi and ubiquitous coverage of WiFi. Meanwhile, load balancing (LB) becomes a key challenge in resource management for such hybrid networks. The existing LB methods are mostly network-centric, relying on a central unit to make a solution for the users all at once. Consequently, the solution needs to be updated for all users at the same pace, regardless of their moving status. This would affect the network performance in two aspects: i) when the update frequency is low, it would compromise the connectivity of fast-moving users; ii) when the update frequency is high, it would cause unnecessary handovers as well as hefty feedback costs for slow-moving users. Motivated by this, we investigate user-centric LB which allows users to update their solutions at different paces. The research is developed upon our previous work on adaptive target-condition neural network (ATCNN), which can conduct LB for individual users in quasi-static channels. In this paper, a deep neural network (DNN) model is designed to enable an adaptive update interval for each individual user. This new model is termed as mobility-supporting neural network (MSNN). Associating MSNN with ATCNN, a user-centric LB framework named mobility-supporting ATCNN (MS-ATCNN) is proposed to handle resource management and mobility management simultaneously. Results show that at the same level of average update interval, MS-ATCNN can achieve a network throughput up to 215\% higher than conventional LB methods such as game theory, especially for a larger number of users. In addition, MS-ATCNN costs an ultra low runtime at the level of 100s $\mu$s, which is two to three orders of magnitude lower than game theory.
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# 政策再利用について:他の政策を呼ぶ一般政策を表現・実行するための表現言語

On Policy Reuse: An Expressive Language for Representing and Executing General Policies that Call Other Policies ( http://arxiv.org/abs/2403.16824v1 )

ライセンス: Link先を確認
Blai Bonet, Dominik Drexler, Hector Geffner, (参考訳) 近年,一般政策や問題分解(スケッチ)を表現・学習するためのシンプルだが強力な言語が,ブール関数と数値関数の集合上で定義された規則によって導入された。 本研究では、ポリシーとスケッチをより柔軟かつ再利用可能なものにすることを目的とした、この言語の3つの拡張について検討する。内部メモリ状態、有限状態コントローラのように、値が状態の関数であるインデックス的特徴、オブジェクトをロード可能な複数の内部レジスタ、ポリシーとスケッチをラップし、パラメータを渡すことで相互に呼び出しを可能にするモジュール。 さらに、基底アクションではなく状態遷移を選択する一般的なポリシーとは異なり、新しい言語はそのようなアクションを選択することができる。 ポリシーとスケッチの結果として得られる言語の表現力は、いくつかの例で説明されている。

Recently, a simple but powerful language for expressing and learning general policies and problem decompositions (sketches) has been introduced in terms of rules defined over a set of Boolean and numerical features. In this work, we consider three extensions of this language aimed at making policies and sketches more flexible and reusable: internal memory states, as in finite state controllers; indexical features, whose values are a function of the state and a number of internal registers that can be loaded with objects; and modules that wrap up policies and sketches and allow them to call each other by passing parameters. In addition, unlike general policies that select state transitions rather than ground actions, the new language allows for the selection of such actions. The expressive power of the resulting language for policies and sketches is illustrated through a number of examples.
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# オンラインニューラルアクター臨界アルゴリズムの弱収束解析

Weak Convergence Analysis of Online Neural Actor-Critic Algorithms ( http://arxiv.org/abs/2403.16825v1 )

ライセンス: Link先を確認
Samuel Chun-Hei Lam, Justin Sirignano, Ziheng Wang, (参考訳) オンラインアクター批判アルゴリズムを用いてトレーニングされた単一層ニューラルネットワークは、隠れた単位数とトレーニングステップ数$\rightarrow \infty$としてランダムな常微分方程式(ODE)に分布することを示した。 オンラインアクター批判アルゴリズムでは、モデルが更新されるとデータサンプルの分布が動的に変化する。 固定されたアクターポリシーの下でデータサンプルの幾何学的エルゴディディティを確立する。 そして、ポアソン方程式を用いて、パラメータの更新数が$\rightarrow \infty$ となると、ランダムに到着するデータサンプルによる極限分布の周りのモデルのゆらぎが消えることを証明する。 ポアソン方程式と弱収束法を用いて、アクターニューラルネットワークと批評家ニューラルネットワークがランダムな初期条件を持つODE系の解に収束することを証明した。 制限ODEの分析は、制限批評家ネットワークが真の値関数に収束し、アクターに漸近的に偏りのないポリシー勾配の推定を与えることを示している。 次に、制限されたアクターネットワークが定常点に収束することを証明する。

We prove that a single-layer neural network trained with the online actor critic algorithm converges in distribution to a random ordinary differential equation (ODE) as the number of hidden units and the number of training steps $\rightarrow \infty$. In the online actor-critic algorithm, the distribution of the data samples dynamically changes as the model is updated, which is a key challenge for any convergence analysis. We establish the geometric ergodicity of the data samples under a fixed actor policy. Then, using a Poisson equation, we prove that the fluctuations of the model updates around the limit distribution due to the randomly-arriving data samples vanish as the number of parameter updates $\rightarrow \infty$. Using the Poisson equation and weak convergence techniques, we prove that the actor neural network and critic neural network converge to the solutions of a system of ODEs with random initial conditions. Analysis of the limit ODE shows that the limit critic network will converge to the true value function, which will provide the actor an asymptotically unbiased estimate of the policy gradient. We then prove that the limit actor network will converge to a stationary point.
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# 啓蒙を探る - 研究ソフトウェア工学チームにおけるエビデンスに基づく実践手法の導入

Seeking Enlightenment: Incorporating Evidence-Based Practice Techniques in a Research Software Engineering Team ( http://arxiv.org/abs/2403.16827v1 )

ライセンス: Link先を確認
Reed Milewicz, Jon Bisila, Miranda Mundt, Joshua Teves, (参考訳) ソフトウェア工学におけるエビデンスベースの実践(EBP)は、実践者の専門的判断と研究の質の高い証拠を補完することにより、ソフトウェア開発における意思決定を改善することを目的としている。 EBP技術の使用は、ソフトウェア工学のベストプラクティスを科学ソフトウェア開発にもたらすために、研究ソフトウェアエンジニア(RSE)にとって有用であると考えています。 本研究では、サンディア国立研究所の RSE チーム内で、特定の EBP 技術の使用経験報告、迅速なレビュー、および RSE コミュニティにおける EBP 導入の障壁に対処するための実践的レコメンデーションを提案する。

Evidence-based practice (EBP) in software engineering aims to improve decision-making in software development by complementing practitioners' professional judgment with high-quality evidence from research. We believe the use of EBP techniques may be helpful for research software engineers (RSEs) in their work to bring software engineering best practices to scientific software development. In this study, we present an experience report on the use of a particular EBP technique, rapid reviews, within an RSE team at Sandia National Laboratories, and present practical recommendations for how to address barriers to EBP adoption within the RSE community.
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# モデルフリーエントロピー規則化逆強化学習アルゴリズムの収束性

Convergence of a model-free entropy-regularized inverse reinforcement learning algorithm ( http://arxiv.org/abs/2403.16829v1 )

ライセンス: Link先を確認
Titouan Renard, Andreas Schlaginhaufen, Tingting Ni, Maryam Kamgarpour, (参考訳) 専門家によるデモンストレーションのデータセットが与えられた場合、逆強化学習(IRL)は、専門家が最適な報酬を回復することを目的としている。 本研究では,エントロピー規則化IRL問題を解くためのモデルフリーアルゴリズムを提案する。 特に、報酬には確率勾配降下更新、ポリシーには確率的ソフトポリシー反復更新を用いる。 生成モデルへのアクセスを仮定すると、我々のアルゴリズムは、Markov決定プロセス(MDP)のサンプルを$\mathcal{O}(1/\varepsilon^{2})を用いて、専門家の報酬が$\varepsilon$-optimalであることを示す。 さらに、$\mathcal{O}(1/\varepsilon^{4})$サンプルを用いて、得られた報酬に対応する最適ポリシーが全変動距離のエキスパートポリシーに対して$\varepsilon$-closeであることを示す。

Given a dataset of expert demonstrations, inverse reinforcement learning (IRL) aims to recover a reward for which the expert is optimal. This work proposes a model-free algorithm to solve entropy-regularized IRL problem. In particular, we employ a stochastic gradient descent update for the reward and a stochastic soft policy iteration update for the policy. Assuming access to a generative model, we prove that our algorithm is guaranteed to recover a reward for which the expert is $\varepsilon$-optimal using $\mathcal{O}(1/\varepsilon^{2})$ samples of the Markov decision process (MDP). Furthermore, with $\mathcal{O}(1/\varepsilon^{4})$ samples we prove that the optimal policy corresponding to the recovered reward is $\varepsilon$-close to the expert policy in total variation distance.
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# UrbanVLP: 都市指標予測のためのマルチグラニュラリティビジョンランゲージ事前学習基盤モデル

UrbanVLP: A Multi-Granularity Vision-Language Pre-Trained Foundation Model for Urban Indicator Prediction ( http://arxiv.org/abs/2403.16831v1 )

ライセンス: Link先を確認
Xixuan Hao, Wei Chen, Yibo Yan, Siru Zhong, Kun Wang, Qingsong Wen, Yuxuan Liang, (参考訳) 都市指標予測は、データ駆動手法を用いて、多様な都市景観における社会経済指標を推定することを目的としている。 しかし、一般的な事前訓練されたモデル、特に衛星画像に依存しているモデルは、二重課題に直面している。 第一に、衛星データからマクロレベルのパターンのみに集中させることは、マイクロレベルの微妙な詳細、例えばある場所でのアーキテクチャの詳細を欠いたバイアスをもたらす可能性がある。 第二に、事前訓練されたモデルにおける解釈可能性の欠如は、都市計画の透明な証拠を提供することにおける実用性を制限している。 これらの問題に対応するために,本論文では,新しいビジョンランゲージ事前学習モデル(UrbanVLP)を考案する。 我々のUrbanVLPは、マクロ(サテライト)レベルとマイクロ(ストリートビュー)レベルの複数粒度情報をシームレスに統合し、事前訓練されたモデルの制限を克服します。 さらに、自動テキスト生成と校正を導入し、都市画像の高品質なテキスト記述を作成することにより、下流アプリケーションにおける解釈可能性を高める。 社会経済の6つの課題にまたがる厳密な実験は、UrbanVLPの優れたパフォーマンスを浮き彫りにした。 実用性を検証するためのWebプラットフォームも展開しています。

Urban indicator prediction aims to infer socio-economic metrics in diverse urban landscapes using data-driven methods. However, prevalent pre-trained models, particularly those reliant on satellite imagery, face dual challenges. Firstly, concentrating solely on macro-level patterns from satellite data may introduce bias, lacking nuanced details at micro levels, such as architectural details at a place. Secondly, the lack of interpretability in pre-trained models limits their utility in providing transparent evidence for urban planning. In response to these issues, we devise a novel Vision-Language Pre-Trained Model (UrbanVLP) in this paper. Our UrbanVLP seamlessly integrates multi-granularity information from both macro (satellite) and micro (street-view) levels, overcoming the limitations of prior pre-trained models. Moreover, it introduces automatic text generation and calibration, elevating interpretability in downstream applications by producing high-quality text descriptions of urban imagery. Rigorous experiments conducted across six socio-economic tasks underscore UrbanVLP's superior performance. We also deploy a web platform to verify its practicality.
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# 2つのストリームから1つのストリームへ:相互プロンプト学習と知識蒸留による効率的なRGB-T追跡

From Two Stream to One Stream: Efficient RGB-T Tracking via Mutual Prompt Learning and Knowledge Distillation ( http://arxiv.org/abs/2403.16834v1 )

ライセンス: Link先を確認
Yang Luo, Xiqing Guo, Hao Li, (参考訳) 可視光と熱赤外変調の相補的な性質から、可視光画像と熱画像(RGB-T追跡と呼ばれる)の融合に基づく物体追跡は近年、研究者から注目されている。 より包括的な情報統合を低コストで実現する方法は、再調査者が探究してきた問題である。 視覚的プロンプト学習にインスパイアされた我々は,クロスモーダルな相互プロンプト学習に基づく新しい2ストリームRGB-T追跡アーキテクチャを設計し,このモデルを教師として利用し,知識蒸留技術による高速学習のための1ストリームの学生モデルを指導した。 また,RGB-Tトラッカーと比較して,教師モデルに匹敵する精度の学習者モデルは,教師モデルよりも3倍以上高速な推論速度を実現した。 (受理した場合はコードは利用可能。)

Due to the complementary nature of visible light and thermal in-frared modalities, object tracking based on the fusion of visible light images and thermal images (referred to as RGB-T tracking) has received increasing attention from researchers in recent years. How to achieve more comprehensive fusion of information from the two modalities at a lower cost has been an issue that re-searchers have been exploring. Inspired by visual prompt learn-ing, we designed a novel two-stream RGB-T tracking architecture based on cross-modal mutual prompt learning, and used this model as a teacher to guide a one-stream student model for rapid learning through knowledge distillation techniques. Extensive experiments have shown that, compared to similar RGB-T track-ers, our designed teacher model achieved the highest precision rate, while the student model, with comparable precision rate to the teacher model, realized an inference speed more than three times faster than the teacher model.(Codes will be available if accepted.)
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# スピン-メカニカルハイブリッド界面に結合したスピンアンサンブルの遠隔冷却

Remote Cooling of Spin-ensembles Coupled to a Spin-mechanical Hybrid Interface ( http://arxiv.org/abs/2403.16839v1 )

ライセンス: Link先を確認
Yang Wang, Durga Dasari, (参考訳) 本稿では,スピンアンサンブル,発振器,単一プローブスピンからなるハイブリッド量子系の基底状態冷却プロトコルを提案する。 スピンと発振器の間の弱い分散結合限界において、プローブスピンの頻繁な測定によるバックアクション効果はハイブリッドシステムの指数冷却を可能にする。 我々は、アンサンブル、発振器、またはその熱基底状態に冷却するために必要なパラメータ状態を特定する。 本研究は, 大きなスピンアンサンブルを冷却・分極する実用的なソリューションの開発に寄与する。 さらに、弱い結合であっても、そのようなアンサンブル・オシレータハイブリッドシステムの力学における大きな変化は、単一のスピンを操作することで達成できることが示される。 この結果は、ハイブリッドシステムの力学を比較的単純な方法でチューニングする手段を提供し、マクロな物体の絡み合った状態を作成するなど、多くの量子技術応用の進歩を促進する可能性がある。

We present here a protocol for the ground-state cooling of a hybrid quantum system consisting of a spin ensemble, an oscillator, and a single probe spin. In the weak dispersive coupling limit between the spins and the oscillator, a back-action effect from frequent measurements of the probe spin allows exponential cooling of the hybrid system. We identify the parameter regimes necessary to cool the ensemble, the oscillator, or both to their thermal ground states. Our results contribute to the development of a practical solution for cooling/polarizing large spin ensembles. More importantly, we show that even with weak coupling, significant changes in the dynamics of such ensemble-oscillator hybrid systems can be achieved by manipulating a single spin. This result provides a relatively simple means of tuning the dynamics of a hybrid system, which might facilitate advances in many quantum technology applications such as preparing entangled states in macroscopic objects.
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# LLMエージェントはリフレクトしているか?オンライン学習とゲームにおけるケーススタディ

Do LLM Agents Have Regret? A Case Study in Online Learning and Games ( http://arxiv.org/abs/2403.16843v1 )

ライセンス: Link先を確認
Chanwoo Park, Xiangyu Liu, Asuman Ozdaglar, Kaiqing Zhang, (参考訳) 大規模言語モデル(LLM)は、LLMベースの自律エージェントの開発を通じて、(対話的な)意思決定にますます採用されている。 彼らの成功にもかかわらず、意思決定におけるLLMエージェントの性能は、特に実世界のLLMエージェントアプリケーションにおける典型的なシナリオである、相互に相互作用するマルチエージェント設定において、定量化によって完全には研究されていない。 対話型環境におけるLLMエージェントの限界をよりよく理解するために,オンライン学習とゲーム理論におけるベンチマーク決定設定におけるそれらの相互作用について,emph{regret}のパフォーマンス指標を用いて検討することを提案する。 まず,LLMエージェントが繰り返しプレイすることで対話する際の平衡の出現とともに,標準的(定常的でない)オンライン学習問題における LLM の {no-regret} 挙動を実証的に研究した。 次に、データを生成する人間の意思決定者の教師付き事前学習と合理性モデルについて、LLMエージェントの非回帰行動に関する理論的知見を提供する。 また, GPT-4 などの先進性 LLM が非再発性でない (単純) 症例も同定した。 本研究は,非学習行動を促進するために,教師付き事前学習障害とは対照的に,(最適)行動のラベルを必要としない,新規なemph{unsupervised}トレーニング損失のemph{regret-loss}を提案する。 そして,この損失を最小限に抑えることで,未知の学習アルゴリズムを自動生成する,という最適化の保証を行ない,後悔の少ない最小化に縛られる一般化の統計的保証を確立する。 我々のさらなる実験は、特に上記の『レグレタブル』ケースに対処する上で、後悔の欠如の有効性を実証するものである。

Large language models (LLMs) have been increasingly employed for (interactive) decision-making, via the development of LLM-based autonomous agents. Despite their emerging successes, the performance of LLM agents in decision-making has not been fully investigated through quantitative metrics, especially in the multi-agent setting when they interact with each other, a typical scenario in real-world LLM-agent applications. To better understand the limits of LLM agents in these interactive environments, we propose to study their interactions in benchmark decision-making settings in online learning and game theory, through the performance metric of \emph{regret}. We first empirically study the {no-regret} behaviors of LLMs in canonical (non-stationary) online learning problems, as well as the emergence of equilibria when LLM agents interact through playing repeated games. We then provide some theoretical insights into the no-regret behaviors of LLM agents, under certain assumptions on the supervised pre-training and the rationality model of human decision-makers who generate the data. Notably, we also identify (simple) cases where advanced LLMs such as GPT-4 fail to be no-regret. To promote the no-regret behaviors, we propose a novel \emph{unsupervised} training loss of \emph{regret-loss}, which, in contrast to the supervised pre-training loss, does not require the labels of (optimal) actions. We then establish the statistical guarantee of generalization bound for regret-loss minimization, followed by the optimization guarantee that minimizing such a loss may automatically lead to known no-regret learning algorithms. Our further experiments demonstrate the effectiveness of our regret-loss, especially in addressing the above ``regrettable'' cases.
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# GreeDyとCoDy:動的グラフの事実上の説明

GreeDy and CoDy: Counterfactual Explainers for Dynamic Graphs ( http://arxiv.org/abs/2403.16846v1 )

ライセンス: Link先を確認
Zhan Qu, Daniel Gomm, Michael Färber, (参考訳) TGNN(Temporal Graph Neural Networks)は、時間変化の相互作用を持つ動的グラフのモデリングに不可欠である。 モデル決定を理解するのに不可欠である非現実的な説明は、入力グラフの変化が結果にどのように影響するかを調べる。 本稿では,TGNN に対して,GreeDy (Greedy Explainer for Dynamic Graphs) と CoDy (Counterfactual Explainer for Dynamic Graphs) という2つの新しい非現実的説明手法を提案する。 彼らは説明を探索問題として扱い、モデル予測を変更する入力グラフの修正を求める。 GreeDyは単純で欲張りのアプローチ、CoDyは洗練されたモンテカルロ木探索アルゴリズムを採用している。 実験では、どちらの方法も明確な説明を効果的に生成することを示した。 特に、CoDyは、GreeDyと既存の事実的手法を上回り、重要な反事実的入力を見つける上で、最大で59倍の成功率を持つ。 これは、TGNNの決定を明確にし、その透明性と実践上の信頼性を高めるCoDyの可能性を浮き彫りにしている。

Temporal Graph Neural Networks (TGNNs), crucial for modeling dynamic graphs with time-varying interactions, face a significant challenge in explainability due to their complex model structure. Counterfactual explanations, crucial for understanding model decisions, examine how input graph changes affect outcomes. This paper introduces two novel counterfactual explanation methods for TGNNs: GreeDy (Greedy Explainer for Dynamic Graphs) and CoDy (Counterfactual Explainer for Dynamic Graphs). They treat explanations as a search problem, seeking input graph alterations that alter model predictions. GreeDy uses a simple, greedy approach, while CoDy employs a sophisticated Monte Carlo Tree Search algorithm. Experiments show both methods effectively generate clear explanations. Notably, CoDy outperforms GreeDy and existing factual methods, with up to 59\% higher success rate in finding significant counterfactual inputs. This highlights CoDy's potential in clarifying TGNN decision-making, increasing their transparency and trustworthiness in practice.
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# ID予測としての複数物体追跡

Multiple Object Tracking as ID Prediction ( http://arxiv.org/abs/2403.16848v1 )

ライセンス: Link先を確認
Ruopeng Gao, Yijun Zhang, Limin Wang, (参考訳) マルチプルオブジェクト追跡(MOT)では、トラッキング・バイ・検出手法が長い間テストに立脚しており、オブジェクトの検出と関連性の定義に従ってプロセスを2つの部分に分割している。 堅牢な単一フレーム検出器を活用し、手作りのヒューリスティックアルゴリズムとサロゲートタスクを通じてオブジェクトアソシエーションを後処理のステップとして扱う。 しかし、ヒューリスティックなテクニックの性質は、トレーニングデータのエンドツーエンドの活用を妨げ、複雑なシナリオや斬新なシナリオに直面しながら、ますます面倒で困難な手作業の修正につながる。 本稿では,このオブジェクト関連タスクをコンテキスト内ID予測問題とみなし,MOTIPと呼ばれるベースラインの合理化を提案する。 具体的には、対応するIDをインコンテキストプロンプトとして考慮し、対象を過去の軌跡情報に埋め込み、次に、現在のフレーム内のオブジェクトのIDラベルを直接予測する。 このエンドツーエンドのプロセスのおかげで、MOTIPはトレーニングデータから直接トラッキング機能を学び、面倒な手作りのアルゴリズムから解放される。 ベルや笛を使わずに,DanceTrackやSportsMOTのような複雑なシナリオで最先端のパフォーマンスを実現し,MOT17の他のトランスフォーマーベース手法と競合する。 我々はMOTIPが目覚ましい可能性を示し、将来の研究の出発点となると信じている。 コードはhttps://github.com/MCG-NJU/MOTIPで入手できる。

In Multiple Object Tracking (MOT), tracking-by-detection methods have stood the test for a long time, which split the process into two parts according to the definition: object detection and association. They leverage robust single-frame detectors and treat object association as a post-processing step through hand-crafted heuristic algorithms and surrogate tasks. However, the nature of heuristic techniques prevents end-to-end exploitation of training data, leading to increasingly cumbersome and challenging manual modification while facing complicated or novel scenarios. In this paper, we regard this object association task as an End-to-End in-context ID prediction problem and propose a streamlined baseline called MOTIP. Specifically, we form the target embeddings into historical trajectory information while considering the corresponding IDs as in-context prompts, then directly predict the ID labels for the objects in the current frame. Thanks to this end-to-end process, MOTIP can learn tracking capabilities straight from training data, freeing itself from burdensome hand-crafted algorithms. Without bells and whistles, our method achieves impressive state-of-the-art performance in complex scenarios like DanceTrack and SportsMOT, and it performs competitively with other transformer-based methods on MOT17. We believe that MOTIP demonstrates remarkable potential and can serve as a starting point for future research. The code is available at https://github.com/MCG-NJU/MOTIP.
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# 高温ギブス状態は非絡み合いで効率よく準備できる

High-Temperature Gibbs States are Unentangled and Efficiently Preparable ( http://arxiv.org/abs/2403.16850v1 )

ライセンス: Link先を確認
Ainesh Bakshi, Allen Liu, Ankur Moitra, Ewin Tang, (参考訳) 局所ハミルトンの熱状態は一定温度以上で分離可能であることを示す。 具体的には、次数$\mathfrak{d}$のグラフ上の局所ハミルトン$H$に対して、そのギブス状態は逆温度$\beta$で、$\rho =e^{-\beta H}/ \textrm{tr}(e^{-\beta H})$と表記される。 この熱的絡み合いの突然の死は、ギブス状態における短距離量子相関の存在に関する従来の知恵を裏付ける。 さらに,製品状態の分布から効率的にサンプルを採取できることが示される。 特に、任意の$\beta < 1/(c \mathfrak{d}^3)$に対して、深さ1量子回路と$\textrm{poly}(n) \log(1/\epsilon)$古典的オーバーヘッドを持つトレース距離で$\rho$に$\epsilon$-closeを作成できる。 ギブス状態を作成するタスクの優先順位は、超ポリノミカル量子スピードアップを達成するための自然な候補である。

We show that thermal states of local Hamiltonians are separable above a constant temperature. Specifically, for a local Hamiltonian $H$ on a graph with degree $\mathfrak{d}$, its Gibbs state at inverse temperature $\beta$, denoted by $\rho =e^{-\beta H}/ \textrm{tr}(e^{-\beta H})$, is a classical distribution over product states for all $\beta < 1/(c\mathfrak{d})$, where $c$ is a constant. This sudden death of thermal entanglement upends conventional wisdom about the presence of short-range quantum correlations in Gibbs states. Moreover, we show that we can efficiently sample from the distribution over product states. In particular, for any $\beta < 1/( c \mathfrak{d}^3)$, we can prepare a state $\epsilon$-close to $\rho$ in trace distance with a depth-one quantum circuit and $\textrm{poly}(n) \log(1/\epsilon)$ classical overhead. A priori the task of preparing a Gibbs state is a natural candidate for achieving super-polynomial quantum speedups, but our results rule out this possibility above a fixed constant temperature.
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# ChatGPTはTwitterの言及に基づいて記事のリトラクションを予測することができるか?

Can ChatGPT predict article retraction based on Twitter mentions? ( http://arxiv.org/abs/2403.16851v1 )

ライセンス: Link先を確認
Er-Te Zheng, Hui-Zhen Fu, Zhichao Fang, (参考訳) 問題のある研究項目をタイムリーに検出することは重要な課題である。 本研究は、Twitterが記事の削除に先立って、記事の削除が潜在的な問題を引き起こすかどうかを考察し、問題のある記事の削除を予測する役割を担っている。 3,505個の抽出された記事とその関連Twitter言及からなるデータセットを、Coarsened Exact Matching法による類似特性を持つ3,505個の非抽出記事とともに分析する。 記事のリトラクションの予測におけるTwitterの言及の有効性は、手動ラベリング、キーワード識別、機械学習モデル、ChatGPTなどの4つの予測方法によって評価されている。 手動ラベリングの結果は、Twitterが言及した記事に、削除前に問題を示す明らかな証拠が含まれていることを示唆しているが、Twitterが言及した全記事(約16%)のごく一部しか表示していないことを示唆している。 手動ラベリングの結果をベースラインとして、ChatGPTは他の方法と比較して優れた性能を示し、記事の削除を予測するための人間の判断を支援する可能性を示唆している。 本研究は, 論文削除の早期警告システムとして, ソーシャルメディアイベントの可能性と限界を明らかにし, 研究の完全性を促進するために, 生成人工知能の潜在的な応用に光を当てるものである。

Detecting problematic research articles timely is a vital task. This study explores whether Twitter mentions of retracted articles can signal potential problems with the articles prior to retraction, thereby playing a role in predicting future retraction of problematic articles. A dataset comprising 3,505 retracted articles and their associated Twitter mentions is analyzed, alongside 3,505 non-retracted articles with similar characteristics obtained using the Coarsened Exact Matching method. The effectiveness of Twitter mentions in predicting article retraction is evaluated by four prediction methods, including manual labelling, keyword identification, machine learning models, and ChatGPT. Manual labelling results indicate that there are indeed retracted articles with their Twitter mentions containing recognizable evidence signaling problems before retraction, although they represent only a limited share of all retracted articles with Twitter mention data (approximately 16%). Using the manual labelling results as the baseline, ChatGPT demonstrates superior performance compared to other methods, implying its potential in assisting human judgment for predicting article retraction. This study uncovers both the potential and limitation of social media events as an early warning system for article retraction, shedding light on a potential application of generative artificial intelligence in promoting research integrity.
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# 法的なアウトカム予測モデルにおける説明可能性に向けて

Towards Explainability in Legal Outcome Prediction Models ( http://arxiv.org/abs/2403.16852v1 )

ライセンス: Link先を確認
Josef Valvoda, Ryan Cotterell, (参考訳) 現在の法的結果予測モデル - 法的なNLPの基盤 - は、彼らの推論を説明していない。 しかし、これらのモデルを現実世界で活用するには、人間の法的なアクターが彼らの決定を理解する必要がある。 慣習法の場合、法律実務者は、前例として知られる過去の事件法を参照して事件の結末を判断する。 そこで我々は,従来のNLPモデルに対する説明可能性の自然な方法として,先例を論じる。 本稿では,法的な結果予測モデルが採用した先例を特定するための新しい手法を提案する。 さらに, 法的な先例の分類法を開発することにより, 人間の判断とモデルを比較し, それらが依存する先例の種類を比較できる。 モデルが合理的に結果を予測することを学習する一方で、前例の使用は人間の判断とは違い、ということがわかりました。

Current legal outcome prediction models - a staple of legal NLP - do not explain their reasoning. However, to employ these models in the real world, human legal actors need to be able to understand their decisions. In the case of common law, legal practitioners reason towards the outcome of a case by referring to past case law, known as precedent. We contend that precedent is, therefore, a natural way of facilitating explainability for legal NLP models. In this paper, we contribute a novel method for identifying the precedent employed by legal outcome prediction models. Furthermore, by developing a taxonomy of legal precedent, we are able to compare human judges and our models with respect to the different types of precedent they rely on. We find that while the models learn to predict outcomes reasonably well, their use of precedent is unlike that of human judges.
翻訳日:2024-03-27 20:54:11 公開日:2024-03-25
# 複数の専門家のLLMをジェネラリストとして、エキスパートのToken Routingを通じてシンジケートする

An Expert is Worth One Token: Synergizing Multiple Expert LLMs as Generalist via Expert Token Routing ( http://arxiv.org/abs/2403.16854v1 )

ライセンス: Link先を確認
Ziwei Chai, Guoyin Wang, Jing Su, Tianjie Zhang, Xuanwen Huang, Xuwu Wang, Jingjing Xu, Jianbo Yuan, Hongxia Yang, Fei Wu, Yang Yang, (参考訳) 本稿では,複数の専門家LLMのシームレスな統合を支援する汎用フレームワークであるExpert-Token-Routingを紹介する。 我々のフレームワークは,メタLLMの語彙内の特別な専門家トークンとして,専門家LLMを表現している。 メタLSMは、新しいトークンを生成するように、専門家のLSMにルーティングすることができる。 Expert-Token-Routingは、既存の命令データセットから専門家のLLMの暗黙の専門知識を学ぶことをサポートするだけでなく、プラグイン・アンド・プレイで新しい専門家のLLMを動的に拡張することを可能にする。 また、ユーザの視点からは詳細なコラボレーションプロセスを隠蔽し、独特なLLMのように対話を容易にする。 本フレームワークは,6つの異なる専門家ドメインを組み込んだベンチマークにおいて,複数の専門家LLMを相乗化して汎用LLMシステムを構築する上での有効性と堅牢性を示すため,既存の複数LLMコラボレーションパラダイムよりも優れていた。

We present Expert-Token-Routing, a unified generalist framework that facilitates seamless integration of multiple expert LLMs. Our framework represents expert LLMs as special expert tokens within the vocabulary of a meta LLM. The meta LLM can route to an expert LLM like generating new tokens. Expert-Token-Routing not only supports learning the implicit expertise of expert LLMs from existing instruction dataset but also allows for dynamic extension of new expert LLMs in a plug-and-play manner. It also conceals the detailed collaboration process from the user's perspective, facilitating interaction as though it were a singular LLM. Our framework outperforms various existing multi-LLM collaboration paradigms across benchmarks that incorporate six diverse expert domains, demonstrating effectiveness and robustness in building generalist LLM system via synergizing multiple expert LLMs.
翻訳日:2024-03-27 20:44:21 公開日:2024-03-25
# 制約条件下での複数のマルコフ源のセマンティック・アウェアリモート推定

Semantic-Aware Remote Estimation of Multiple Markov Sources Under Constraints ( http://arxiv.org/abs/2403.16855v1 )

ライセンス: Link先を確認
Jiping Luo, Nikolaos Pappas, (参考訳) 本稿では,複数のマルコフ源の損失・速度制約チャネル上でのリモート推定のためのセマンティック・アウェア通信について検討する。 すべてのソース状態を等しく扱う既存の研究とは異なり、情報のセマンティクスを利用して、リモートアクチュエータは異なる状態の推定誤差に対して異なる許容値を持つと考えている。 本研究では,送信周波数制約下での予測誤差の長期的状態依存コストを最小限に抑えるための最適スケジューリングポリシーを提案する。 平均コスト制約マルコフ決定過程(CMDP)理論とラグランジアン動的計画法を利用して最適政策の構造を理論的に示す。 最適な構造的結果を活用することで,交差探索と相対値反復 (Insec-RVI) と呼ばれる新しいポリシー探索アルゴリズムを開発し,数回の反復で最適ポリシーを見つけることができる。 MDPの ‘curse of dimensionality' を回避するために,Lyapunov 最適化定理に基づくオンライン低複雑さドリフトプラスペナルティ (DPP) スケジューリングアルゴリズムを提案する。 また、チャネルやソース統計の優先順位を知らずに最適なポリシーを推定するために、効率的な平均コストQ-ラーニングアルゴリズムを設計する。 数値的な結果から, 連続送信は効率が悪く, 重要情報のタイミングを生かして, 少ない送信を戦略的に活用することで, セマンティック・アウェア・ポリシーが最適に達成できることが示唆された。

This paper studies semantic-aware communication for remote estimation of multiple Markov sources over a lossy and rate-constrained channel. Unlike most existing studies that treat all source states equally, we exploit the semantics of information and consider that the remote actuator has different tolerances for the estimation errors of different states. We aim to find an optimal scheduling policy that minimizes the long-term state-dependent costs of estimation errors under a transmission frequency constraint. We theoretically show the structure of the optimal policy by leveraging the average-cost Constrained Markov Decision Process (CMDP) theory and the Lagrangian dynamic programming. By exploiting the optimal structural results, we develop a novel policy search algorithm, termed intersection search plus relative value iteration (Insec-RVI), that can find the optimal policy using only a few iterations. To avoid the ``curse of dimensionality'' of MDPs, we propose an online low-complexity drift-plus-penalty (DPP) scheduling algorithm based on the Lyapunov optimization theorem. We also design an efficient average-cost Q-learning algorithm to estimate the optimal policy without knowing a priori the channel and source statistics. Numerical results show that continuous transmission is inefficient, and remarkably, our semantic-aware policies can attain the optimum by strategically utilizing fewer transmissions by exploiting the timing of the important information.
翻訳日:2024-03-27 20:44:21 公開日:2024-03-25
# XAIport:AIモデル開発におけるXAIの早期導入のためのサービスフレームワーク

XAIport: A Service Framework for the Early Adoption of XAI in AI Model Development ( http://arxiv.org/abs/2403.16858v1 )

ライセンス: Link先を確認
Zerui Wang, Yan Liu, Abishek Arumugam Thiruselvi, Abdelwahab Hamou-Lhadj, (参考訳) 本稿では,説明の質,説明の要約は複数のXAIメソッド間で整合性を持つべきであること,アーキテクチャの適合性,XAIメソッドと説明すべきモデルの両方のアーキテクチャスタイルは,フレームワークと互換性がなければならないこと,構成可能な操作,XAIの説明は,機械学習操作と同じような操作性を持つこと,の3点に着目して,説明可能なAI(XAI)の早期導入を提案する。 したがって、AIモデルの説明は再現可能であるべきであり、信頼できるものにすべきである。 我々は、XAIマイクロサービスのフレームワークであるXAIportをOpen APIにカプセル化し、モデル品質保証を学習するための観察として、初期の説明を提供する。 XAIportは、機械学習開発とともに構成可能なXAI操作を可能にする。 XAIをMicrosoft Azure Cognitive Services、Google Cloud Vertex AI、Amazon Rekognitionの3つのクラウドコンピュータビジョンサービスに組み込むことの運用コストを定量化する。 XAIportは、クラウドAIモデルの性能と説明安定性の両方を大幅に改善する。

In this study, we propose the early adoption of Explainable AI (XAI) with a focus on three properties: Quality of explanation, the explanation summaries should be consistent across multiple XAI methods; Architectural Compatibility, for effective integration in XAI, the architecture styles of both the XAI methods and the models to be explained must be compatible with the framework; Configurable operations, XAI explanations are operable, akin to machine learning operations. Thus, an explanation for AI models should be reproducible and tractable to be trustworthy. We present XAIport, a framework of XAI microservices encapsulated into Open APIs to deliver early explanations as observation for learning model quality assurance. XAIport enables configurable XAI operations along with machine learning development. We quantify the operational costs of incorporating XAI with three cloud computer vision services on Microsoft Azure Cognitive Services, Google Cloud Vertex AI, and Amazon Rekognition. Our findings show comparable operational costs between XAI and traditional machine learning, with XAIport significantly improving both cloud AI model performance and explanation stability.
翻訳日:2024-03-27 20:44:21 公開日:2024-03-25
# CipherFormer: ローラウンド複素性を持つ効率的な変圧器プライベート推論

CipherFormer: Efficient Transformer Private Inference with Low Round Complexity ( http://arxiv.org/abs/2403.16860v1 )

ライセンス: Link先を確認
Weize Wang, Yi Kuang, (参考訳) 大規模なトランスフォーマーモデルの推論タスクをクラウドサーバにアウトソースする傾向が強まっている。 しかし、これはアップロード後にクラウドサーバーに暴露されるため、ユーザのプライベートデータに深刻な脅威をもたらす。 いくつかの研究はトランスフォーマーモデルに対してプライベートな推論を提供しようとしたが、数百の通信ラウンドでアプリケーションシナリオが制限された。 ラウンド複雑性を最小限にしたいという欲求から,同相暗号とガーブラー回路を用いた新しいトランスフォーマープライベート推論スキームであるCipherFormerを提案する。 準同型行列乗算を高速に計算するためのプロトコルを提案する。 次に、アテンション機構を変更し、対応するガーブラード回路を設計する。 さらに、軽量な注意機構と混合ビット幅を用いて、精度を維持しつつ、推論遅延を低減する方法について述べる。 テキスト分類タスクにおける高度な同型暗号方式と比較して、我々のモデルは7.7x-11.9倍の高速化でプライベート推論を行い、精度を3%から11%向上させる。

There is a growing trend to outsource the inference task of large transformer models to cloud servers. However, this poses a severe threat to users' private data as they are exposed to cloud servers after uploading. Although several works attempted to provide private inference for transformer models, their hundreds of communication rounds limit the application scenarios. Motivated by the desire to minimize round complexity, we propose CipherFormer, a novel transformer private inference scheme using homomorphic encryption and garbled circuits. We present a protocol for quickly computing homomorphic matrix multiplications. We then modify the attention mechanism and design the corresponding garbled circuits. Furthermore, we show how to use a lightweight attention mechanism and mixed-bitwidth to reduce the inference latency while maintaining accuracy. In comparison with an advanced homomorphic encryption scheme on text classification tasks, our model improves accuracy by 3% to 11% while performing private inference with a 7.7x-11.9x speedup.
翻訳日:2024-03-27 20:44:21 公開日:2024-03-25
# INPC: レイディアンスフィールドレンダリングのための暗黙のニューラルポイント雲

INPC: Implicit Neural Point Clouds for Radiance Field Rendering ( http://arxiv.org/abs/2403.16862v1 )

ライセンス: Link先を確認
Florian Hahlbohm, Linus Franke, Moritz Kappel, Susana Castillo, Marc Stamminger, Marcus Magnor, (参考訳) 本研究では,非有界現実シーンの再構成と新規ビュー合成のための新しいアプローチを提案する。 ボリュームフィールド,グリッドベースモデル,あるいは離散点クラウドプロキシを用いた従来の手法とは対照的に,連続オクツリーベースの確率場とマルチ解像度のハッシュグリッド内の点雲を暗黙的に符号化するハイブリッドシーン表現を提案する。 我々の新しい暗黙の点クラウド表現と微分可能な双線形ラスタライザは、構造から運動点クラウドのような初期前提に依存することなく、細かな幾何学的詳細を保ちながら高速なレンダリングを可能にします。 提案手法は,複数のベンチマークデータセットを用いて,最先端の画像品質を実現する。 さらに,対話的なフレームレートで高速な推論を実現し,露骨な点雲を抽出して性能をさらに向上させることができる。

We introduce a new approach for reconstruction and novel-view synthesis of unbounded real-world scenes. In contrast to previous methods using either volumetric fields, grid-based models, or discrete point cloud proxies, we propose a hybrid scene representation, which implicitly encodes a point cloud in a continuous octree-based probability field and a multi-resolution hash grid. In doing so, we combine the benefits of both worlds by retaining favorable behavior during optimization: Our novel implicit point cloud representation and differentiable bilinear rasterizer enable fast rendering while preserving fine geometric detail without depending on initial priors like structure-from-motion point clouds. Our method achieves state-of-the-art image quality on several common benchmark datasets. Furthermore, we achieve fast inference at interactive frame rates, and can extract explicit point clouds to further enhance performance.
翻訳日:2024-03-27 20:44:21 公開日:2024-03-25
# SIP:確率的命令摂動によるGPUネイティブスケジューリングの自動チューニング

SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation ( http://arxiv.org/abs/2403.16863v1 )

ライセンス: Link先を確認
Guoliang He, Eiko Yoneki, (参考訳) 大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。 しかし、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。 したがって、最近の研究は、コンパイラ生成カーネルに頼らず、LLMトレーニングと推論のための専用CUDAカーネルを開発しており、ハードウェアリソースは可能な限り十分に活用されている。 本稿では,GPUネイティブ命令の最適化により,CUDAカーネルを極端に性能向上させる可能性について検討する。 従来の作業とは対照的に、GPUネイティブ命令スケジュールの探索空間を定義することで自動最適化アプローチを採用し、確率探索を適用して最適化を行う。 実験によると、SIPはGPUネイティブの命令スケジュールを自動的に見つけ、最適化されたスケジュールを1000万のテストサンプルでテストすることで、CUDAカーネルのスループットをさらに向上できる。

Large language models (LLMs) have become a significant workload since their appearance. However, they are also computationally expensive as they have billions of parameters and are trained with massive amounts of data. Thus, recent works have developed dedicated CUDA kernels for LLM training and inference instead of relying on compilergenerated ones, so that hardware resources are as fully utilized as possible. In this work, we explore the possibility of GPU native instruction optimization to further push the CUDA kernels to extreme performance. Contrary to prior works, we adopt an automatic optimization approach by defining a search space of possible GPU native instruction schedules, and then we apply stochastic search to perform optimization. Experiments show that SIP can further improve CUDA kernel throughput by automatically discovering better GPU native instruction schedules and the optimized schedules are tested by 10 million test samples.
翻訳日:2024-03-27 20:44:21 公開日:2024-03-25
# 音声言語の自己教師型モデルにおける語彙音の符号化

Encoding of lexical tone in self-supervised models of spoken language ( http://arxiv.org/abs/2403.16865v1 )

ライセンス: Link先を確認
Gaofei Shen, Michaela Watkins, Afra Alishahi, Arianna Bisazza, Grzegorz Chrupała, (参考訳) 自己教師型音声言語モデル(SLM)は、音響、音韻、音韻、構文、意味的レベルから話者特性に至るまで、人間の音声の様々な特徴をコードしている。 音韻の表現に関する先行研究の多くは、音素のような部分的特徴に焦点を当てており、SLMにおける超音韻(トーンやストレスパターンなど)の符号化は、まだ十分に理解されていない。 トーン(Tone)は、世界の言語の半分以上に存在する、上品な特徴である。 本稿では,マンダリンとベトナム語をケーススタディとして,SLMのトーン符号化能力を解析することを目的とする。 SLMは、非音節言語からのデータに基づいて訓練された場合でも、語彙のトーンをかなりの程度にエンコードすることを示す。 さらに、SLMは音色や子音知覚研究において、母国人や非母国人と同様に振る舞うが、同じ発達軌跡をたどることはない。

Interpretability research has shown that self-supervised Spoken Language Models (SLMs) encode a wide variety of features in human speech from the acoustic, phonetic, phonological, syntactic and semantic levels, to speaker characteristics. The bulk of prior research on representations of phonology has focused on segmental features such as phonemes; the encoding of suprasegmental phonology (such as tone and stress patterns) in SLMs is not yet well understood. Tone is a suprasegmental feature that is present in more than half of the world's languages. This paper aims to analyze the tone encoding capabilities of SLMs, using Mandarin and Vietnamese as case studies. We show that SLMs encode lexical tone to a significant degree even when they are trained on data from non-tonal languages. We further find that SLMs behave similarly to native and non-native human participants in tone and consonant perception studies, but they do not follow the same developmental trajectory.
翻訳日:2024-03-27 20:44:21 公開日:2024-03-25
# マルチエージェントシステムのコンフォーマルオフポリティ予測

Conformal Off-Policy Prediction for Multi-Agent Systems ( http://arxiv.org/abs/2403.16871v1 )

ライセンス: Link先を確認
Tom Kuipers, Renukanandan Tumu, Shuo Yang, Milad Kazemi, Rahul Mangharam, Nicola Paoletti, (参考訳) オフポリシー予測(Off-Policy Prediction、OPP)、すなわち、名目上の(行動的)ポリシーの下で収集されたデータのみを用いてターゲットポリシーの結果を予測することは、新しいポリシーの展開が安全でない可能性がある安全クリティカルシステムのデータ駆動分析における最重要問題である。 コンフォーマル・オフ・ポリティ・予測(COPP)に関する最近の研究は、コンフォーマル・オフ・ポリティ・予測(COPP)の枠組みを利用して、目標プロセス下で確率的保証のある予測領域を導出する。 既存のCOPP法は、ポリシースイッチングによって引き起こされる分散シフトを考慮できるが、単一のエージェントシステムとスカラー結果(例えば報酬)に限られる。 本研究では,マルチエージェントシステムに関わるOPP問題を解くための最初の共形予測手法であるMA-COPPを導入し,複数のエージェントがポリシーを変更した場合に,すべてのエージェントの軌道に対する共同予測領域を導出する。 単一エージェントのシナリオとは異なり、この設定では、分散シフトがエゴエージェントだけでなく、すべてのエージェントの予測に影響を及ぼし、予測タスクは報酬値だけでなく、完全な多次元軌跡を含むため、複雑さが増す。 MA-COPPの重要な貢献は、既存のCOPP法が予測領域を構築するために必要とするエージェント軌跡の出力空間の列挙や徹底的な探索を避けることである。 本研究では,JPRトラジェクトリの最大密度比から実JPRの過剰近似を列挙することなく構築可能であることを示す。 我々は,PetttingZooライブラリとF1TENTH自律走行環境のマルチエージェントシステムにおけるMA-COPPの有効性を評価し,高次元および各種シフト設定における名目的カバレッジを実現する。

Off-Policy Prediction (OPP), i.e., predicting the outcomes of a target policy using only data collected under a nominal (behavioural) policy, is a paramount problem in data-driven analysis of safety-critical systems where the deployment of a new policy may be unsafe. To achieve dependable off-policy predictions, recent work on Conformal Off-Policy Prediction (COPP) leverage the conformal prediction framework to derive prediction regions with probabilistic guarantees under the target process. Existing COPP methods can account for the distribution shifts induced by policy switching, but are limited to single-agent systems and scalar outcomes (e.g., rewards). In this work, we introduce MA-COPP, the first conformal prediction method to solve OPP problems involving multi-agent systems, deriving joint prediction regions for all agents' trajectories when one or more "ego" agents change their policies. Unlike the single-agent scenario, this setting introduces higher complexity as the distribution shifts affect predictions for all agents, not just the ego agents, and the prediction task involves full multi-dimensional trajectories, not just reward values. A key contribution of MA-COPP is to avoid enumeration or exhaustive search of the output space of agent trajectories, which is instead required by existing COPP methods to construct the prediction region. We achieve this by showing that an over-approximation of the true JPR can be constructed, without enumeration, from the maximum density ratio of the JPR trajectories. We evaluate the effectiveness of MA-COPP in multi-agent systems from the PettingZoo library and the F1TENTH autonomous racing environment, achieving nominal coverage in higher dimensions and various shift settings.
翻訳日:2024-03-27 20:44:21 公開日:2024-03-25
# 自然界の森を分類する「Proprioception」(動画あり)

Proprioception Is All You Need: Terrain Classification for Boreal Forests ( http://arxiv.org/abs/2403.16877v1 )

ライセンス: Link先を確認
Damien LaRocque, William Guimont-Martin, David-Alexandre Duclos, Philippe Giguère, François Pomerleau, (参考訳) フィールドロボティクスにおける最近の研究は、異なるタイプの地形に対するレジリエンスの重要性を強調した。 特にボレアル森林は、オフロードの自律航法のために考慮すべきモビリティを取り入れた多くの地形がある。 また、地球上で最大の陸生生物の1つであるボレアル森林は、自動運転車がますます一般的になると予想される地域である。 本稿では,プロテアーゼに基づく地形分類(TC)のための公開データセットであるBorealTCを導入することにより,この問題に対処する。 Husky A200で記録されたデータセットには、慣性測定ユニット(IMU)の116分間、モータ電流、車輪の計測データが含まれており、特に雪、氷、シルトロームといった典型的なボレアル森林の地形に焦点を当てている。 我々のデータセットと最先端技術からの別のデータセットを組み合わせることで、畳み込みニューラルネットワーク(CNN)と新しい状態空間モデル(SSM)ベースのMambaアーキテクチャの両方をTCタスク上で評価する。 興味深いことに、CNNは個々のデータセットでMambaよりも優れていますが、両方の組み合わせでトレーニングすると、Mambaはより精度が高くなります。 さらに,Mambaの学習能力は,データ量を増やすためのCNNよりも優れていることを示す。 2つのTCデータセットの組み合わせは、地形の特性で解釈できる潜在空間が得られることを示す。 また、分類における統合データセットの影響についても論じる。 ソースコードとデータセットは、https://github.com/norlab-ulaval/BorealTC.com/で公開されています。

Recent works in field robotics highlighted the importance of resiliency against different types of terrains. Boreal forests, in particular, are home to many mobility-impeding terrains that should be considered for off-road autonomous navigation. Also, being one of the largest land biomes on Earth, boreal forests are an area where autonomous vehicles are expected to become increasingly common. In this paper, we address this issue by introducing BorealTC, a publicly available dataset for proprioceptive-based terrain classification (TC). Recorded with a Husky A200, our dataset contains 116 min of Inertial Measurement Unit (IMU), motor current, and wheel odometry data, focusing on typical boreal forest terrains, notably snow, ice, and silty loam. Combining our dataset with another dataset from the state-of-the-art, we evaluate both a Convolutional Neural Network (CNN) and the novel state space model (SSM)-based Mamba architecture on a TC task. Interestingly, we show that while CNN outperforms Mamba on each separate dataset, Mamba achieves greater accuracy when trained on a combination of both. In addition, we demonstrate that Mamba's learning capacity is greater than a CNN for increasing amounts of data. We show that the combination of two TC datasets yields a latent space that can be interpreted with the properties of the terrains. We also discuss the implications of merging datasets on classification. Our source code and dataset are publicly available online: https://github.com/norlab-ulaval/BorealTC.
翻訳日:2024-03-27 20:44:21 公開日:2024-03-25
# 量子領域で計算可能で計算不可能なこと:7つのステートメントと3つの予想

What is computable and non-computable in the quantum domain: 7 statements and 3 conjectures ( http://arxiv.org/abs/2403.16881v1 )

ライセンス: Link先を確認
Aleksey K. Fedorov, Evgeniy O. Kiktenko, (参考訳) 量子効果に基づく計算装置の開発における最近の進歩と、それを用いた様々なタスクの解決の実証により、量子優位性の起源に関する疑問が現実化している。 量子コンピューティングの優位性の性質を定量化し、特徴づけようとする様々な試みがなされているが、一般の文脈でのこの問題は依然としてオープンである: 量子コンピュータが理論上、実際にスピードアップできる問題の範囲を定義するのに役立つ普遍的なアプローチは存在しない。 ここでは、量子状態の複雑性と到達可能性の概念に基づいて、この問題に対するアプローチをレビューする。 一方、量子コンピューティングに関心を持つ量子状態のクラスは複雑でなければならない。 一方、そのような量子状態は実用的な量子コンピュータ上で到達可能であるべきである。 これは、初期から所望への量子状態の変換に対応するユニタリが、キュービット数で多項式以下である1ビットと2ビットのゲート列に分解できることを意味する。 我々の考察は、様々な量子状態の集合上のステートメントと予想の列を定式化することにより、量子コンピュータで解決できる問題のスコープを理解するための道を開く。

Recent progress in developing computational devices based on quantum effects and demonstrations of solving various tasks using them has actualized the question of the origin of the quantum advantage. Although various attempts to quantify and characterize the nature of quantum computational advantage have been made, this question in the general context remains open: There is no universal approach that helps to define a scope of problems that quantum computers are able to speed up, theoretically and in practice. Here we review an approach to this question based on the concept of complexity and reachability of quantum states. On the one hand, the class of quantum states that is of interest for quantum computing should be complex, i.e. non-simulatable with classical computers with less than exponential resources. On the other hand, such quantum states should be reachable on a practical quantum computer. This means that a unitary corresponding to the transformation of quantum states from initial to desired can be decomposed in a sequence of single- and two-qubit gates with of no more than polynomial in the number of qubits. Our consideration paves the way towards understanding the scope of problems that can be solved by a quantum computer by formulating a sequence of statements and conjectures on various sets of quantum states.
翻訳日:2024-03-27 20:44:21 公開日:2024-03-25
# 拡散ブリッジを用いた離散遅延グラフ生成モデル

Discrete Latent Graph Generative Modeling with Diffusion Bridges ( http://arxiv.org/abs/2403.16883v1 )

ライセンス: Link先を確認
Van Khoa Nguyen, Yoann Boget, Frantzeska Lavda, Alexandros Kalousis, (参考訳) グラフ生成モデルを遅延空間上で学習することは、元のデータ空間で動作するモデルに比べてあまり注目されず、これまでは性能の欠如を実証してきた。 GLADを潜在空間グラフ生成モデルとして提示する。 従来のラテント空間グラフ生成モデルとは異なり、GLADは離散ラテント空間上で動作し、ラテント空間連続性のような不自然な仮定をしないグラフ構造の離散的性質をかなり保存する。 我々は拡散ブリッジをその構造に適応させることで離散潜在空間の先行を学習する。 適切に構築された潜在空間を操作することで、元のデータ空間で動作するモデルでよく使用される分解に依存することを避けることができる。 本稿では,離散潜在空間の優越性を明らかに示し,最先端グラフ生成性能を得る一連のグラフベンチマークデータセットの実験を行い,GLADを競合性能を持つ最初の潜在空間グラフ生成モデルとした。 ソースコードは以下に公開しています。 \url{https://github.com/v18nguye/GLAD}。

Learning graph generative models over latent spaces has received less attention compared to models that operate on the original data space and has so far demonstrated lacklustre performance. We present GLAD a latent space graph generative model. Unlike most previous latent space graph generative models, GLAD operates on a discrete latent space that preserves to a significant extent the discrete nature of the graph structures making no unnatural assumptions such as latent space continuity. We learn the prior of our discrete latent space by adapting diffusion bridges to its structure. By operating over an appropriately constructed latent space we avoid relying on decompositions that are often used in models that operate in the original data space. We present experiments on a series of graph benchmark datasets which clearly show the superiority of the discrete latent space and obtain state of the art graph generative performance, making GLAD the first latent space graph generative model with competitive performance. Our source code is published at: \url{https://github.com/v18nguye/GLAD}.
翻訳日:2024-03-27 20:44:21 公開日:2024-03-25
# CVT-xRF:スパース入力からの3次元連続放射場に対するコントラストインボクセル変換器

CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs ( http://arxiv.org/abs/2403.16885v1 )

ライセンス: Link先を確認
Yingji Zhong, Lanqing Hong, Zhenguo Li, Dan Xu, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、高密度入力でトレーニングされた場合、フォトリアリスティックなノベルビューの合成能力を示す。 しかし、スパース入力のトレーニングにおいて、NeRFは一般的に不正確な密度や色予測の問題に遭遇する。 本稿では,画像面上の色や深度,意味に基づく2次元学習規則化を構築するためのレイレベル整合性について検討する一方で,空間空間の整合性をモデル化し,スパース入力によるNeRFの性能向上を図った新しいアプローチを提案する。 具体的には、3次元空間において、サンプル線が特定のボクセルと交差することを保証するために、まず、ボクセルベースの放射線サンプリング戦略を採用する。 次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。 レンダリング損失をバックプロパゲートすることで、近隣の点間の一貫性を高める。 さらに,トランスフォーマーのエンコーダ出力のコントラスト損失を利用して,各ボクセル内の一貫性をさらに向上することを提案する。 実験により,提案手法はスパース入力設定における異なる放射場に対して大幅に改善され,現在の作業と同等の性能が得られることが示された。

Neural Radiance Fields (NeRF) have shown impressive capabilities for photorealistic novel view synthesis when trained on dense inputs. However, when trained on sparse inputs, NeRF typically encounters issues of incorrect density or color predictions, mainly due to insufficient coverage of the scene causing partial and sparse supervision, thus leading to significant performance degradation. While existing works mainly consider ray-level consistency to construct 2D learning regularization based on rendered color, depth, or semantics on image planes, in this paper we propose a novel approach that models 3D spatial field consistency to improve NeRF's performance with sparse inputs. Specifically, we first adopt a voxel-based ray sampling strategy to ensure that the sampled rays intersect with a certain voxel in 3D space. We then randomly sample additional points within the voxel and apply a Transformer to infer the properties of other points on each ray, which are then incorporated into the volume rendering. By backpropagating through the rendering loss, we enhance the consistency among neighboring points. Additionally, we propose to use a contrastive loss on the encoder output of the Transformer to further improve consistency within each voxel. Experiments demonstrate that our method yields significant improvement over different radiance fields in the sparse inputs setting, and achieves comparable performance with current works.
翻訳日:2024-03-27 20:44:21 公開日:2024-03-25
# 3次元RGB特徴補完とクラスエントロピー損失関数による連続的シーン補完のための平衡RGB-TSDF融合に向けて

Towards Balanced RGB-TSDF Fusion for Consistent Semantic Scene Completion by 3D RGB Feature Completion and a Classwise Entropy Loss Function ( http://arxiv.org/abs/2403.16888v1 )

ライセンス: Link先を確認
Laiyan Ding, Panwen Hu, Jie Li, Rui Huang, (参考訳) セマンティックシーンコンプリート(SSC)は3Dシーンのセマンティックスと占有性を共同で推論することを目的としている。 深度を3次元符号化するTrncated Signed Distance Function (TSDF) は、SSCの一般的な入力である。 さらに、RGB-TSDF融合は、これらの2つのモードがそれぞれ色情報と幾何学情報を提供するので、有望と思われる。 それにもかかわらず、RGB-TSDF融合は非自明なものと考えられており、一般的に使用されるナイーブ付加は矛盾する結果をもたらす。 この不整合性は3次元空間に投影するRGB機能の空間性に起因するが、TSDFの機能は密集しており、合計すると不均衡な特徴マップとなる。 このRGB-TSDF分布差に対処するため、3D RGB機能補完モジュールを内蔵した2段ネットワークを提案する。 さらに,不整合を罰する効果的なクラスワイドエントロピー損失関数を提案する。 公開データセットに対する大規模な実験により、余分なデータを採用しない手法の間で、我々の手法が最先端のパフォーマンスを達成することを確認した。

Semantic Scene Completion (SSC) aims to jointly infer semantics and occupancies of 3D scenes. Truncated Signed Distance Function (TSDF), a 3D encoding of depth, has been a common input for SSC. Furthermore, RGB-TSDF fusion, seems promising since these two modalities provide color and geometry information, respectively. Nevertheless, RGB-TSDF fusion has been considered nontrivial and commonly-used naive addition will result in inconsistent results. We argue that the inconsistency comes from the sparsity of RGB features upon projecting into 3D space, while TSDF features are dense, leading to imbalanced feature maps when summed up. To address this RGB-TSDF distribution difference, we propose a two-stage network with a 3D RGB feature completion module that completes RGB features with meaningful values for occluded areas. Moreover, we propose an effective classwise entropy loss function to punish inconsistency. Extensive experiments on public datasets verify that our method achieves state-of-the-art performance among methods that do not adopt extra data.
翻訳日:2024-03-27 20:44:21 公開日:2024-03-25
# コーディネートとモーメント空間周期性からの不確かさ原理の一般化の説明

Explanation of the Generalizations of Uncertainty Principle from Coordinate and Momentum Space Periodicity ( http://arxiv.org/abs/2403.16893v1 )

ライセンス: Link先を確認
Subir Ghosh, (参考訳) 座標 $x$-momentum $p_x$ Uncertainty Principle, with $\Delta x$ and $\Delta p_x$ dependent terms ($\Delta$ denoting standard deviation), $$\Delta x \Delta p_x\geq i\hbar (1+\alpha\Delta p_x^2 +\beta \Delta x^2)$$$は、量子重力に対する貧しい人のアプローチとして豊富な配当を提供した。 しかし、これらの不確実性原理の拡張は、本質的に純粋に現象論的である。 明示的な構造における固有の曖昧さとは別に、不確実性原理と互換性のある一般化された通勤関係の導入には深刻な欠点がある。 本稿では、これらの一般化された不確かさ原理が、座標空間や運動量空間の周期的性質を仮定した場合、正準量子力学において、完全に自然な方法で現れることを明らかにする。 広く知られている拡張不確実性原理の構造は、角の場合には$\phi$ angular momentum $L_z$, $$\Delta \Delta L_z \geq i\hbar (1 +\nu \Delta \phi^2)$$$\phi $, L_z$ canonical commutation relationを変更することなく、角度変数の周期的性質の一貫性のある実装から純粋に得られる。 この形式を構成に直接適用して、$\Delta x \Delta p_x $ Uncertainty Principle の一般化を定式化する。 天体物理学の文脈で観測された長さスケールを持つ$\beta$を同定する。 我々は$\alpha$拡張について推測する。

Generalizations of coordinate $x$-momentum $p_x$ Uncertainty Principle, with $\Delta x$ and $\Delta p_x$ dependent terms ($\Delta$ denoting standard deviation), $$\Delta x \Delta p_x\geq i\hbar (1+\alpha\Delta p_x^2 +\beta \Delta x^2)$$ have provided rich dividends as a poor person's approach towards Quantum Gravity, because these can introduce coordinate and momentum scales ($\alpha,\beta$ ) that are appealing conceptually. However, these extensions of Uncertainty Principle are purely phenomenological in nature. Apart from the inherent ambiguity in their explicit structures, the introduction of generalized commutations relations compatible with the Uncertainty Principle has serious drawbacks. In the present paper we reveal that these generalized Uncertainty Principles can appear in a perfectly natural way, in canonical quantum mechanics, if one assumes a periodic nature in coordinate or momentum space, as the case may be. We bring in to light quite old, (but no so well known), works by Judge and by Judge and Lewis, that explains in detail how the popularly known structure of Extended Uncertainty Principle is generated in the case of angle $\phi$ angular momentum $L_z$, $$\Delta \phi \Delta L_z \geq i\hbar (1 +\nu \Delta \phi^2)$$ purely from a consistent implementation of periodic nature of the angle variable $\phi $, without changing the $\phi, L_z$ canonical commutation relation. We directly apply this formalism to construction to formulate generalizations in $\Delta x \Delta p_x $ Uncertainty Principle. We identify $\beta$ with an observed length scale relevant in astrophysics context. We speculate about the $\alpha$ extension.
翻訳日:2024-03-27 20:44:21 公開日:2024-03-25
# 「そこにいて、必要なのだから、なぜ使わないの?」「自然科学研究のケーススタディにおいて、ドメインの専門家によるAIシステムのより良い採用を実現する」

"It is there, and you need it, so why do you not use it?" Achieving better adoption of AI systems by domain experts, in the case study of natural science research ( http://arxiv.org/abs/2403.16895v1 )

ライセンス: Link先を確認
Auste Simkute, Ewa Luger, Michael Evans, Rhianne Jones, (参考訳) 人工知能(AI)は、医学や自然科学研究などの分野で普及しつつある。 しかし、実際にAIシステムが実装されている場合、ドメインの専門家はそれを拒否することが多い。 低受け入れは、進歩に不可欠である場合でも、効果的な人間とAIのコラボレーションを妨げる。 自然科学研究において、科学者によるAI対応システムの非効果的な使用は、データを分析して研究を進めるのを妨げる可能性がある。 我々は,アルゴリズムシステムの採用が低い組織において,AI実践者と自然科学者との10回の詳細なインタビューをエスノグラフィ的に調査した。 結果は、より良いAI採用のためのレコメンデーションにまとめられた。 一 システム利用の初期段階において、専門家を積極的に支援すること。 二 利用者関連方式でシステムの能力を伝えること。 三 前定の協力規程に従うこと。 我々は、我々の発見のより広範な意味を議論し、提案された要件がドメイン横断の実践者や専門家をどのように支援できるかを拡大する。

Artificial Intelligence (AI) is becoming ubiquitous in domains such as medicine and natural science research. However, when AI systems are implemented in practice, domain experts often refuse them. Low acceptance hinders effective human-AI collaboration, even when it is essential for progress. In natural science research, scientists' ineffective use of AI-enabled systems can impede them from analysing their data and advancing their research. We conducted an ethnographically informed study of 10 in-depth interviews with AI practitioners and natural scientists at the organisation facing low adoption of algorithmic systems. Results were consolidated into recommendations for better AI adoption: i) actively supporting experts during the initial stages of system use, ii) communicating the capabilities of a system in a user-relevant way, and iii) following predefined collaboration rules. We discuss the broader implications of our findings and expand on how our proposed requirements could support practitioners and experts across domains.
翻訳日:2024-03-27 20:34:33 公開日:2024-03-25
# Make-It-Vivid:テキストからアニメーションの2足のカートゥーン文字をドラッグする

Make-It-Vivid: Dressing Your Animatable Biped Cartoon Characters from Text ( http://arxiv.org/abs/2403.16897v1 )

ライセンス: Link先を確認
Junshu Tang, Yanhong Zeng, Ke Fan, Xuheng Wang, Bo Dai, Kai Chen, Lizhuang Ma, (参考訳) 3D2Dアニメキャラクターの作成とアニメーションは、様々な用途において重要かつ価値のあるものである。 幾何学と比較すると、多彩なテクスチャデザインは、3Dバイペッドの漫画キャラクターを鮮明で魅力的なものにする上で重要な役割を担っている。 そこで本研究では,入力命令に基づく漫画キャラクタの自動テクスチャ設計に焦点をあてる。 これはドメイン固有の要件と高品質なデータの欠如にとって難しい。 この課題に対処するため,UV空間におけるテキストから高品質なテクスチャ生成を可能にする最初の試みであるMake-It-Vividを提案する。 視覚質問応答エージェントを用いて3次元文字の詳細なテキスト・テクスチャ・ペアデータを作成する。 次に、事前訓練されたテキスト・ツー・イメージ・モデルをカスタマイズし、自然な2次元画像知識を保存しながら、テンプレート構造を持つテクスチャマップを生成する。 さらに,細かな詳細性を高めるために,従来のデータセットと現実的なテクスチャ領域とのドメインギャップを短くする,新たな逆学習手法を提案する。 大規模な実験により,本手法は現在のテクスチャ生成方法よりも優れており,文字テクスチャの効率化や,プロンプトによる忠実な生成を実現していることがわかった。 さらに、ドメイン生成やテクスチャのスタイリングなど、さまざまな応用を紹介します。 また,テキスト誘導型テクスチャ文字自動生成とアニメーションのための効率的な生成システムも提供する。

Creating and animating 3D biped cartoon characters is crucial and valuable in various applications. Compared with geometry, the diverse texture design plays an important role in making 3D biped cartoon characters vivid and charming. Therefore, we focus on automatic texture design for cartoon characters based on input instructions. This is challenging for domain-specific requirements and a lack of high-quality data. To address this challenge, we propose Make-It-Vivid, the first attempt to enable high-quality texture generation from text in UV space. We prepare a detailed text-texture paired data for 3D characters by using vision-question-answering agents. Then we customize a pretrained text-to-image model to generate texture map with template structure while preserving the natural 2D image knowledge. Furthermore, to enhance fine-grained details, we propose a novel adversarial learning scheme to shorten the domain gap between original dataset and realistic texture domain. Extensive experiments show that our approach outperforms current texture generation methods, resulting in efficient character texturing and faithful generation with prompts. Besides, we showcase various applications such as out of domain generation and texture stylization. We also provide an efficient generation system for automatic text-guided textured character generation and animation.
翻訳日:2024-03-27 20:34:33 公開日:2024-03-25
# データ汚染に関する考察 : コード言語モデルにおける対策の評価

Concerned with Data Contamination? Assessing Countermeasures in Code Language Model ( http://arxiv.org/abs/2403.16898v1 )

ライセンス: Link先を確認
Jialun Cao, Wuqi Zhang, Shing-Chi Cheung, (参考訳) SEタスクのコード言語モデル(CLM)の機能を活用するために、さまざまなテクニックが提案されている。 これらの手法は一般に一般に公開されているデータセットを用いて有効性を評価するが、評価データセットが既に関連するCLMのトレーニングに使用されているデータ汚染脅威に該当する可能性がある。 これは評価の信頼性に大きな影響を与える可能性がある。 データ汚染の脅威を軽減するために、さまざまな対策が提案されている。 対策としては、最近のデータの使用、新しいデータのキュレーション、既存のデータのリファクタリングなどがあるが、これらの対策が実際にデータ汚染の脅威を軽減し、モデル評価を行うことができるかどうかは不明だ。 このギャップを埋めるために,これらの対策がCLMの性能に与える影響を定量的に研究する。 調査を容易にするため、2018年1月1日から2023年12月31日までのタイムスタンプで200万以上のPython関数を収集しました。 モデルのカットオフ日以前に作成されたデータは「汚染データ」とみなし、対策が取られるデータは「クリーン化データ」とみなす。 各種対策から得られた汚染・浄化データに対するCLMの性能差を調べた結果,これらの対策の効果について検討した。 我々の実験はいくつかの興味深い観察結果をもたらす。 例えば、CLMは、モデルが切り離された後にデータに悪影響を及ぼすとは限らない。 さらに、リファクタリングが必ずしもパフォーマンスを低下させた訳ではなく、代わりに改善につながった。 さらに、パープレキシティのような既存のメトリクスは、汚染された/クレンジされたデータを区別できない。 我々は、CLMの能力の理解を深め、データ汚染についてコミュニティに知らせる上で、結果と観察が役立つことを期待している。

Various techniques have been proposed to leverage the capabilities of code language models (CLMs) for SE tasks. While these techniques typically evaluate their effectiveness using publicly available datasets, the evaluation can be subject to data contamination threats where the evaluation datasets have already been used to train the concerned CLMs. This can significantly affect the reliability of the evaluation. Different countermeasures have been suggested to mitigate the data contamination threat. Countermeasures include using more recent data, curating new data, and refactoring existing data are introduced, yet it is unclear whether these countermeasures could really mitigate data contamination threats to model evaluation. To fill the gap, we systematically study to quantify the impacts of these countermeasures on CLMs' performance. To facilitate the study, we collected over 2 million Python functions with timestamps ranging from January 1st, 2018, to December 31st, 2023. The data created before the models' cut-off date are considered "contaminated data", while the data where the countermeasures are taken are regarded as "cleansed data". We study the impact of these countermeasures by investigating the difference in CLMs' performance on contaminated and cleansed data derived from different countermeasures. Our experiments yield several interesting observations. For instance, CLMs do not necessarily perform worse on data after the models' cut-off date; on the contrary, they sometimes perform better. In addition, refactoring did not always result in decreased performance; it could lead to improvements instead. Furthermore, existing metrics such as perplexity cannot distinguish contaminated/cleansed data. We hope that the results and observations could help deepen the understanding of CLMs' capabilities and inform the community about data contamination.
翻訳日:2024-03-27 20:34:33 公開日:2024-03-25
# 基礎モデルとしての状態空間モデル:制御理論の概要

State Space Models as Foundation Models: A Control Theoretic Overview ( http://arxiv.org/abs/2403.16899v1 )

ライセンス: Link先を確認
Carmen Amo Alonso, Jerome Sieber, Melanie N. Zeilinger, (参考訳) 近年、基礎モデルのディープニューラルネットワークアーキテクチャに線形状態空間モデル(SSM)を統合することへの関心が高まっている。 これは最近のMambaの成功によって実証され、言語タスクにおける最先端のTransformerアーキテクチャよりも優れたパフォーマンスを示している。 eg GPT-4のような基礎モデルは、圧縮されたデータの表現を学ぶために、シーケンシャルデータを潜在空間にエンコードすることを目的としている。 同じ目的は、SSMを使って動的システムを効率的にモデル化する制御理論家によって追求されている。 したがって、SSMはディープ・シークエンス・モデリングと自然に結びつくことができ、対応する研究領域間のシナジーを生み出す機会を提供する。 本稿では、制御理論家のためのSSMベースのアーキテクチャの穏やかな導入を意図し、最新の研究成果を要約する。 もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。 さらに、これらのモデルの比較分析を行い、長列学習におけるモデルの効率を評価するために設計された標準ベンチマークでそれらの性能を評価する。

In recent years, there has been a growing interest in integrating linear state-space models (SSM) in deep neural network architectures of foundation models. This is exemplified by the recent success of Mamba, showing better performance than the state-of-the-art Transformer architectures in language tasks. Foundation models, like e.g. GPT-4, aim to encode sequential data into a latent space in order to learn a compressed representation of the data. The same goal has been pursued by control theorists using SSMs to efficiently model dynamical systems. Therefore, SSMs can be naturally connected to deep sequence modeling, offering the opportunity to create synergies between the corresponding research areas. This paper is intended as a gentle introduction to SSM-based architectures for control theorists and summarizes the latest research developments. It provides a systematic review of the most successful SSM proposals and highlights their main features from a control theoretic perspective. Additionally, we present a comparative analysis of these models, evaluating their performance on a standardized benchmark designed for assessing a model's efficiency at learning long sequences.
翻訳日:2024-03-27 20:34:33 公開日:2024-03-25
# 安全で信頼できるスマートコントラクトを目指して

Towards Secure and Trusted-by-Design Smart Contracts ( http://arxiv.org/abs/2403.16903v1 )

ライセンス: Link先を確認
Zaynah Dargaye, Önder Gürcan, Florent Kirchner, Sara Tucci-Piergiovanni, (参考訳) 分散不変台帳(あるいはブロックチェーン)は、信頼できるサードパーティに頼ることなく、明白なトランザクションのセキュアなデジタル化を可能にする。 証拠取引には、金銭、出生証明書、ビザ、チケットなど、あらゆる形の物的証拠の交換が含まれる。 多くの場合、明らかなトランザクションは、物理的なエージェントの間で、明らかなプロトコルと呼ばれる複雑な手続きの文脈で発生する。 ブロックチェーンはエビデンスを転送するメカニズムを提供する一方で、スマートコントラクト — 分散型で複製された方法でブロックチェーン内で実行されるプログラム — は、ブロックチェーン上に公開プロトコルをエンコードすることを可能にする。 スマートコントラクトは信頼できるサードパーティを先導し、匿名で複数のマシン上で動作するため、セキュアで信頼性の高い設計のプログラムを構成する。 現在のスマートコントラクト言語のほとんどはプログラム容易性に重点を置いているが、信頼と説明責任の保証の必要性に直接対処するものではない。

Distributed immutable ledgers, or blockchains, allow the secure digitization of evidential transactions without relying on a trusted third-party. Evidential transactions involve the exchange of any form of physical evidence, such as money, birth certificate, visas, tickets, etc. Most of the time, evidential transactions occur in the context of complex procedures, called evidential protocols, among physical agents. The blockchain provides the mechanisms to transfer evidence, while smart contracts - programs executing within the blockchain in a decentralized and replicated fashion - allow encoding evidential protocols on top of a blockchain. As a smart contract foregoes trusted third-parties and runs on several machines anonymously, it constitutes a highly critical program that has to be secure and trusted-by-design. While most of the current smart contract languages focus on easy programmability, they do not directly address the need of guaranteeing trust and accountability, which becomes a significant issue when evidential protocols are encoded as smart contracts.
翻訳日:2024-03-27 20:34:33 公開日:2024-03-25
# サイバー物理システムの安全解析のためのマルチエージェント最適化:ポジションペーパー

Multi-Agent Optimization for Safety Analysis of Cyber-Physical Systems: Position Paper ( http://arxiv.org/abs/2403.16904v1 )

ライセンス: Link先を確認
Önder Gürcan, Nataliya Yakymets, Sara Tucci-Piergiovanni, Ansgar Radermacher, (参考訳) フェールモード、エフェクト、クリティカルリティ分析(FMECA)は、ほとんどの国際標準で推奨される安全分析手法の1つである。 古典的なFMECAは、手動または安全分析ツールを使用して、テーブルの形で作られる。 どちらの場合も、設計エンジニアは安全と他の開発制約の間のトレードオフを選択する必要があります。 何千もの制約がある複雑なサイバー物理システム(CPS)の場合、これは深刻な問題を引き起こし、CPSの全体的な臨界度に大きな影響を及ぼす可能性がある。 本稿では,CPSのFMECA後の意思決定プロセスを自動化するための最適化手法を提案する。 CPSの臨界性と開発制約の観点から、最適解を提供するための古典的FMECAを拡張したマルチエージェントベースの最適化手法について述べる。

Failure Mode, Effects and Criticality Analysis (FMECA) is one of the safety analysis methods recommended by most of the international standards. The classical FMECA is made in a form of a table filled in either manually or by using safety analysis tools. In both cases, the design engineers have to choose the trade-offs between safety and other development constraints. In the case of complex cyber-physical systems (CPS) with thousands of specified constraints, this may lead to severe problems and significantly impact the overall criticality of CPS. In this paper, we propose to adopt optimization techniques to automate the decision making process conducted after FMECA of CPS. We describe a multi-agent based optimization method which extends classical FMECA for offering optimal solutions in terms of criticality and development constraints of CPS.
翻訳日:2024-03-27 20:34:33 公開日:2024-03-25
# 量子エミッタ近接場を用いたサブ波長分解能

Subwavelength resolution using the near field of quantum emitters ( http://arxiv.org/abs/2403.16907v1 )

ライセンス: Link先を確認
Aziz Kolkiran, (参考訳) 本稿では,量子光学と近接場光学を組み合わせた超高分解能光学画像へのアプローチを提案する。 我々の概念は、単光子量子エミッタを用いてスタンドアロンのエバネッセント波を生成することである。 単一光子エミッタの量子干渉効果は, 近接場とともに, 量子化あるいは近接場化のみによるシステムよりも, サブ波長構造が高分解能化されることを実証した。 我々は、ナノフォトニクスと量子光学技術の現在の進歩を考慮して、この研究の目標を達成するためにナノサイズのエミッターを使用できると考えている。

We propose a novel, to the best of our knowledge, approach to superresolution optical imaging by combining quantum optics and near-field optics. Our concept involves the utilization of single-photon quantum emitters to generate a stand-alone evanescent wave. We demonstrate that the quantum interference effects of single-photon emitters, in conjunction with their near-field, result in a higher resolution of subwavelength structures than systems that are only quantum enhanced or only near-field enhanced. We believe that nano-sized emitters could be employed to accomplish the goals of this research, taking into account the current progress in nanophotonics and quantum optics technology.
翻訳日:2024-03-27 20:34:33 公開日:2024-03-25
# 質的シーン理解と説明を通しての信頼性の高い自動運転を目指して

Towards Trustworthy Automated Driving through Qualitative Scene Understanding and Explanations ( http://arxiv.org/abs/2403.16908v1 )

ライセンス: Link先を確認
Nassim Belmecheri, Arnaud Gotlieb, Nadjib Lazaar, Helge Spieker, (参考訳) 運転シーンの理解と自動走行決定のコミュニケーションは、信頼できる自動走行のための重要な要件である。 本稿では,都市移動におけるシーン理解のための統一的な象徴的,定性的な表現である定性的説明可能グラフ(QXG)を紹介する。 QXGは、センサーデータと機械学習モデルを使用して、自動車両の環境を解釈することを可能にする。 時空間グラフと定性的制約を利用して、LiDARやカメラデータなどの生センサ入力からシーン意味を抽出し、解釈可能なシーンモデルを提供する。 QXGはリアルタイムでインクリメンタルに構築することができ、様々なセンサータイプにわたる車内説明のための汎用的なツールとなる。 本研究は,QXGの可能性,特に自動走行の文脈において,グラフと観察された動作を関連付けることによって意思決定を合理化することができることを示す。 これらの説明は、乗客に通知したり、脆弱な道路利用者に警告したり、過去の行動のポストホック分析を可能にするなど、様々な目的に役立てることができる。

Understanding driving scenes and communicating automated vehicle decisions are key requirements for trustworthy automated driving. In this article, we introduce the Qualitative Explainable Graph (QXG), which is a unified symbolic and qualitative representation for scene understanding in urban mobility. The QXG enables interpreting an automated vehicle's environment using sensor data and machine learning models. It utilizes spatio-temporal graphs and qualitative constraints to extract scene semantics from raw sensor inputs, such as LiDAR and camera data, offering an interpretable scene model. A QXG can be incrementally constructed in real-time, making it a versatile tool for in-vehicle explanations across various sensor types. Our research showcases the potential of QXG, particularly in the context of automated driving, where it can rationalize decisions by linking the graph with observed actions. These explanations can serve diverse purposes, from informing passengers and alerting vulnerable road users to enabling post-hoc analysis of prior behaviors.
翻訳日:2024-03-27 20:34:33 公開日:2024-03-25
# アルゴリズムの忠実性に向けて:合成と人為的データにおけるデモグラフィー間のメンタルヘルス表現

Towards Algorithmic Fidelity: Mental Health Representation across Demographics in Synthetic vs. Human-generated Data ( http://arxiv.org/abs/2403.16909v1 )

ライセンス: Link先を確認
Shinka Mori, Oana Ignat, Andrew Lee, Rada Mihalcea, (参考訳) 合成データ生成は、少ないデータを持つアプリケーションやドメインに影響を与える可能性がある。 しかし、そのようなデータがメンタルヘルスなどのセンシティブなタスクに使用される前に、どのように異なる人口動態が表されるかを理解する必要がある。 本稿では,GPT-3を用いた合成データ生成の可能性について,人種と性別の組み合わせの異なる様々なストレス要因を探索することにより分析し,データ生成にLLMを用いた今後の研究者の知見を提供する。 GPT-3を用いて、人種、性別、時間枠(COVID-19の前後)を制御し、抑うつ性ストレス因子に関する3,120の投稿を合成したHEADROOMを開発する。 本データセットを用いて,(1)各人口層群において支配的なストレス要因を識別するための意味的および語彙的分析を行い,(2)人工的データと人為的データセットを比較した。 本稿では,GPT-3を用いた抑うつデータ作成のためのクエリ生成手法を提案するとともに,人口集団に割り当てるストレス要因の種類を明らかにするための分析を行い,抑うつデータのための合成データ生成におけるLLMの限界を検証した。 以上の結果から, 多様な人口層にまたがる優越性抑うつストレスに対する, 人為的なデータ分布の再現が示唆された。

Synthetic data generation has the potential to impact applications and domains with scarce data. However, before such data is used for sensitive tasks such as mental health, we need an understanding of how different demographics are represented in it. In our paper, we analyze the potential of producing synthetic data using GPT-3 by exploring the various stressors it attributes to different race and gender combinations, to provide insight for future researchers looking into using LLMs for data generation. Using GPT-3, we develop HEADROOM, a synthetic dataset of 3,120 posts about depression-triggering stressors, by controlling for race, gender, and time frame (before and after COVID-19). Using this dataset, we conduct semantic and lexical analyses to (1) identify the predominant stressors for each demographic group; and (2) compare our synthetic data to a human-generated dataset. We present the procedures to generate queries to develop depression data using GPT-3, and conduct analyzes to uncover the types of stressors it assigns to demographic groups, which could be used to test the limitations of LLMs for synthetic data generation for depression data. Our findings show that synthetic data mimics some of the human-generated data distribution for the predominant depression stressors across diverse demographics.
翻訳日:2024-03-27 20:34:33 公開日:2024-03-25
# プロトタイプの抽出と分散による新しいインテント発見

New Intent Discovery with Attracting and Dispersing Prototype ( http://arxiv.org/abs/2403.16913v1 )

ライセンス: Link先を確認
Shun Zhang, Jian Yang, Jiaqi Bai, Chaoran Yan, Tongliang Li, Zhao Yan, Zhoujun Li, (参考訳) New Intent Discovery (NID)は、ラベル付きと大規模にラベル付けされていないデータの助けを借りて、新しい意図のカテゴリを認識し、推論することを目的としている。 このタスクは機能クラスタリングの問題として対処され、最近の研究でインスタンス表現が強化されている。 しかし、クラスタ内とクラスタ間距離を効果的に制御し、調整する能力が少ないため、既存の手法ではクラスタフレンドリーな表現をキャプチャできない。 NID問題に対応して,既知および新意図の両カテゴリに対して,世界規模で決定境界を決定するためのロバスト・適応型原型学習(RAP)フレームワークを提案する。 具体的には,RPAL(Prototypeal attracting learning)手法により,インスタンスを対応するプロトタイプに誘導し,クラスタ内コンパクト性を向上する。 大規模クラスタ間分離を実現するために,プロトタイプからプロトタイプまでのクラスタ間距離を最大化するために,適応型プロトタイプ分散学習法(APDL)が考案された。 クラスタフレンドリーな表現を改良した手法の3つの挑戦的ベンチマーク(CLINC, BANKING, StackOverflow)で評価した結果, RAPは最先端の手法(大規模言語モデルでさえ)に対して,大きなマージン(平均+5.5%改善)で大幅な改善をもたらすことが示された。

New Intent Discovery (NID) aims to recognize known and infer new intent categories with the help of limited labeled and large-scale unlabeled data. The task is addressed as a feature-clustering problem and recent studies augment instance representation. However, existing methods fail to capture cluster-friendly representations, since they show less capability to effectively control and coordinate within-cluster and between-cluster distances. Tailored to the NID problem, we propose a Robust and Adaptive Prototypical learning (RAP) framework for globally distinct decision boundaries for both known and new intent categories. Specifically, a robust prototypical attracting learning (RPAL) method is designed to compel instances to gravitate toward their corresponding prototype, achieving greater within-cluster compactness. To attain larger between-cluster separation, another adaptive prototypical dispersing learning (APDL) method is devised to maximize the between-cluster distance from the prototype-to-prototype perspective. Experimental results evaluated on three challenging benchmarks (CLINC, BANKING, and StackOverflow) of our method with better cluster-friendly representation demonstrate that RAP brings in substantial improvements over the current state-of-the-art methods (even large language model) by a large margin (average +5.5% improvement).
翻訳日:2024-03-27 20:34:33 公開日:2024-03-25
# SCOD:ヒューリスティックスから理論へ

SCOD: From Heuristics to Theory ( http://arxiv.org/abs/2403.16916v1 )

ライセンス: Link先を確認
Vojtech Franc, Jakub Paplham, Daniel Prusa, (参考訳) 本稿では,不確かさや不確実性に直面する場合の予測を無視する信頼性のある予測モデルを設計する上での課題について論じる - SCOD(Out-of-distriion Data)の存在下での選択分類(Selective Classification)として知られる最近提案された問題である。 我々はSCODに3つの重要な貢献をしている。 まず、最適SCOD戦略は、分布内(ID)データに対するベイズ分類器と、2次元空間における確率線形分類器として表されるセレクタとが関係していることを示す。 一 ID分類器の条件付リスク及び 二 入力としてのID及びアウト・オブ・ディストリビューション(OOD)データの確率比 これは、SCOD専用に開発された現在のOOD検出方法とSoftmax Information Retaining Combination(SIRC)の亜最適戦略とは対照的である。 第二に、分布のない環境では、SCOD問題は、IDデータサンプルのみに依存する場合、ほぼ正確には学習できない。 第三にPOSCODは、IDデータサンプルと未ラベルの混合IDとOODデータの両方から、最適なSCOD戦略のプラグイン推定を学習する簡単な方法である。 実験結果から,提案手法であるPOSCODが既存のOOD法を有効活用できることが確認された。

This paper addresses the problem of designing reliable prediction models that abstain from predictions when faced with uncertain or out-of-distribution samples - a recently proposed problem known as Selective Classification in the presence of Out-of-Distribution data (SCOD). We make three key contributions to SCOD. Firstly, we demonstrate that the optimal SCOD strategy involves a Bayes classifier for in-distribution (ID) data and a selector represented as a stochastic linear classifier in a 2D space, using i) the conditional risk of the ID classifier, and ii) the likelihood ratio of ID and out-of-distribution (OOD) data as input. This contrasts with suboptimal strategies from current OOD detection methods and the Softmax Information Retaining Combination (SIRC), specifically developed for SCOD. Secondly, we establish that in a distribution-free setting, the SCOD problem is not Probably Approximately Correct learnable when relying solely on an ID data sample. Third, we introduce POSCOD, a simple method for learning a plugin estimate of the optimal SCOD strategy from both an ID data sample and an unlabeled mixture of ID and OOD data. Our empirical results confirm the theoretical findings and demonstrate that our proposed method, POSCOD, out performs existing OOD methods in effectively addressing the SCOD problem.
翻訳日:2024-03-27 20:34:33 公開日:2024-03-25
# 保存光子電流

Conserved photon current ( http://arxiv.org/abs/2403.16919v1 )

ライセンス: Link先を確認
Margaret Hawton, (参考訳) 保存光子電流は、電磁四電位場テンソル演算子によって満たされる可換関係から導かれる。 密度は正および負の周波数項に対する和であり、どちらも正の数密度に寄与し、共通の方向に伝播する。 離散正および負の周波数励起はどちらも光子として同定される。 光子数は光子密度の空間積分に等しいが、源やシンクが存在しない状態で保存される。

A conserved photon current is derived from the commutation relations satisfied by the electromagnetic four-potential and field tensor operators. The density is found to be a sum over positive and negative frequency terms, both of which contribute a positive number density and propagate in a common direction. Discrete positive and negative frequency excitations are both identified as photons. Photon number, equal to the spatial integral of photon density, is conserved in the absence of sources and sinks.
翻訳日:2024-03-27 20:34:33 公開日:2024-03-25
# PropTest: 改善されたビジュアルプログラミングのための自動プロパティテスト

PropTest: Automatic Property Testing for Improved Visual Programming ( http://arxiv.org/abs/2403.16921v1 )

ライセンス: Link先を確認
Jaywon Koo, Ziyan Yang, Paola Cascante-Bonilla, Baishakhi Ray, Vicente Ordonez, (参考訳) ビジュアルプログラミングは、エンドツーエンドのビジュアル推論モデルの代替として登場した。 このタイプの手法は、LLM(Large Language Models)を利用して問題を分解し、実行可能なコンピュータプログラムのソースコードを生成する。 この戦略は解釈可能な推論パスを提供することの利点があり、タスク固有のデータでモデルを微調整する必要がない。 提案手法の最初のラウンドで,LLMを用いて視覚特性をテストするコードを生成することで,視覚プログラミングを改善する汎用戦略であるPropTestを提案する。 特に,本手法は,生成したソリューションの構文的・意味的特性だけでなく,データ型整合性についても検証する。 提案手法は,より小型で一般公開されたLCM(CodeLlama-7B と WizardCoder-15B)を用いて,ベースラインを上回り,最先端の手法に匹敵する結果が得られる。 これは視覚的質問応答と表現理解の参照に関する様々なベンチマークで示されており、視覚的推論タスクの性能向上と一般化における我々のアプローチの有効性を示している。 具体的には、A-OKVQAベンチマークで48.66%(+8.3%)、CodeLlama-7Bを使ってRefCOCO+ベンチマークで52.8%(+3.3%)の精度でViperGPTを改善する。

Visual Programming has emerged as an alternative to end-to-end black-box visual reasoning models. This type of methods leverage Large Language Models (LLMs) to decompose a problem and generate the source code for an executable computer program. This strategy has the advantage of offering an interpretable reasoning path and does not require finetuning a model with task-specific data. We propose PropTest, a general strategy that improves visual programming by further using an LLM to generate code that tests for visual properties in an initial round of proposed solutions. Particularly, our method tests for data-type consistency, as well as syntactic and semantic properties in the generated solutions. Our proposed solution outperforms baselines and achieves comparable results to state-of-the-art methods while using smaller and publicly available LLMs (CodeLlama-7B and WizardCoder-15B). This is demonstrated across different benchmarks on visual question answering and referring expression comprehension, showing the efficacy of our approach in enhancing the performance and generalization of visual reasoning tasks. Specifically, PropTest improves ViperGPT by obtaining 48.66% accuracy (+8.3%) on the A-OKVQA benchmark and 52.8% (+3.3%) on the RefCOCO+ benchmark using CodeLlama-7B.
翻訳日:2024-03-27 20:34:33 公開日:2024-03-25
# FLIGAN: GANを用いた不完全なデータによるフェデレーション学習の促進

FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN ( http://arxiv.org/abs/2403.16930v1 )

ライセンス: Link先を確認
Paul Joe Maliakel, Shashikant Ilager, Ivona Brandic, (参考訳) Federated Learning(FL)は、ネットワークデバイス(モバイルデバイス、IoTエッジノードなど)上のマシンラーニングモデルの分散トレーニングのための、プライバシ保護メカニズムを提供する。 ネットワーク間で実際のデータを共有せずにモデルを作成することによって、エッジでの人工知能(AI)を可能にする。 既存の研究は、通常、クライアントのシステム特性における非IIDデータの一般的な側面と不均一性に焦点をあてるが、それらはしばしば、不均一なクラスラベルの分布とエッジノード間の高度に可変なデータボリュームから生じる、モデル開発のための不十分なデータの問題を無視している。 本研究では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。 まず、GAN(Generative Adversarial Networks)を利用して、複雑なデータ分布を正確にキャプチャし、実世界のデータによく似た合成データを生成する。 次に、合成データを用いて、ノード間のデータセットの堅牢性と完全性を高める。 本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。 我々は,高品質な合成データセットの作成と効率的なFLトレーニングの容易化を目的として,クラスワイズサンプリングやノードグループ化などの手法を取り入れた。 実験の結果, FLIGANはモデル精度を大幅に向上し, 特にクラス不均衡の高いシナリオでは, 従来のFLベースラインよりもモデル精度が最大20%向上することがわかった。

Federated Learning (FL) provides a privacy-preserving mechanism for distributed training of machine learning models on networked devices (e.g., mobile devices, IoT edge nodes). It enables Artificial Intelligence (AI) at the edge by creating models without sharing the actual data across the network. Existing research works typically focus on generic aspects of non-IID data and heterogeneity in client's system characteristics, but they often neglect the issue of insufficient data for model development, which can arise from uneven class label distribution and highly variable data volumes across edge nodes. In this work, we propose FLIGAN, a novel approach to address the issue of data incompleteness in FL. First, we leverage Generative Adversarial Networks (GANs) to adeptly capture complex data distributions and generate synthetic data that closely resemble the real-world data. Then, we use synthetic data to enhance the robustness and completeness of datasets across nodes. Our methodology adheres to FL's privacy requirements by generating synthetic data in a federated manner without sharing the actual data in the process. We incorporate techniques such as classwise sampling and node grouping, designed to improve the federated GAN's performance, enabling the creation of high-quality synthetic datasets and facilitating efficient FL training. Empirical results from our experiments demonstrate that FLIGAN significantly improves the model accuracy, especially in scenarios with high class imbalances, achieving up to a 20% increase in model accuracy over traditional FL baselines.
翻訳日:2024-03-27 20:34:33 公開日:2024-03-25
# 空間・時間・脳におけるバックプロパゲーション

Backpropagation through space, time, and the brain ( http://arxiv.org/abs/2403.16933v1 )

ライセンス: Link先を確認
Benjamin Ellenberger, Paul Haider, Jakob Jordan, Kevin Max, Ismael Jaras, Laura Kriener, Federico Benitez, Mihai A. Petrovici, (参考訳) 神経ネットワークにおける効果的な学習には、個々のシナプスの適応が必要である。 しかし、生物学的または人工的にも、物理的神経系は時空間的局所性によって制約される。 このようなネットワークがいかに効率のよい信用割当を行うかは、未解決の問題のままである。 機械学習では、その答えは、空間(BP)と時間(BPTT)の両方を通して、ほぼ普遍的にエラーバックプロパゲーションアルゴリズムによって与えられる。 しかし、BP(TT)は、特に時空間的(非)局所性に関して、生物学的に証明不可能な仮定に依存しているのがよく知られており、一方リアルタイム反復学習(RTRL)のような前方伝播モデルは、禁止的なメモリ制約に悩まされている。 本稿では,ニューロンの物理的,動的ネットワークにおける完全局所的時空間クレジット割り当てのための計算フレームワークであるGeneralized Latent Equilibrium (GLE)を紹介する。 まず、ニューロン局所的なミスマッチに基づいてエネルギーを定義し、そこから定常性による神経力学と勾配降下によるパラメータ力学の両方を導出する。 結果のダイナミクスは、連続的な活動的な局所シナプス可塑性を持つ深部皮質神経回路網におけるBPTTのリアルタイム、生物学的に妥当な近似と解釈できる。 特に、GLEは、情報伝達の両方向において必須である膜電位に関して、生物学的ニューロンが出力速度を位相シフトさせる能力を利用する。 フォワード計算では、時間連続入力のニューロン空間へのマッピングを可能にし、効果的な時空間畳み込みを行う。 後ろ向きの計算では、フィードバック信号の時間反転が許容され、結果として有用なパラメータ更新に必要な随伴状態が近似される。

Effective learning in neuronal networks requires the adaptation of individual synapses given their relative contribution to solving a task. However, physical neuronal systems -- whether biological or artificial -- are constrained by spatio-temporal locality. How such networks can perform efficient credit assignment, remains, to a large extent, an open question. In Machine Learning, the answer is almost universally given by the error backpropagation algorithm, through both space (BP) and time (BPTT). However, BP(TT) is well-known to rely on biologically implausible assumptions, in particular with respect to spatiotemporal (non-)locality, while forward-propagation models such as real-time recurrent learning (RTRL) suffer from prohibitive memory constraints. We introduce Generalized Latent Equilibrium (GLE), a computational framework for fully local spatio-temporal credit assignment in physical, dynamical networks of neurons. We start by defining an energy based on neuron-local mismatches, from which we derive both neuronal dynamics via stationarity and parameter dynamics via gradient descent. The resulting dynamics can be interpreted as a real-time, biologically plausible approximation of BPTT in deep cortical networks with continuous-time neuronal dynamics and continuously active, local synaptic plasticity. In particular, GLE exploits the ability of biological neurons to phase-shift their output rate with respect to their membrane potential, which is essential in both directions of information propagation. For the forward computation, it enables the mapping of time-continuous inputs to neuronal space, performing an effective spatiotemporal convolution. For the backward computation, it permits the temporal inversion of feedback signals, which consequently approximate the adjoint states necessary for useful parameter updates.
翻訳日:2024-03-27 20:24:48 公開日:2024-03-25
# 量子プロセッサの多体カオスおよび局在相におけるスペクトル形状因子の測定

Measuring Spectral Form Factor in Many-Body Chaotic and Localized Phases of Quantum Processors ( http://arxiv.org/abs/2403.16935v1 )

ライセンス: Link先を確認
Hang Dong, Pengfei Zhang, Ceren B. Dag, Yu Gao, Ning Wang, Jinfeng Deng, Xu Zhang, Jiachen Chen, Shibo Xu, Ke Wang, Yaozu Wu, Chuanyu Zhang, Feitong Jin, Xuhao Zhu, Aosai Zhang, Yiren Zou, Ziqi Tan, Zhengyi Cui, Zitian Zhu, Fanhao Shen, Tingting Li, Jiarun Zhong, Zehang Bao, Hekang Li, Zhen Wang, Qiujiang Guo, Chao Song, Fangli Liu, Amos Chan, Lei Ying, H. Wang, (参考訳) スペクトル形成因子(SFF)は、量子カオスの符号として普遍的なスペクトル変動を捉え、ブラックホールや量子多体系の研究を含む物理学の複数のフロンティアを前進させるのに役立っている。 しかし,多体系におけるSFFの測定は,システムサイズの増加とともに指数関数的に小さくなるレベル間隔の解消が難しいため困難である。 本稿では,SFFを用いて量子多体系におけるカオスの有無を,ランダム化測定プロトコルを用いた超伝導量子プロセッサを用いて実験的に測定する。 フロッケカオス系では、ランププレートの挙動によって与えられるSFFにおけるランダム行列理論のスペクトル剛性のシグネチャを観察する。 ハミルトン系では、SFFを用いて量子多体カオス相と予熱多体局在を区別する。 カオス相におけるランダム行列理論のディップ・ランプ・プラトー挙動を観察し,多体カオス相と局所化相のシステムサイズにおけるプラトー時間のスケーリングを対比した。 さらに、部分SFFと呼ばれるSFFの一般化を測定して固有状態統計を探索し、2相の還元密度行列の純度における異なる挙動を観察する。 この研究は、量子デバイスにおける多体量子カオスの普遍的なシグネチャを、固有エネルギーと固有状態の相関を探索することによって抽出する新しい方法を明らかにする。

The spectral form factor (SFF) captures universal spectral fluctuations as signatures of quantum chaos, and has been instrumental in advancing multiple frontiers of physics including the studies of black holes and quantum many-body systems. However, the measurement of SFF in many-body systems is challenging due to the difficulty in resolving level spacings that become exponentially small with increasing system size. Here we experimentally measure the SFF to probe the presence or absence of chaos in quantum many-body systems using a superconducting quantum processor with a randomized measurement protocol. For a Floquet chaotic system, we observe signatures of spectral rigidity of random matrix theory in SFF given by the ramp-plateau behavior. For a Hamiltonian system, we utilize SFF to distinguish the quantum many-body chaotic phase and the prethermal many-body localization. We observe the dip-ramp-plateau behavior of random matrix theory in the chaotic phase, and contrast the scaling of the plateau time in system size between the many-body chaotic and localized phases. Furthermore, we probe the eigenstate statistics by measuring a generalization of the SFF, known as the partial SFF, and observe distinct behaviors in the purities of the reduced density matrix in the two phases. This work unveils a new way of extracting the universal signatures of many-body quantum chaos in quantum devices by probing the correlations in eigenenergies and eigenstates.
翻訳日:2024-03-27 20:24:48 公開日:2024-03-25
# 動的ラベル-プロトタイプアサインメントを用いた超球面分類

Hyperspherical Classification with Dynamic Label-to-Prototype Assignment ( http://arxiv.org/abs/2403.16937v1 )

ライセンス: Link先を確認
Mohammad Saeed Ebrahimi Saadabadi, Ali Dabouei, Sahar Rahimi Malakshan, Nasser M. Nasrabad, (参考訳) パラメトリックソフトマックス分類器による距離空間の利用促進を目的とした最近の研究は、それを非パラメトリックな代替品に置き換えることを示唆している。 非パラメトリック分類器は、より優れた計量空間利用を提供するが、クラス間の関係を捉えるという課題を導入する。 従来の非パラメトリック分類器間で共有される特徴は、トレーニング中にラベルをプロトタイプに静的に割り当てることである。 従来の研究と直交して、トレーニング中に各プロトタイプ(ラベルからプロトタイプへの割り当て)に割り当てられたカテゴリを最適化する、単純かつ効果的な手法を提案する。 そこで本研究では,ネットワークパラメータとラベル-プロトタイプ代入マッピングによる2段階最適化の目的として,この問題を定式化する。 この最適化は、勾配降下とバイパルチドマッチングの逐次組み合わせを用いて解決する。 本稿では, 異なるバックボーンネットワークアーキテクチャを用いて, バランスのとれた, 長期にわたる分類問題の実験を行うことにより, 提案手法の利点を実証する。 特に,CIFAR-100では1.22 %,ImageNet-200では2.15 %の精度で競合相手の約半分の寸法で競合相手に勝っている。 コード:https://github.com/msed-Ebrahimi/DL2PA_CVPR24

Aiming to enhance the utilization of metric space by the parametric softmax classifier, recent studies suggest replacing it with a non-parametric alternative. Although a non-parametric classifier may provide better metric space utilization, it introduces the challenge of capturing inter-class relationships. A shared characteristic among prior non-parametric classifiers is the static assignment of labels to prototypes during the training, ie, each prototype consistently represents a class throughout the training course. Orthogonal to previous works, we present a simple yet effective method to optimize the category assigned to each prototype (label-to-prototype assignment) during the training. To this aim, we formalize the problem as a two-step optimization objective over network parameters and label-to-prototype assignment mapping. We solve this optimization using a sequential combination of gradient descent and Bipartide matching. We demonstrate the benefits of the proposed approach by conducting experiments on balanced and long-tail classification problems using different backbone network architectures. In particular, our method outperforms its competitors by 1.22\% accuracy on CIFAR-100, and 2.15\% on ImageNet-200 using a metric space dimension half of the size of its competitors. Code: https://github.com/msed-Ebrahimi/DL2PA_CVPR24
翻訳日:2024-03-27 20:24:47 公開日:2024-03-25
# SPACE-IDEAS:宇宙開発における有能な情報検出のためのデータセット

SPACE-IDEAS: A Dataset for Salient Information Detection in Space Innovation ( http://arxiv.org/abs/2403.16941v1 )

ライセンス: Link先を確認
Andrés García-Silva, Cristian Berrío, José Manuel Gómez-Pérez, (参考訳) 自然言語処理によるテキストの健全な部分の検出は,情報オーバーフローの影響を軽減するために広く利用されている。 しかしながら、このタスクで利用可能なデータセットのほとんどは、主に学術出版物から派生している。 本研究では,空間領域に関連するイノベーションのアイデアから情報を検出するためのデータセットであるSPACE-IDEASを紹介する。 SPACE-IDEASのテキストは大きく異なり、非公式、技術的、学術的、ビジネス指向の書き込みスタイルを含んでいる。 手動でアノテートしたデータセットに加えて、大きな生成言語モデルを使ってアノテートされた拡張バージョンをリリースします。 我々は、異なる文とシーケンシャルな文分類器を訓練し、自動注釈付きデータセットをマルチタスク学習を用いて活用し、より良い分類器を訓練できることを示す。

Detecting salient parts in text using natural language processing has been widely used to mitigate the effects of information overflow. Nevertheless, most of the datasets available for this task are derived mainly from academic publications. We introduce SPACE-IDEAS, a dataset for salient information detection from innovation ideas related to the Space domain. The text in SPACE-IDEAS varies greatly and includes informal, technical, academic and business-oriented writing styles. In addition to a manually annotated dataset we release an extended version that is annotated using a large generative language model. We train different sentence and sequential sentence classifiers, and show that the automatically annotated dataset can be leveraged using multitask learning to train better classifiers.
翻訳日:2024-03-27 20:24:47 公開日:2024-03-25
# データ混合法則:言語モデリング性能の予測によるデータ混合の最適化

Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance ( http://arxiv.org/abs/2403.16952v1 )

ライセンス: Link先を確認
Jiasheng Ye, Peiju Liu, Tianxiang Sun, Yunhua Zhou, Jun Zhan, Xipeng Qiu, (参考訳) 大規模な言語モデルのデータの事前学習は、複数のドメイン(Webテキスト、学術論文、コードなど)を構成する。 既存の取り組みはヒューリスティックス(ヒューリスティックス)や定性的戦略(定性的戦略)に頼りながら、関数形式の混合比率に関するモデル性能の定量的予測可能性を発見し、これをデータ混合法則と呼ぶ。 このような機能をサンプル混合物に合わせると、実際の実行前に目に見えない混合物のモデル性能が明らかになり、理想的なデータ混合物の選択が導かれる。 さらに,学習段階,モデルサイズ,およびデータ混合法のスケーリング法則をネストした利用法則を用いて,小規模の学習しか行わない様々な混合条件下での大規模データに基づいてトレーニングされた大規模モデルの性能を予測することを提案する。 さらに,実験結果から,RedPajamaの100Bトークンに対してトレーニングした1Bモデルのトレーニングミックスを効果的に最適化し,デフォルトのミキシングの48%以上のステップでトレーニングした100Bトークンに匹敵する性能に達することを確認した。 データ混合法の適用を継続訓練に適用することにより、破滅的な忘れ込みを回避し、動的データスケジュールの可能性を見極める臨界混合比を正確に予測する。

Pretraining data of large language models composes multiple domains (e.g., web texts, academic papers, codes), whose mixture proportions crucially impact the competence of outcome models. While existing endeavors rely on heuristics or qualitative strategies to tune the proportions, we discover the quantitative predictability of model performance regarding the mixture proportions in function forms, which we refer to as the data mixing laws. Fitting such functions on sample mixtures unveils model performance on unseen mixtures before actual runs, thus guiding the selection of an ideal data mixture. Furthermore, we propose nested use of the scaling laws of training steps, model sizes, and our data mixing law to enable predicting the performance of large models trained on massive data under various mixtures with only small-scale training. Moreover, experimental results verify that our method effectively optimizes the training mixture of a 1B model trained for 100B tokens in RedPajama, reaching a performance comparable to the one trained for 48% more steps on the default mixture. Extending the application of data mixing laws to continual training accurately predicts the critical mixture proportion that avoids catastrophic forgetting and outlooks the potential for dynamic data schedules
翻訳日:2024-03-27 20:24:47 公開日:2024-03-25
# 分離拡散:分離拡散誘導による多概念テキスト画像生成訓練の最適化

Isolated Diffusion: Optimizing Multi-Concept Text-to-Image Generation Training-Freely with Isolated Diffusion Guidance ( http://arxiv.org/abs/2403.16954v1 )

ライセンス: Link先を確認
Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan, (参考訳) 大規模テキスト・画像拡散モデルは、ターゲットテキストプロンプトが与えられた高品質で多様な画像の合成に成功している。 革命的な画像生成能力にもかかわらず、現在の最先端モデルは、多くの場合、正確にマルチコンセプト生成を扱うのに苦戦している。 この現象は「概念出血」と呼ばれ、様々な概念の予期せぬ重複や融合として表される。 本稿では,テキストと画像の拡散モデルを用いて,複雑な場面における相互干渉に対処し,テキストと画像の整合性を向上する手法を提案する。 中心となる考え方は、異なる概念の合成過程を分離することである。 本稿では,各アタッチメントを対応する対象に分割したテキストプロンプトで個別に結合することを提案する。 さらに,多目的合成における出血問題を修正するための修正手法を提案する。 まず,事前学習対象検出とセグメンテーションモデルを用いて,対象物のレイアウトを求める。 そして、各被験者を個別にテキストプロンプトで分離・再合成し、相互干渉を避ける。 全体として、多概念テキスト・画像合成を最適化するために、Isolated Diffusionと呼ばれるトレーニング不要の戦略を実現する。 最新の安定拡散XL(SDXL)と以前の安定拡散(SD)モデルと互換性がある。 提案手法は,多様なマルチコンセプトテキストプロンプトを用いた代替手法と比較し,テキストイメージの整合性とユーザスタディにおいて,その有効性を示す。

Large-scale text-to-image diffusion models have achieved great success in synthesizing high-quality and diverse images given target text prompts. Despite the revolutionary image generation ability, current state-of-the-art models still struggle to deal with multi-concept generation accurately in many cases. This phenomenon is known as ``concept bleeding" and displays as the unexpected overlapping or merging of various concepts. This paper presents a general approach for text-to-image diffusion models to address the mutual interference between different subjects and their attachments in complex scenes, pursuing better text-image consistency. The core idea is to isolate the synthesizing processes of different concepts. We propose to bind each attachment to corresponding subjects separately with split text prompts. Besides, we introduce a revision method to fix the concept bleeding problem in multi-subject synthesis. We first depend on pre-trained object detection and segmentation models to obtain the layouts of subjects. Then we isolate and resynthesize each subject individually with corresponding text prompts to avoid mutual interference. Overall, we achieve a training-free strategy, named Isolated Diffusion, to optimize multi-concept text-to-image synthesis. It is compatible with the latest Stable Diffusion XL (SDXL) and prior Stable Diffusion (SD) models. We compare our approach with alternative methods using a variety of multi-concept text prompts and demonstrate its effectiveness with clear advantages in text-image consistency and user study.
翻訳日:2024-03-27 20:24:47 公開日:2024-03-25
# 協調的多エージェント自律における信頼のためのベイズ的手法

Bayesian Methods for Trust in Collaborative Multi-Agent Autonomy ( http://arxiv.org/abs/2403.16956v1 )

ライセンス: Link先を確認
R. Spencer Hallyburton, Miroslav Pajic, (参考訳) マルチエージェント・コラボレーティブセンサー融合は多国籍インテリジェンスツールキットの重要な構成要素である。 安全にクリティカルな環境や競合する環境では、敵は多数のエージェントに侵入し、侵入することがある。 我々は、この妥協されたエージェント脅威モデルの下で、最先端のマルチターゲット追跡アルゴリズムを解析する。 トラックの存在確率テスト(トラックスコア)は,少数の敵に対しても極めて脆弱であることを示す。 セキュリティ意識を高めるために,階層的ベイズ更新を用いた信頼度推定フレームワークを設計する。 本フレームワークは,センサ測定を疑似測定(PSM)にマッピングし,ベイズ的文脈に事前信頼を取り入れることで,トラックやエージェントに対する信頼の信念を構築する。 ケーススタディでは,オブザーバビリティの制約の下で,トラック/エージェントの信頼性を正確に推定する。

Multi-agent, collaborative sensor fusion is a vital component of a multi-national intelligence toolkit. In safety-critical and/or contested environments, adversaries may infiltrate and compromise a number of agents. We analyze state of the art multi-target tracking algorithms under this compromised agent threat model. We prove that the track existence probability test ("track score") is significantly vulnerable to even small numbers of adversaries. To add security awareness, we design a trust estimation framework using hierarchical Bayesian updating. Our framework builds beliefs of trust on tracks and agents by mapping sensor measurements to trust pseudomeasurements (PSMs) and incorporating prior trust beliefs in a Bayesian context. In case studies, our trust estimation algorithm accurately estimates the trustworthiness of tracks/agents, subject to observability limitations.
翻訳日:2024-03-27 20:24:47 公開日:2024-03-25
# TwinLiteNetPlus: リアルタイム乾燥地域とレーンセグメンテーションのためのより強力なモデル

TwinLiteNetPlus: A Stronger Model for Real-time Drivable Area and Lane Segmentation ( http://arxiv.org/abs/2403.16958v1 )

ライセンス: Link先を確認
Quang-Huy Che, Duc-Tri Le, Minh-Quan Pham, Vinh-Tiep Nguyen, Duc-Khai Lam, (参考訳) セマンティックセグメンテーションは自動運転、特にDrivable AreaとLane Segmentationにとって重要であり、安全とナビゲーションを確保する。 現状技術(SOTA)モデルの高計算コストに対処するため,効率と精度のバランスに優れたモデルであるTwinLiteNetPlus(TwinLiteNet$^+$)を提案する。 TwinLiteNet$^+$は、標準および深さ的に分離可能な拡張畳み込みを導入し、高い精度を維持しながら複雑さを減少させる。 これは、ロバストな1.94百万パラメータのTwinLiteNet$^+_{\text{Large}}$から、超コンパクトな34KパラメータのTwinLiteNet$^+_{\text{Nano}}$まで、4つの構成で利用できる。 特に、TwinLiteNet$^+_{\text{Large}}$は、乾燥領域セグメンテーションの92.9\% mIoU、レーンセグメンテーションの34.2\% IoUに達する。 これらの結果は、既存のSOTAモデルと比較して、浮動小数点演算(FLOP)の約11倍の計算コストを必要とする一方で、現在のSOTAモデルよりも優れています。 TwinLiteNet$^+$は、様々な組み込みデバイスで広くテストされている。

Semantic segmentation is crucial for autonomous driving, particularly for Drivable Area and Lane Segmentation, ensuring safety and navigation. To address the high computational costs of current state-of-the-art (SOTA) models, this paper introduces TwinLiteNetPlus (TwinLiteNet$^+$), a model adept at balancing efficiency and accuracy. TwinLiteNet$^+$ incorporates standard and depth-wise separable dilated convolutions, reducing complexity while maintaining high accuracy. It is available in four configurations, from the robust 1.94 million-parameter TwinLiteNet$^+_{\text{Large}}$ to the ultra-compact 34K-parameter TwinLiteNet$^+_{\text{Nano}}$. Notably, TwinLiteNet$^+_{\text{Large}}$ attains a 92.9\% mIoU for Drivable Area Segmentation and a 34.2\% IoU for Lane Segmentation. These results notably outperform those of current SOTA models while requiring a computational cost that is approximately 11 times lower in terms of Floating Point Operations (FLOPs) compared to the existing SOTA model. Extensively tested on various embedded devices, TwinLiteNet$^+$ demonstrates promising latency and power efficiency, underscoring its suitability for real-world autonomous vehicle applications.
翻訳日:2024-03-27 20:24:47 公開日:2024-03-25
# 量子ムペンバ効果の熱力学

The thermodynamics of the quantum Mpemba effect ( http://arxiv.org/abs/2403.16959v1 )

ライセンス: Link先を確認
Mattia Moroder, Oisín Culhane, Krissia Zawadzki, John Goold, (参考訳) 非平衡量子熱力学の観点から量子Mpemba効果をデイビーズ写像で記述された緩和力学の研究により検討する。 エネルギー固有基底におけるコヒーレンスを持つ状態から始めると、エネルギー固有基底において状態が対角状態に変換された場合、指数的な平衡へのスピードアップが常に起こることを示し、生成子のスペクトルギャップが複素固有値によって定義される。 変換状態がより高い非平衡自由エネルギーを持つとき、熱力学的推論を用いて、これは量子Mpemba効果であると主張する。 さらに、初期状態におけるユニタリ変換が常に構成され、その効果が得られ、また、非平衡自由エネルギーと可逆エントロピー生成の両方のダイナミクスを単一および多ビットの例で研究することによって、我々の研究結果を示す。

We investigate the quantum Mpemba effect from the perspective of non-equilibrium quantum thermodynamics by studying relaxation dynamics described by Davies maps. Starting from a state with coherences in the energy eigenbasis, we demonstrate that an exponential speedup to equilibrium will always occur if the state is transformed to a diagonal state in the energy eigenbasis, provided that the spectral gap of the generator is defined by a complex eigenvalue. When the transformed state has a higher non-equilibrium free energy, we argue using thermodynamic reasoning that this is a \textit{genuine} quantum Mpemba effect. Furthermore, we show how a unitary transformation on an initial state can always be constructed to yield the effect and demonstrate our findings by studying the dynamics of both the non-equilibrium free energy and the irreversible entropy production in single and multi-qubit examples.
翻訳日:2024-03-27 20:24:47 公開日:2024-03-25
# GSDF:3DGSがレンダリングとリコンストラクションの改善のためにSDFと提携

GSDF: 3DGS Meets SDF for Improved Rendering and Reconstruction ( http://arxiv.org/abs/2403.16964v1 )

ライセンス: Link先を確認
Mulin Yu, Tao Lu, Linning Xu, Lihan Jiang, Yuanbo Xiangli, Bo Dai, (参考訳) マルチビュー画像から3Dシーンを提示することは、コンピュータビジョンとコンピュータグラフィックスにおける中核的かつ長年にわたる課題である。 2つの主な要件は、レンダリングと再構築である。 特に、SOTAレンダリングの品質は通常、集約されたポイント/プリミティブな色に依存し、基礎となるシーン幾何学を無視する、ニューラルネットワークのボリュームレンダリング技術によって達成される。 ニューラルな暗黙の表面の学習は、ニューラルレンダリングの成功から引き起こされる。 現在の作業では、密度場の分布やプリミティブの形状を制約し、結果として、学習されたシーン表面のレンダリング品質と欠陥が劣化する。 このような方法の有効性は、選択された神経表現の固有の制約によって制限され、特により大きく複雑なシーンにおいて、細かな表面の詳細を捉えるのに苦労する。 これらの問題に対処するために、GSDFは、フレキシブルで効率的な3Dガウススプラッティング(3DGS)表現とニューラルサイン付き距離場(SDF)の利点を組み合わせた、新しいデュアルブランチアーキテクチャである。 中心となる考え方は、相互指導と共同指導を通じてその制限を緩和しつつ、各ブランチの強みを活用、強化することである。 我々の設計がより正確で詳細な表面再構成の可能性を解き放ち、その一方で、基礎となる幾何学とより整合した構造を持つ3DGSレンダリングの利点を示す。

Presenting a 3D scene from multiview images remains a core and long-standing challenge in computer vision and computer graphics. Two main requirements lie in rendering and reconstruction. Notably, SOTA rendering quality is usually achieved with neural volumetric rendering techniques, which rely on aggregated point/primitive-wise color and neglect the underlying scene geometry. Learning of neural implicit surfaces is sparked from the success of neural rendering. Current works either constrain the distribution of density fields or the shape of primitives, resulting in degraded rendering quality and flaws on the learned scene surfaces. The efficacy of such methods is limited by the inherent constraints of the chosen neural representation, which struggles to capture fine surface details, especially for larger, more intricate scenes. To address these issues, we introduce GSDF, a novel dual-branch architecture that combines the benefits of a flexible and efficient 3D Gaussian Splatting (3DGS) representation with neural Signed Distance Fields (SDF). The core idea is to leverage and enhance the strengths of each branch while alleviating their limitation through mutual guidance and joint supervision. We show on diverse scenes that our design unlocks the potential for more accurate and detailed surface reconstructions, and at the meantime benefits 3DGS rendering with structures that are more aligned with the underlying geometry.
翻訳日:2024-03-27 20:24:47 公開日:2024-03-25
# 足のロコマニピュレーションのための視覚全体制御

Visual Whole-Body Control for Legged Loco-Manipulation ( http://arxiv.org/abs/2403.16967v1 )

ライセンス: Link先を確認
Minghuan Liu, Zixuan Chen, Xuxin Cheng, Yandong Ji, Ruihan Yang, Xiaolong Wang, (参考訳) そこで本研究では,ロボットアームを装着したロボットによる移動操作の問題点について検討する。 ロボットの脚は、通常移動のために使用されるが、全身制御を行うことで操作能力を増幅する機会を提供する。 つまり、ロボットは足と腕を同時に制御し、ワークスペースを拡張する。 視覚的観察により全身制御を自律的に行うことのできる枠組みを提案する。 我々のアプローチは、すべての自由度を用いて、エンドエフェクタマニピュレータの位置を追跡する低レベルポリシーと、視覚的な入力に基づいてエンドエフェクタ位置を提案する高レベルポリシーで構成されています。 シミュレーションにおける両レベルのポリシーをトレーニングし、実際のロボット展開のためのSim2Real転送を実行する。 さまざまな構成(高さ、位置、方向)と環境において、さまざまなオブジェクトを拾う際に、大規模な実験を行い、ベースラインよりも大幅に改善した。 プロジェクトページ: https://wholebody-b1.github.io

We study the problem of mobile manipulation using legged robots equipped with an arm, namely legged loco-manipulation. The robot legs, while usually utilized for mobility, offer an opportunity to amplify the manipulation capabilities by conducting whole-body control. That is, the robot can control the legs and the arm at the same time to extend its workspace. We propose a framework that can conduct the whole-body control autonomously with visual observations. Our approach, namely \ourFull~(\our), is composed of a low-level policy using all degrees of freedom to track the end-effector manipulator position and a high-level policy proposing the end-effector position based on visual inputs. We train both levels of policies in simulation and perform Sim2Real transfer for real robot deployment. We perform extensive experiments and show significant improvements over baselines in picking up diverse objects in different configurations (heights, locations, orientations) and environments. Project page: https://wholebody-b1.github.io
翻訳日:2024-03-27 20:24:47 公開日:2024-03-25
# 文脈記述のための最短編集スクリプト手法の評価

Evaluating Shortest Edit Script Methods for Contextual Lemmatization ( http://arxiv.org/abs/2403.16968v1 )

ライセンス: Link先を確認
Olia Toporkov, Rodrigo Agerri, (参考訳) 現代の文脈補綴器は、しばしば自動生成されたショートスト編集スクリプト(SES)、すなわち、単語形式を補題に変換するための編集操作の数に依存している。 実際、SESの様々な計算方法が、現在利用可能な最先端の文脈補間器のアーキテクチャにおける重要なコンポーネントとして提案されている。 しかし, 最終補修性能に対するSESの直接的影響は, これまでの研究では調査されていない。 本稿では,モデルが受信する唯一の入力がコンテキスト内の単語ラベルペアであり,ラベルが予め生成されたSESに対応するトークン分類タスクとして,補題化に着目してこの問題に対処する。 したがって、モデルが学習する必要があるSESラベルのみを補修システムに修正することにより、SES表現がどの補修結果に最適な結果をもたらすかを客観的に結論付けることができる。 我々は,英語,スペイン語,バスク語,ロシア語,チェコ語,トルコ語,ポーランド語の7言語を,多言語および言語固有のマスク付き言語エンコーダのみのモデルをバックボーンとして使用して実験を行った。 包括的実験結果(ドメイン内および外部の両方)は、ケーシングと編集操作を別々に計算することが、全体として有益であることを示しているが、高機能な形態を持つ言語ではより明確である。 特に、多言語事前学習言語モデルは、評価設定毎に言語固有のモデルよりも一貫して優れています。

Modern contextual lemmatizers often rely on automatically induced Shortest Edit Scripts (SES), namely, the number of edit operations to transform a word form into its lemma. In fact, different methods of computing SES have been proposed as an integral component in the architecture of several state-of-the-art contextual lemmatizers currently available. However, previous work has not investigated the direct impact of SES in the final lemmatization performance. In this paper we address this issue by focusing on lemmatization as a token classification task where the only input that the model receives is the word-label pairs in context, where the labels correspond to previously induced SES. Thus, by modifying in our lemmatization system only the SES labels that the model needs to learn, we may then objectively conclude which SES representation produces the best lemmatization results. We experiment with seven languages of different morphological complexity, namely, English, Spanish, Basque, Russian, Czech, Turkish and Polish, using multilingual and language-specific pre-trained masked language encoder-only models as a backbone to build our lemmatizers. Comprehensive experimental results, both in- and out-of-domain, indicate that computing the casing and edit operations separately is beneficial overall, but much more clearly for languages with high-inflected morphology. Notably, multilingual pre-trained language models consistently outperform their language-specific counterparts in every evaluation setting.
翻訳日:2024-03-27 20:24:47 公開日:2024-03-25
# 多段階協調学習による共同胸部X線診断と臨床視覚的注意予測 : 解釈可能性の向上

Joint chest X-ray diagnosis and clinical visual attention prediction with multi-stage cooperative learning: enhancing interpretability ( http://arxiv.org/abs/2403.16970v1 )

ライセンス: Link先を確認
Zirui Qiu, Hassan Rivaz, Yiming Xiao, (参考訳) 深層学習がコンピュータ支援診断の最先端となるにつれ、自動判断の解釈可能性も臨床展開に欠かせないものとなっている。 この領域では様々な方法が提案されているが、放射線検診における臨床医の視覚的注意マップは重要な洞察を与え、コンピュータ支援診断の質を高める可能性がある。 本稿では,胸部X線検査における関節疾患診断のための新しい深層学習フレームワークを提案する。 具体的には、DenseNet201バックボーンとResidualとSqueeze-and-Excitationブロックベースのエンコーダを併用した、新しいデュアルエンコーダマルチタスクUNetと、病気分類を行うマルチスケール機能融合分類器を設計した。 マルチタスク学習における個別タスクの非同期トレーニングスケジュールの課題に対処するため,我々は多段階協調学習戦略を提案し,性能向上のための特徴エンコーダ事前学習のためのコントラスト学習を行った。 実験の結果,提案手法は胸部X線診断や視力マップの精度に優れていた。

As deep learning has become the state-of-the-art for computer-assisted diagnosis, interpretability of the automatic decisions is crucial for clinical deployment. While various methods were proposed in this domain, visual attention maps of clinicians during radiological screening offer a unique asset to provide important insights and can potentially enhance the quality of computer-assisted diagnosis. With this paper, we introduce a novel deep-learning framework for joint disease diagnosis and prediction of corresponding visual saliency maps for chest X-ray scans. Specifically, we designed a novel dual-encoder multi-task UNet, which leverages both a DenseNet201 backbone and a Residual and Squeeze-and-Excitation block-based encoder to extract diverse features for saliency map prediction, and a multi-scale feature-fusion classifier to perform disease classification. To tackle the issue of asynchronous training schedules of individual tasks in multi-task learning, we proposed a multi-stage cooperative learning strategy, with contrastive learning for feature encoder pretraining to boost performance. Experiments show that our proposed method outperformed existing techniques for chest X-ray diagnosis and the quality of visual saliency map prediction.
翻訳日:2024-03-27 20:24:47 公開日:2024-03-25
# VoiceCraft: 野生でのゼロショット音声編集とテキスト音声編集

VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild ( http://arxiv.org/abs/2403.16973v1 )

ライセンス: Link先を確認
Puyuan Peng, Po-Yao Huang, Daniel Li, Abdelrahman Mohamed, David Harwath, (参考訳) 我々は、音声ブック、インターネットビデオ、ポッドキャストの音声編集とゼロショットテキスト音声(TTS)の両方で最先端のパフォーマンスを実現する、トークンを埋め込んだニューラルコーデック言語モデルであるVoiceCraftを紹介した。 VoiceCraftはTransformerデコーダアーキテクチャを採用し、因果マスクと遅延スタックを組み合わせたトークン再構成手順を導入し、既存のシーケンス内で生成を可能にする。 音声編集タスクにおいて、VoiceCraftは、人間によって評価された自然性の観点から、未編集録音とほとんど区別できない編集音声を生成する。 重要な点として、これらのモデルは、多様なアクセント、話し方、録音条件、バックグラウンドノイズと音楽からなる、挑戦的で現実的なデータセットに基づいて評価され、我々のモデルは、他のモデルや実際の録音と比較して一貫してよく機能する。 特に、音声編集評価には、RealEditという高品質で挑戦的で現実的なデータセットを導入します。 私たちは読者に対して、https://jasonppy.github.io/VoiceCraft_web.comでデモを聞くように勧めています。

We introduce VoiceCraft, a token infilling neural codec language model, that achieves state-of-the-art performance on both speech editing and zero-shot text-to-speech (TTS) on audiobooks, internet videos, and podcasts. VoiceCraft employs a Transformer decoder architecture and introduces a token rearrangement procedure that combines causal masking and delayed stacking to enable generation within an existing sequence. On speech editing tasks, VoiceCraft produces edited speech that is nearly indistinguishable from unedited recordings in terms of naturalness, as evaluated by humans; for zero-shot TTS, our model outperforms prior SotA models including VALLE and the popular commercial model XTTS-v2. Crucially, the models are evaluated on challenging and realistic datasets, that consist of diverse accents, speaking styles, recording conditions, and background noise and music, and our model performs consistently well compared to other models and real recordings. In particular, for speech editing evaluation, we introduce a high quality, challenging, and realistic dataset named RealEdit. We encourage readers to listen to the demos at https://jasonppy.github.io/VoiceCraft_web.
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# 自己-STORM:超解像顕微鏡のための深層アンロール型自己-スーパービジョン学習

Self-STORM: Deep Unrolled Self-Supervised Learning for Super-Resolution Microscopy ( http://arxiv.org/abs/2403.16974v1 )

ライセンス: Link先を確認
Yair Ben Sahel, Yonina C. Eldar, (参考訳) 蛍光分子を用いて低密度、回折制限画像の長い配列を生成することにより、高精度な分子局在化が可能となる。 しかし、この手法は、短い時間スケールで生きた細胞の動的相互作用を見る能力を制限する、長時間のイメージング時間を必要とする。 古典的な反復最適化からディープニューラルネットワークに至るまで、ローカライズに必要なフレーム数を減らすために多くの技術が開発されている。 特にディープ・アルゴリズム・アンローリングは反復スパース・リカバリ・アルゴリズムの構造と教師付きディープ・ラーニングの性能向上を両立させる。 しかし、このアプローチの堅牢性は十分なトレーニングデータを持つことに大きく依存している。 本稿では、与えられた測定値からのみ学習するシーケンス固有モデルベースオートエンコーダをトレーニングすることにより、そのようなデータの必要性を軽減する、深層無学習型自己教師学習を提案する。 提案手法は, 教師付き撮像装置の性能を超越し, ラベル付きトレーニングサンプルを使わずに, 回折限界以下で頑健でダイナミックな撮像が可能となる。 さらに、モデルベースのオートエンコーダスキームを用いて、任意のスパースリカバリフレームワークの一般化を、外部トレーニングデータを必要とせずに向上させることができる。

The use of fluorescent molecules to create long sequences of low-density, diffraction-limited images enables highly-precise molecule localization. However, this methodology requires lengthy imaging times, which limits the ability to view dynamic interactions of live cells on short time scales. Many techniques have been developed to reduce the number of frames needed for localization, from classic iterative optimization to deep neural networks. Particularly, deep algorithm unrolling utilizes both the structure of iterative sparse recovery algorithms and the performance gains of supervised deep learning. However, the robustness of this approach is highly dependant on having sufficient training data. In this paper we introduce deep unrolled self-supervised learning, which alleviates the need for such data by training a sequence-specific, model-based autoencoder that learns only from given measurements. Our proposed method exceeds the performance of its supervised counterparts, thus allowing for robust, dynamic imaging well below the diffraction limit without any labeled training samples. Furthermore, the suggested model-based autoencoder scheme can be utilized to enhance generalization in any sparse recovery framework, without the need for external training data.
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# 大学レベルコーディングコースにおける人間, GPT-3.5, GPT-4の性能比較

A comparison of Human, GPT-3.5, and GPT-4 Performance in a University-Level Coding Course ( http://arxiv.org/abs/2403.16977v1 )

ライセンス: Link先を確認
Will Yeadon, Alex Peach, Craig P. Testrow, (参考訳) 本研究は,大学院生と大学院生の両方がPython言語を用いた物理コーディング課題に貢献する混成カテゴリーに対して,直接的・即興的な工学的手法によるChatGPT変種であるGPT-3.5とGPT-4の性能評価を行った。 50人の学生が、さまざまなカテゴリーにまたがって50のAI生成申請を提出し、3つの独立したマーカーによって盲目的にマークされた結果、私たちは、n = 300$のデータポイントを収集しました。 学生の平均は91.9%(SE:0.4)で、AIの応募部門では最高水準のGPT-4を上回り、81.1%(SE:0.8)と統計的に有意な差(p = $2.482 \times 10^{-10}$)を記録した。 プロンプトエンジニアリングは GPT-4 (p = $1.661 \times 10^{-4}$) と GPT-3.5 (p = 4.967 \times 10^{-9}$) のスコアを大幅に改善した。 さらに、盲目のマーカーは、応募の著者を『定点AI』から『定点人間』まで4点の『等級』スケールで推測する任務を負った。 彼らは著者を正確に特定し、作品の92.1%を「定員」に分類した。 これを2進の 'AI' や 'Human' の分類に単純化すると、平均精度は85.3%になった。 これらの結果から,AIによる作業は大学生の作業の質に近づきつつも,人間の評価者によって検出されることが多いことが示唆された。

This study evaluates the performance of ChatGPT variants, GPT-3.5 and GPT-4, both with and without prompt engineering, against solely student work and a mixed category containing both student and GPT-4 contributions in university-level physics coding assignments using the Python language. Comparing 50 student submissions to 50 AI-generated submissions across different categories, and marked blindly by three independent markers, we amassed $n = 300$ data points. Students averaged 91.9% (SE:0.4), surpassing the highest performing AI submission category, GPT-4 with prompt engineering, which scored 81.1% (SE:0.8) - a statistically significant difference (p = $2.482 \times 10^{-10}$). Prompt engineering significantly improved scores for both GPT-4 (p = $1.661 \times 10^{-4}$) and GPT-3.5 (p = $4.967 \times 10^{-9}$). Additionally, the blinded markers were tasked with guessing the authorship of the submissions on a four-point Likert scale from `Definitely AI' to `Definitely Human'. They accurately identified the authorship, with 92.1% of the work categorized as 'Definitely Human' being human-authored. Simplifying this to a binary `AI' or `Human' categorization resulted in an average accuracy rate of 85.3%. These findings suggest that while AI-generated work closely approaches the quality of university students' work, it often remains detectable by human evaluators.
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# 単純二項仮説検査の複雑さ

The Sample Complexity of Simple Binary Hypothesis Testing ( http://arxiv.org/abs/2403.16981v1 )

ライセンス: Link先を確認
Ankit Pensia, Varun Jog, Po-Ling Loh, (参考訳) 単純二項仮説検定のサンプル複雑性は、2つの分布を区別するのに必要となる最小のi.d.サンプル数である。 (i)type-Iエラーが最大$\alpha$、type-IIエラーが最大$\beta$;、または (ii)ベイズ誤差は最大$\delta$で、事前分布$(\alpha, 1-\alpha)$である。 この問題は、$\alpha = \beta$ (prior-free) または $\alpha = 1/2$ (Bayesian) でのみ研究され、サンプルの複雑さは、乗法定数まで、$p$ と $q$ の間のヘリンガーの発散によって特徴づけられることが知られている。 本稿では, サンプルの複雑さ($p$, $q$, and all error parameters)を特徴づける式を導出する。 (i)すべての$0 \le \alpha, \beta \le 1/8$ (ii)ベイズ設定ですべての$\delta \le \alpha/4$ 特に、式はジェンセン=シャノン家(英語版)とヘリンガー家(英語版)のある種の相違点の観点から等価な表現を認める。 主な技術的結果は、情報理論ツールとケース・バイ・ケース分析の組み合わせによって証明されたジェンセン=シャノン家とヘリンジャー家のメンバー間の$f$分割不等式に関するものである。 我々は、ロバストで分散された(ローカルにプライベートで、通信に制約のある)仮説テストへの結果の適用について検討する。

The sample complexity of simple binary hypothesis testing is the smallest number of i.i.d. samples required to distinguish between two distributions $p$ and $q$ in either: (i) the prior-free setting, with type-I error at most $\alpha$ and type-II error at most $\beta$; or (ii) the Bayesian setting, with Bayes error at most $\delta$ and prior distribution $(\alpha, 1-\alpha)$. This problem has only been studied when $\alpha = \beta$ (prior-free) or $\alpha = 1/2$ (Bayesian), and the sample complexity is known to be characterized by the Hellinger divergence between $p$ and $q$, up to multiplicative constants. In this paper, we derive a formula that characterizes the sample complexity (up to multiplicative constants that are independent of $p$, $q$, and all error parameters) for: (i) all $0 \le \alpha, \beta \le 1/8$ in the prior-free setting; and (ii) all $\delta \le \alpha/4$ in the Bayesian setting. In particular, the formula admits equivalent expressions in terms of certain divergences from the Jensen--Shannon and Hellinger families. The main technical result concerns an $f$-divergence inequality between members of the Jensen--Shannon and Hellinger families, which is proved by a combination of information-theoretic tools and case-by-case analyses. We explore applications of our results to robust and distributed (locally-private and communication-constrained) hypothesis testing.
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# 多面的概念埋め込みを用いたCommonsense Commonalitiesのモデリング

Modelling Commonsense Commonalities with Multi-Facet Concept Embeddings ( http://arxiv.org/abs/2403.16984v1 )

ライセンス: Link先を確認
Hanane Kteich, Na Li, Usashi Chatterjee, Zied Bouraoui, Steven Schockaert, (参考訳) コンセプト埋め込みは、下流のタスクに常識知識を注入するための実用的で効率的なメカニズムを提供する。 彼らの中核的な目的は、しばしば概念自体の常識的性質を予測しないことではなく、共通の性質、すなわちある興味のある性質を共有する概念の集合を識別することである。 このような共通性は帰納的一般化の基礎であり、したがって高品質な概念の埋め込みは学習を容易にし、より堅牢にすることができる。 残念なことに、標準埋め込みは主に基本的な分類学のカテゴリーを反映しており、より特定の側面(例えば、対象の色や素材)を参照する共通点を見つけるのに適さない。 本稿では,概念の埋め込みを学習する際の関心の異なる側面を明示的にモデル化することで,この制限に対処する。 これは、より多様なコモンセンス特性をキャプチャし、超微細なエンティティタイピングやオントロジー補完といった下流タスクの結果を一貫して改善する埋め込みにつながることを示す。

Concept embeddings offer a practical and efficient mechanism for injecting commonsense knowledge into downstream tasks. Their core purpose is often not to predict the commonsense properties of concepts themselves, but rather to identify commonalities, i.e.\ sets of concepts which share some property of interest. Such commonalities are the basis for inductive generalisation, hence high-quality concept embeddings can make learning easier and more robust. Unfortunately, standard embeddings primarily reflect basic taxonomic categories, making them unsuitable for finding commonalities that refer to more specific aspects (e.g.\ the colour of objects or the materials they are made of). In this paper, we address this limitation by explicitly modelling the different facets of interest when learning concept embeddings. We show that this leads to embeddings which capture a more diverse range of commonsense properties, and consistently improves results in downstream tasks such as ultra-fine entity typing and ontology completion.
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# ゴール指向セマンティック通信のための動的相対表現

Dynamic Relative Representations for Goal-Oriented Semantic Communications ( http://arxiv.org/abs/2403.16986v1 )

ライセンス: Link先を確認
Simone Fiorellino, Claudio Battiloro, Emilio Calvanese Strinati, Paolo Di Lorenzo, (参考訳) 将来の6G無線ネットワークでは、意味と関連性を伝達に取り入れることで、コミュニケーションのセマンティクスと効果の側面が基本的役割を果たす。 しかし、デバイスが多種多様な言語、論理、あるいは内部表現を使用すると、意味的なミスマッチが発生し、理解を阻害する可能性がある。 潜時空間通信において、この課題は、ディープニューラルネットワークがデータをエンコードする高次元表現における誤調整として現れる。 本稿では、相対表現を利用して、潜在空間アライメントによる意味ミスマッチを緩和する、ゴール指向のセマンティックコミュニケーションのための新しいフレームワークを提案する。 本稿では,相対表現,通信パラメータ,計算資源をエネルギー効率,低レイテンシ,目標指向のセマンティック通信に適用する動的最適化手法を提案する。 シミュレーションの結果,装置間のミスマッチを軽減し,エネルギー消費,遅延,有効性を最適化する手法の有効性が示された。

In future 6G wireless networks, semantic and effectiveness aspects of communications will play a fundamental role, incorporating meaning and relevance into transmissions. However, obstacles arise when devices employ diverse languages, logic, or internal representations, leading to semantic mismatches that might jeopardize understanding. In latent space communication, this challenge manifests as misalignment within high-dimensional representations where deep neural networks encode data. This paper presents a novel framework for goal-oriented semantic communication, leveraging relative representations to mitigate semantic mismatches via latent space alignment. We propose a dynamic optimization strategy that adapts relative representations, communication parameters, and computation resources for energy-efficient, low-latency, goal-oriented semantic communications. Numerical results demonstrate our methodology's effectiveness in mitigating mismatches among devices, while optimizing energy consumption, delay, and effectiveness.
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# Be Yourself:マルチオブジェクトテキスト・ツー・イメージ・ジェネレーションのためのコンテキストアテンション

Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation ( http://arxiv.org/abs/2403.16990v1 )

ライセンス: Link先を確認
Omer Dahary, Or Patashnik, Kfir Aberman, Daniel Cohen-Or, (参考訳) テキストから画像への拡散モデルは、多彩で高品質な画像を生成するという前例のない能力を持っている。 しかし、彼らはしばしば、複数の主題を含む複雑な入力プロンプトの意図された意味を忠実に捉えるのに苦労する。 近年、特定のトークンで表される対象をローカライズすることを目的として、ユーザ制御を改善するために多数のレイアウト・ツー・イメージ拡張が導入されている。 しかし、これらの手法は、特に複数の意味的または視覚的に類似した主題を扱う場合、しばしば意味的に不正確な画像を生成する。 本研究では,これらの制約の原因を研究・分析する。 調査の結果,主課題は認知過程における被験者間の不注意な意味的漏洩に起因することが明らかとなった。 この漏れは拡散モデルの注意層によるもので、異なる被験者の視覚的特徴をブレンドする傾向がある。 これらの問題に対処するために、サンプリングプロセスにおける情報の流れを束縛する訓練不要な手法である境界注意法(Bounded Attention)を導入する。 境界注意(Bounded Attention)は、被写体間の有害な漏洩を防止し、複雑なマルチオブジェクト・コンディショニングであっても、各被写体の個性を促進するための誘導を可能にする。 広範にわたる実験により,提案手法は,与えられたプロンプトやレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。

Text-to-image diffusion models have an unprecedented ability to generate diverse and high-quality images. However, they often struggle to faithfully capture the intended semantics of complex input prompts that include multiple subjects. Recently, numerous layout-to-image extensions have been introduced to improve user control, aiming to localize subjects represented by specific tokens. Yet, these methods often produce semantically inaccurate images, especially when dealing with multiple semantically or visually similar subjects. In this work, we study and analyze the causes of these limitations. Our exploration reveals that the primary issue stems from inadvertent semantic leakage between subjects in the denoising process. This leakage is attributed to the diffusion model's attention layers, which tend to blend the visual features of different subjects. To address these issues, we introduce Bounded Attention, a training-free method for bounding the information flow in the sampling process. Bounded Attention prevents detrimental leakage among subjects and enables guiding the generation to promote each subject's individuality, even with complex multi-subject conditioning. Through extensive experimentation, we demonstrate that our method empowers the generation of multiple subjects that better align with given prompts and layouts.
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# Comp4D: LLM-Guided compositional 4D Scene Generation

Comp4D: LLM-Guided Compositional 4D Scene Generation ( http://arxiv.org/abs/2403.16993v1 )

ライセンス: Link先を確認
Dejia Xu, Hanwen Liang, Neel P. Bhatt, Hezhen Hu, Hanxue Liang, Konstantinos N. Plataniotis, Zhangyang Wang, (参考訳) 近年の2次元および3次元コンテンツ生成の拡散モデルの発展により、4次元コンテンツ生成への関心が高まっている。 しかし、3Dシーンデータセットの不足は、現在の方法論を主にオブジェクト中心の生成に制約する。 この制限を克服するために,コンポジション4D生成のための新しいフレームワークであるComp4Dを提案する。 シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。 LLM(Large Language Models)を利用することで、入力テキストプロンプトを別のエンティティに分解し、そのトラジェクトリをマップアウトする。 そして、これらのオブジェクトを指定された経路に沿って正確に配置することで、合成4Dシーンを構築する。 そこで本手法では,テキスト・ツー・イメージ,テキスト・トゥ・ビデオ,テキスト・トゥ・3Dドメイン間の事前学習拡散モデルを用いて,事前に定義されたトラジェクトリによって導かれる合成スコアの蒸留手法を用いる。 広汎な実験は、先行技術に比べて優れた4Dコンテンツ作成能力を示し、優れた視覚的品質、動きの忠実さ、強化された物体相互作用を示す。

Recent advancements in diffusion models for 2D and 3D content creation have sparked a surge of interest in generating 4D content. However, the scarcity of 3D scene datasets constrains current methodologies to primarily object-centric generation. To overcome this limitation, we present Comp4D, a novel framework for Compositional 4D Generation. Unlike conventional methods that generate a singular 4D representation of the entire scene, Comp4D innovatively constructs each 4D object within the scene separately. Utilizing Large Language Models (LLMs), the framework begins by decomposing an input text prompt into distinct entities and maps out their trajectories. It then constructs the compositional 4D scene by accurately positioning these objects along their designated paths. To refine the scene, our method employs a compositional score distillation technique guided by the pre-defined trajectories, utilizing pre-trained diffusion models across text-to-image, text-to-video, and text-to-3D domains. Extensive experiments demonstrate our outstanding 4D content creation capability compared to prior arts, showcasing superior visual quality, motion fidelity, and enhanced object interactions.
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# 画像変換をピクセルプロセッサアレイにマッピングする

Mapping Image Transformations Onto Pixel Processor Arrays ( http://arxiv.org/abs/2403.16994v1 )

ライセンス: Link先を確認
Laurie Bose, Piotr Dudek, (参考訳) Pixel Processor Arrays (PPA)は、SIMD配列からなる新しい視覚センサ/プロセッサアーキテクチャを提供する。 このような装置は、視覚データを焦点面に直接効率よく保存し、操作することを可能にし、また、非常に並列な微細なプロセッサアレイに適した新しいアプローチとアルゴリズムの発明も要求する。 本稿では, せん断, 回転, スケーリングなど様々な画像変換をPPA上で直接行う方法を示す。 実装の詳細は、256x256ピクセル並列アレイを含むSCAMP-5ビジョンチップを用いて提示される。 本手法は,セルプロセッサアレイの並列計算を効率よく利用し,SIMD命令数を最小限に抑える。 これらの基本的な画像変換は多くの視覚的タスクにとって重要な構成要素である。 本稿では,PPAアーキテクチャの柔軟性を実証しながら,今後のPPA研究の参考となることを目的とする。

Pixel Processor Arrays (PPA) present a new vision sensor/processor architecture consisting of a SIMD array of processor elements, each capable of light capture, storage, processing and local communication. Such a device allows visual data to be efficiently stored and manipulated directly upon the focal plane, but also demands the invention of new approaches and algorithms, suitable for the massively-parallel fine-grain processor arrays. In this paper we demonstrate how various image transformations, including shearing, rotation and scaling, can be performed directly upon a PPA. The implementation details are presented using the SCAMP-5 vision chip, that contains a 256x256 pixel-parallel array. Our approaches for performing the image transformations efficiently exploit the parallel computation in a cellular processor array, minimizing the number of SIMD instructions required. These fundamental image transformations are vital building blocks for many visual tasks. This paper aims to serve as a reference for future PPA research while demonstrating the flexibility of PPA architectures.
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# 言語認識フロー:確率的フローによる拡散言語生成の促進

Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows ( http://arxiv.org/abs/2403.16995v1 )

ライセンス: Link先を確認
Shujian Zhang, Lemeng Wu, Chengyue Gong, Xingchao Liu, (参考訳) 最近の研究は、拡散言語モデルに基づく文属性(例 $, 感情)と構造(例 $, 構文構造)の制御に成功している。 ノイズから高品質なサンプルを生成するための印象的なパフォーマンスを駆動する重要なコンポーネントは、何千ものステップに対して反復的に装飾的だ。 メリットはあるものの、ノイズと学習ステップから始める複雑さは、その実装を多くのNLP実世界のアプリケーションに限定している。 本稿では,Language Rectified Flow ({\ours})を提案する。 本手法は, 標準確率流モデルの再構成に基づく。 言語修正フローは、(神経)常微分方程式モデルを学び、ソース分布とターゲット分布の間を移動し、生成的モデリングとドメイン転送に対する統一的で効果的なソリューションを提供する。 ソース分布から,我々の言語修正フローは高速なシミュレーションを行い,推論時間を効果的に短縮する。 3つの難易度制御タスクと複数の高品質テキスト編集実験により,本手法がベースラインを一貫して上回ることを示す。 大規模な実験とアブレーション研究により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。

Recent works have demonstrated success in controlling sentence attributes ($e.g.$, sentiment) and structure ($e.g.$, syntactic structure) based on the diffusion language model. A key component that drives theimpressive performance for generating high-quality samples from noise is iteratively denoise for thousands of steps. While beneficial, the complexity of starting from the noise and the learning steps has limited its implementation to many NLP real-world applications. This paper proposes Language Rectified Flow ({\ours}). Our method is based on the reformulation of the standard probabilistic flow models. Language rectified flow learns (neural) ordinary differential equation models to transport between the source distribution and the target distribution, hence providing a unified and effective solution to generative modeling and domain transfer. From the source distribution, our language rectified flow yields fast simulation and effectively decreases the inference time. Experiments on three challenging fine-grained control tasks and multiple high-quality text editing show that our method consistently outperforms its baselines. Extensive experiments and ablation studies demonstrate that our method can be general, effective, and beneficial for many NLP tasks.
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# DriveCoT: チェーン・オブ・サート・ライソンとエンド・ツー・エンド・ドライブの統合

DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving ( http://arxiv.org/abs/2403.16996v1 )

ライセンス: Link先を確認
Tianqi Wang, Enze Xie, Ruihang Chu, Zhenguo Li, Ping Luo, (参考訳) 近年、エンド・ツー・エンドの運転は大きな進歩を遂げており、オープンループとクローズドループの両方の設定で、システムの単純さや競争力のある運転性能などの利点を実証している。 それでも、運転決定における解釈可能性と制御可能性の欠如は、エンド・ツー・エンドの運転システムの現実的な展開を妨げる。 本稿では,CARLAシミュレータを利用して,DriveCoTという総合的なエンドツーエンド運転データセットを収集する。 センサーデータ、制御決定、および推論プロセスを示すチェーン・オブ・シークレット・ラベルが含まれている。 我々は、高速運転と車線変更を含むCARLAリーダーボード2.0からの挑戦的な運転シナリオを活用し、車両を制御するためのルールベースの専門家ポリシーを提案し、異なる運転面と最終決定事項にまたがる推論プロセスのための基礎的真実ラベルを生成する。 このデータセットは、オープンループのエンドツーエンド駆動ベンチマークとして機能し、さまざまなチェーン・オブ・ソートにおける精度の評価と最終的な決定を可能にする。 さらに,私たちのデータセットに基づいてトレーニングされたDriveCoT-Agentと呼ばれるベースラインモデルを提案し,連鎖予測と最終決定を生成する。 トレーニングされたモデルは,オープンループおよびクローズループ評価の両方において高い性能を示し,提案したデータセットの有効性を示す。

End-to-end driving has made significant progress in recent years, demonstrating benefits such as system simplicity and competitive driving performance under both open-loop and closed-loop settings. Nevertheless, the lack of interpretability and controllability in its driving decisions hinders real-world deployment for end-to-end driving systems. In this paper, we collect a comprehensive end-to-end driving dataset named DriveCoT, leveraging the CARLA simulator. It contains sensor data, control decisions, and chain-of-thought labels to indicate the reasoning process. We utilize the challenging driving scenarios from the CARLA leaderboard 2.0, which involve high-speed driving and lane-changing, and propose a rule-based expert policy to control the vehicle and generate ground truth labels for its reasoning process across different driving aspects and the final decisions. This dataset can serve as an open-loop end-to-end driving benchmark, enabling the evaluation of accuracy in various chain-of-thought aspects and the final decision. In addition, we propose a baseline model called DriveCoT-Agent, trained on our dataset, to generate chain-of-thought predictions and final decisions. The trained model exhibits strong performance in both open-loop and closed-loop evaluations, demonstrating the effectiveness of our proposed dataset.
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# 濃密な文脈と識別的埋め込みによる合成ビデオ検索

Composed Video Retrieval via Enriched Context and Discriminative Embeddings ( http://arxiv.org/abs/2403.16997v1 )

ライセンス: Link先を確認
Omkar Thawakar, Muzammal Naseer, Rao Muhammad Anwer, Salman Khan, Michael Felsberg, Mubarak Shah, Fahad Shahbaz Khan, (参考訳) 合成ビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題であり、最近、大規模なデータベースにおけるより洗練されたビデオ検索のための修正テキストとビジュアルクエリの統合を強調した。 既存の作品は、視覚的なクエリと、関連する動画を区別するための修正テキストに大きく依存している。 しかし、このような戦略は、検索されたターゲットビデオにおけるリッチなクエリ固有のコンテキストを完全に保存し、ビジュアル埋め込みを使用してターゲットビデオのみを表現するのに苦労する。 クエリ固有のコンテキスト情報を明示的にエンコードするために、詳細な言語記述を活用する新しいCoVRフレームワークを導入し、視覚のみ、テキストのみ、および視覚テキストの識別的埋め込みを学習し、一致したターゲット映像を正確に検索する。 提案するフレームワークは、合成ビデオ(CoVR)と画像(CoIR)検索タスクの両方に柔軟に使用できる。 3つのデータセットで実験したところ、我々の手法はCovRタスクとゼロショットCoIRタスクの両方に対して最先端のパフォーマンスを得ることができ、リコール@K=1のスコアで7%程度向上することがわかった。 私たちのコード、モデル、WebViD-CoVRデータセットの詳細な言語記述は、 \url{https://github.com/OmkarThawakar/composed-video-retrieval} で公開されている。

Composed video retrieval (CoVR) is a challenging problem in computer vision which has recently highlighted the integration of modification text with visual queries for more sophisticated video search in large databases. Existing works predominantly rely on visual queries combined with modification text to distinguish relevant videos. However, such a strategy struggles to fully preserve the rich query-specific context in retrieved target videos and only represents the target video using visual embedding. We introduce a novel CoVR framework that leverages detailed language descriptions to explicitly encode query-specific contextual information and learns discriminative embeddings of vision only, text only and vision-text for better alignment to accurately retrieve matched target videos. Our proposed framework can be flexibly employed for both composed video (CoVR) and image (CoIR) retrieval tasks. Experiments on three datasets show that our approach obtains state-of-the-art performance for both CovR and zero-shot CoIR tasks, achieving gains as high as around 7% in terms of recall@K=1 score. Our code, models, detailed language descriptions for WebViD-CoVR dataset are available at \url{https://github.com/OmkarThawakar/composed-video-retrieval}
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# 1つのマルチモーダル言語モデルパスにおけるロングビデオの理解

Understanding Long Videos in One Multimodal Language Model Pass ( http://arxiv.org/abs/2403.16998v1 )

ライセンス: Link先を確認
Kanchana Ranasinghe, Xiang Li, Kumara Kahatapitiya, Michael S. Ryoo, (参考訳) LLM(Large Language Models)は,Long-Video Understandingベンチマークにおいて,高い推論コストで優れたパフォーマンスを実現するために,近年のアプローチを実現している。 本研究で提案するLikelihood Selectionは,長時間ビデオベンチマークに共通する複数選択タスクに対して,自己回帰型LLMにおける高速な推論を解放するシンプルな手法である。 より高速な推論に加えて、結果のモデルがビデオ特有の情報のない長いビデオのタスクに対して驚くほど正確な精度が得られることを発見した。 そこで本研究では,市販の事前学習モデルから抽出したビデオ固有のオブジェクト中心情報を注入し,自然言語を情報融合の媒体として利用する。 我々のMultimodal Video Understanding (MVU)フレームワークは、長ビデオおよびきめ細かいアクション認識ベンチマークにまたがって最先端のパフォーマンスを示す。 コード https://github.com/kahnchana/mvu

Large Language Models (LLMs), known to contain a strong awareness of world knowledge, have allowed recent approaches to achieve excellent performance on Long-Video Understanding benchmarks, but at high inference costs. In this work, we first propose Likelihood Selection, a simple technique that unlocks faster inference in autoregressive LLMs for multiple-choice tasks common in long-video benchmarks. In addition to faster inference, we discover the resulting models to yield surprisingly good accuracy on long-video tasks, even with no video specific information. Building on this, we inject video-specific object-centric information extracted from off-the-shelf pre-trained models and utilize natural language as a medium for information fusion. Our resulting Multimodal Video Understanding (MVU) framework demonstrates state-of-the-art performance across long-video and fine-grained action recognition benchmarks. Code available at: https://github.com/kahnchana/mvu
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# Visual CoT: マルチモーダル言語モデルにおけるChain-of-Thought Reasoning

Visual CoT: Unleashing Chain-of-Thought Reasoning in Multi-Modal Language Models ( http://arxiv.org/abs/2403.16999v1 )

ライセンス: Link先を確認
Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, Hongsheng Li, (参考訳) 本稿では,マルチモーダル大規模言語モデル (MLLM) の推論機能を利用した新しいパイプラインである Visual CoT について述べる。 MLLMは様々な視覚的タスクにおいて有望であるが、解釈可能性や複雑な視覚的入力に欠けることが多い。 これらの課題に対処するために,視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。 373k の質問応答対からなる Visual CoT データセットを収集,導入した。 重要な点として、導入されたベンチマークでは、特定のローカルリージョンの識別を必要とするシナリオでMLLMを評価することができる。 大規模な実験は、我々のフレームワークの有効性を示し、より良い推論戦略に光を当てた。 Visual CoTデータセット、ベンチマーク、事前トレーニングされたモデルは、この方向のさらなる研究を促進するために利用可能である。

This paper presents Visual CoT, a novel pipeline that leverages the reasoning capabilities of multi-modal large language models (MLLMs) by incorporating visual Chain-of-Thought (CoT) reasoning. While MLLMs have shown promise in various visual tasks, they often lack interpretability and struggle with complex visual inputs. To address these challenges, we propose a multi-turn processing pipeline that dynamically focuses on visual inputs and provides interpretable thoughts. We collect and introduce the Visual CoT dataset comprising 373k question-answer pairs, annotated with intermediate bounding boxes highlighting key regions essential for answering the questions. Importantly, the introduced benchmark is capable of evaluating MLLMs in scenarios requiring specific local region identification. Extensive experiments demonstrate the effectiveness of our framework and shed light on better inference strategies. The Visual CoT dataset, benchmark, and pre-trained models are available to foster further research in this direction.
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# ビデオ超解法における拡散モデルにおける空間適応と時間コヒーレンス学習

Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution ( http://arxiv.org/abs/2403.17000v1 )

ライセンス: Link先を確認
Zhikai Chen, Fuchen Long, Zhaofan Qiu, Ting Yao, Wengang Zhou, Jiebo Luo, Tao Mei, (参考訳) 拡散モデルは、画像超解像タスクの転換点にすぎません。 しかし,低解像度映像から高解像度映像への視覚的外観の保存だけでなく,映像フレーム間の時間的整合性も必要である超高解像度映像の拡散モデルを活用することは容易ではない。 本稿では,ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。 SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。 技術的には、SATeCoは事前訓練されたUNetとVAEのパラメータをすべて凍結し、UNetとVAEのデコーダにおいて、意図的に設計された2つの空間的特徴適応(SFA)と時間的特徴アライメント(TFA)モジュールのみを最適化する。 SFAは、各画素に対するアフィンパラメータを適応的に推定することでフレーム特性を変調し、高解像度フレーム合成のための画素ワイズガイダンスを保証する。 TFAは、自己注意を通して3Dローカルウインドウ(チューブレット)内の機能相互作用を掘り下げ、チューブレットと低解像度のチューレット間の交差アテンションを実行し、時間的特徴アライメントを誘導する。 REDS4データセットとVid4データセットで行った大規模な実験は、我々のアプローチの有効性を実証している。

Diffusion models are just at a tipping point for image super-resolution task. Nevertheless, it is not trivial to capitalize on diffusion models for video super-resolution which necessitates not only the preservation of visual appearance from low-resolution to high-resolution videos, but also the temporal consistency across video frames. In this paper, we propose a novel approach, pursuing Spatial Adaptation and Temporal Coherence (SATeCo), for video super-resolution. SATeCo pivots on learning spatial-temporal guidance from low-resolution videos to calibrate both latent-space high-resolution video denoising and pixel-space video reconstruction. Technically, SATeCo freezes all the parameters of the pre-trained UNet and VAE, and only optimizes two deliberately-designed spatial feature adaptation (SFA) and temporal feature alignment (TFA) modules, in the decoder of UNet and VAE. SFA modulates frame features via adaptively estimating affine parameters for each pixel, guaranteeing pixel-wise guidance for high-resolution frame synthesis. TFA delves into feature interaction within a 3D local window (tubelet) through self-attention, and executes cross-attention between tubelet and its low-resolution counterpart to guide temporal feature alignment. Extensive experiments conducted on the REDS4 and Vid4 datasets demonstrate the effectiveness of our approach.
翻訳日:2024-03-27 20:15:04 公開日:2024-03-25
# VP3D:テキストから3D生成のための2Dビジュアルプロンプトを公開

VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation ( http://arxiv.org/abs/2403.17001v1 )

ライセンス: Link先を確認
Yang Chen, Yingwei Pan, Haibo Yang, Ting Yao, Tao Mei, (参考訳) テキストから3D生成における最近のイノベーションは、暗黙的な3Dモデル(NeRF)のゼロショット学習を可能にするScore Distillation Sampling (SDS)が特徴である。 しかし、現在のSDSベースのモデルは、複雑なテキストプロンプトに苦戦しており、非現実的なテクスチャを持つ歪んだ3Dモデルや、クロスビューの不整合問題をもたらすのが一般的である。 本研究では,2次元視覚的プロンプトにおける視覚的外観知識を明示的に解き明かし,テキスト・トゥ・3D生成を促進する新しい視覚プロンプト誘導型3次元拡散モデル(VP3D)を提案する。 VP3DはテキストプロンプトでSDSだけを監督する代わりに、まず2D拡散モデルを利用して入力テキストから高品質な画像を生成し、視覚的プロンプトとして機能し、明示的な視覚的外観でSDS最適化を強化する。 一方,SDS最適化には,3次元モデルの画像を視覚的に2次元の視覚的プロンプトに整合させ,テキストプロンプトにセマンティックに整合させる,追加の微分可能報酬関数が組み合わさった。 広範にわたる実験により,VP3Dの2次元視覚プロンプトは3次元モデルの視覚的外観の学習を著しく容易にし,より詳細なテクスチャによる視覚的忠実度の向上につながることが示された。 また、自己生成型視覚プロンプトを所定の参照画像に置き換える場合、VP3Dはスタイリングされたテキスト・ツー・3D生成の新しいタスクを起動する。 私たちのプロジェクトページはhttps://vp3d-cvpr24.github.io.comで公開されている。

Recent innovations on text-to-3D generation have featured Score Distillation Sampling (SDS), which enables the zero-shot learning of implicit 3D models (NeRF) by directly distilling prior knowledge from 2D diffusion models. However, current SDS-based models still struggle with intricate text prompts and commonly result in distorted 3D models with unrealistic textures or cross-view inconsistency issues. In this work, we introduce a novel Visual Prompt-guided text-to-3D diffusion model (VP3D) that explicitly unleashes the visual appearance knowledge in 2D visual prompt to boost text-to-3D generation. Instead of solely supervising SDS with text prompt, VP3D first capitalizes on 2D diffusion model to generate a high-quality image from input text, which subsequently acts as visual prompt to strengthen SDS optimization with explicit visual appearance. Meanwhile, we couple the SDS optimization with additional differentiable reward function that encourages rendering images of 3D models to better visually align with 2D visual prompt and semantically match with text prompt. Through extensive experiments, we show that the 2D Visual Prompt in our VP3D significantly eases the learning of visual appearance of 3D models and thus leads to higher visual fidelity with more detailed textures. It is also appealing in view that when replacing the self-generating visual prompt with a given reference image, VP3D is able to trigger a new task of stylized text-to-3D generation. Our project page is available at https://vp3d-cvpr24.github.io.
翻訳日:2024-03-27 20:05:20 公開日:2024-03-25
# SD-DiT:拡散変圧器における自己教師付き判別のパワーを解放する

SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer ( http://arxiv.org/abs/2403.17004v1 )

ライセンス: Link先を確認
Rui Zhu, Yingwei Pan, Yehao Li, Ting Yao, Zhenglong Sun, Tao Mei, Chang Wen Chen, (参考訳) 拡散変換器(DiT)は画像生成における生成拡散モデルの新たなトレンドとして登場した。 典型的なDiTの収束が極めて遅いことを考えると、最近のブレークスルーは、追加のイメージ内文脈学習によるDiTのトレーニング効率を大幅に向上させるマスク戦略によって推進されている。 この進歩にもかかわらず、マスク戦略は依然として2つの固有の制限に悩まされている。 (a)トレーニング・推論の相違 b) マスク再構成と生成拡散過程のファジィ関係はDiTの準最適トレーニングをもたらす。 本研究は,DiTトレーニングを促進するための自己監督的識別知識を新たに開放することで,これらの制約に対処する。 技術的には、DiTを教師が教える方法でフレーム化します。 教師と教師の区別ペアは、同じ確率フロー正規微分方程式(PF-ODE)に沿った拡散雑音上に構築される。 DiTエンコーダとデコーダの両方にマスク再構成損失を施す代わりに、DiTエンコーダとデコーダを分離し、識別目的と生成目的を分離する。 特に、学生と教師のDiTエンコーダと差別的ペアを符号化することにより、自己監督型埋め込み空間における画像間のアライメントを促進するために、新たな差別的損失を設計する。 その後、学生サンプルを学生DiTデコーダに入力し、典型的な生成拡散タスクを実行する。 ImageNetデータセット上で大規模な実験を行い、本手法はトレーニングコストと生成能力の競合バランスを達成する。

Diffusion Transformer (DiT) has emerged as the new trend of generative diffusion models on image generation. In view of extremely slow convergence in typical DiT, recent breakthroughs have been driven by mask strategy that significantly improves the training efficiency of DiT with additional intra-image contextual learning. Despite this progress, mask strategy still suffers from two inherent limitations: (a) training-inference discrepancy and (b) fuzzy relations between mask reconstruction & generative diffusion process, resulting in sub-optimal training of DiT. In this work, we address these limitations by novelly unleashing the self-supervised discrimination knowledge to boost DiT training. Technically, we frame our DiT in a teacher-student manner. The teacher-student discriminative pairs are built on the diffusion noises along the same Probability Flow Ordinary Differential Equation (PF-ODE). Instead of applying mask reconstruction loss over both DiT encoder and decoder, we decouple DiT encoder and decoder to separately tackle discriminative and generative objectives. In particular, by encoding discriminative pairs with student and teacher DiT encoders, a new discriminative loss is designed to encourage the inter-image alignment in the self-supervised embedding space. After that, student samples are fed into student DiT decoder to perform the typical generative diffusion task. Extensive experiments are conducted on ImageNet dataset, and our method achieves a competitive balance between training cost and generative capacity.
翻訳日:2024-03-27 20:05:20 公開日:2024-03-25
# TRIP:画像と映像の拡散モデルに先立って画像ノイズを伴う時間残差学習

TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models ( http://arxiv.org/abs/2403.17005v1 )

ライセンス: Link先を確認
Zhongwei Zhang, Fuchen Long, Yingwei Pan, Zhaofan Qiu, Ting Yao, Yang Cao, Tao Mei, (参考訳) テキスト・ビデオ生成の最近の進歩は、強力な拡散モデルの有用性を実証している。 それでも、静的画像(つまり画像から映像生成)をアニメーション化するために拡散モデルを形作る場合、問題は簡単ではない。 この困難さは、その後のアニメーションフレームの拡散過程が、与えられた画像との忠実な整合性を維持するだけでなく、隣接するフレーム間の時間的コヒーレンスを追求することにも起因している。 そこで本研究では,静的画像から派生した画像ノイズをピボットし,フレーム間関係推論を共同で引き起こし,時間的残留学習によるコヒーレントな時間的モデリングを容易にする,画像間拡散パラダイムの新たなレシピであるTRIPを提案する。 技術的には、先行する画像ノイズは、静止画像と雑音付きビデオ潜時符号の両方に基づいて、1段階の後方拡散プロセスによって最初に達成される。 次に、TRIPはノイズ予測のための残差様デュアルパススキームを実行する。 1) 各フレームの基準ノイズとして画像ノイズを直接受け取り、第1フレームとその後のフレームとのアライメントを増幅するショートカットパス 2 フレーム間関係推論を可能にするため、3D-UNet をノイズ付きビデオおよび静的画像遅延符号上で使用し、各フレームに対する残雑音の学習を緩和する残留経路。 さらに、各フレームの参照ノイズと残ノイズは、最終映像生成のためのアテンション機構を介して動的にマージされる。 WebVid-10M, DTDB, MSR-VTTデータセットの大規模な実験により, TRIPによる画像・ビデオ生成の有効性が示された。 プロジェクトページはhttps://trip-i2v.github.io/TRIP/。

Recent advances in text-to-video generation have demonstrated the utility of powerful diffusion models. Nevertheless, the problem is not trivial when shaping diffusion models to animate static image (i.e., image-to-video generation). The difficulty originates from the aspect that the diffusion process of subsequent animated frames should not only preserve the faithful alignment with the given image but also pursue temporal coherence among adjacent frames. To alleviate this, we present TRIP, a new recipe of image-to-video diffusion paradigm that pivots on image noise prior derived from static image to jointly trigger inter-frame relational reasoning and ease the coherent temporal modeling via temporal residual learning. Technically, the image noise prior is first attained through one-step backward diffusion process based on both static image and noised video latent codes. Next, TRIP executes a residual-like dual-path scheme for noise prediction: 1) a shortcut path that directly takes image noise prior as the reference noise of each frame to amplify the alignment between the first frame and subsequent frames; 2) a residual path that employs 3D-UNet over noised video and static image latent codes to enable inter-frame relational reasoning, thereby easing the learning of the residual noise for each frame. Furthermore, both reference and residual noise of each frame are dynamically merged via attention mechanism for final video generation. Extensive experiments on WebVid-10M, DTDB and MSR-VTT datasets demonstrate the effectiveness of our TRIP for image-to-video generation. Please see our project page at https://trip-i2v.github.io/TRIP/.
翻訳日:2024-03-27 20:05:20 公開日:2024-03-25
# 圧縮センシングのための可逆拡散モデル

Invertible Diffusion Models for Compressed Sensing ( http://arxiv.org/abs/2403.17006v1 )

ライセンス: Link先を確認
Bin Chen, Zhenyu Zhang, Weiqi Li, Chen Zhao, Jiwen Yu, Shijie Zhao, Jie Chen, Jian Zhang, (参考訳) ディープニューラルネットワーク(NN)は、再構成品質の向上により画像圧縮センシング(CS)を著しく向上させる一方で、現在のCS NNをスクラッチからトレーニングする必要性は、その効果を制限し、迅速な展開を妨げている。 近年,画像再構成に事前学習拡散モデルを用いた手法が提案されているが,遅延推論とCS適応性の制限に苦慮している。 これらの課題に対処するため,本研究では,新しい効率・エンドツーエンド拡散に基づくCS法であるInvertible Diffusion Models (IDM)を提案する。 IDMは、大規模な拡散サンプリングプロセスを再構成モデルとして再利用し、CS測定から直接元の画像を復元し、ワンステップノイズ推定学習の伝統的なパラダイムを超えて微調整する。 このようなメモリ集約型エンド・ツー・エンドファインタニングを実現するために,(1)マルチステップサンプリングプロセスと(2)各ステップにおけるノイズ推定U-Netの両方を可逆ネットワークに変換する新しい2レベル可逆設計を提案する。 その結果、ほとんどの中間機能はトレーニング中にクリアされ、最大93.8%のGPUメモリが削減される。 さらに, 騒音推定器に測定値を注入し, 再構成を容易にする軽量モジュールの開発を行った。 実験により、IMMはPSNRにおいて既存の最先端CSネットワークよりも2.64dB高い性能を示した。 最近の拡散モデルに基づくアプローチDDNMと比較して、IMMは最大10.09dBのPSNRゲインと14.54倍の高速化を実現している。

While deep neural networks (NN) significantly advance image compressed sensing (CS) by improving reconstruction quality, the necessity of training current CS NNs from scratch constrains their effectiveness and hampers rapid deployment. Although recent methods utilize pre-trained diffusion models for image reconstruction, they struggle with slow inference and restricted adaptability to CS. To tackle these challenges, this paper proposes Invertible Diffusion Models (IDM), a novel efficient, end-to-end diffusion-based CS method. IDM repurposes a large-scale diffusion sampling process as a reconstruction model, and finetunes it end-to-end to recover original images directly from CS measurements, moving beyond the traditional paradigm of one-step noise estimation learning. To enable such memory-intensive end-to-end finetuning, we propose a novel two-level invertible design to transform both (1) the multi-step sampling process and (2) the noise estimation U-Net in each step into invertible networks. As a result, most intermediate features are cleared during training to reduce up to 93.8% GPU memory. In addition, we develop a set of lightweight modules to inject measurements into noise estimator to further facilitate reconstruction. Experiments demonstrate that IDM outperforms existing state-of-the-art CS networks by up to 2.64dB in PSNR. Compared to the recent diffusion model-based approach DDNM, our IDM achieves up to 10.09dB PSNR gain and 14.54 times faster inference.
翻訳日:2024-03-27 20:05:20 公開日:2024-03-25
# DreamLIP: 長いキャプションによる言語イメージの事前トレーニング

DreamLIP: Language-Image Pre-training with Long Captions ( http://arxiv.org/abs/2403.17007v1 )

ライセンス: Link先を確認
Kecheng Zheng, Yifei Zhang, Wei Wu, Fan Lu, Shuailei Ma, Xin Jin, Wei Chen, Yujun Shen, (参考訳) 言語イメージの事前学習は、テキストがどのように、正確にそのペア画像を記述するかに大きく依存する。 しかし、実際には、画像の内容は非常に豊かであり、それらを記述するには、通常既存のデータセットに欠けている長文のキャプション(例:10文)が必要である。 その結果、言語イメージの事前学習が長いキャプションの恩恵を受けるかどうかについては、現時点では明確な証拠はない。 そこで我々は,まず,事前学習したMLLM(Multi-modality Large Language Model)を用いて,詳細な記述を伴って,300万枚の画像を再キャプチャし,比較学習の枠組みの下で,結果のキャプションの利用について検討した。 長いキャプション内の各文は、画像の一部を部分的に記述する可能性が非常に高い(例えば、オブジェクト)。 そこで本研究では,テキストラベルからサブキャプションを動的にサンプリングし,複数のポジティカルペアを構築することを提案し,グループ化損失を導入して,各サブキャプションの埋め込みと対応するローカルイメージパッチを自己管理的にマッチングする。 ダウンストリームタスクに対する実験結果から,DreamLIPと呼ばれる手法が従来の方法よりも一貫した優位性を示し,その微細な表現能力を強調した。 画像テキスト検索とセマンティックセグメンテーションのタスクでは,30万のイメージテキストペアでトレーニングしたモデルが,4億のペアでトレーニングしたCLIPよりも同等あるいはそれ以上のパフォーマンスを実現している点が注目に値する。 プロジェクトページはhttps://zyf0619sjtu.github.io/dream-lip.comで公開されている。

Language-image pre-training largely relies on how precisely and thoroughly a text describes its paired image. In practice, however, the contents of an image can be so rich that well describing them requires lengthy captions (e.g., with 10 sentences), which are usually missing in existing datasets. Consequently, there are currently no clear evidences on whether and how language-image pre-training could benefit from long captions. To figure this out, we first re-caption 30M images with detailed descriptions using a pre-trained Multi-modality Large Language Model (MLLM), and then study the usage of the resulting captions under a contrastive learning framework. We observe that, each sentence within a long caption is very likely to describe the image partially (e.g., an object). Motivated by this, we propose to dynamically sample sub-captions from the text label to construct multiple positive pairs, and introduce a grouping loss to match the embeddings of each sub-caption with its corresponding local image patches in a self-supervised manner. Experimental results on a wide rage of downstream tasks demonstrate the consistent superiority of our method, termed DreamLIP, over previous alternatives, highlighting its fine-grained representational capacity. It is noteworthy that, on the tasks of image-text retrieval and semantic segmentation, our model trained with 30M image-text pairs achieves on par or even better performance than CLIP trained with 400M pairs. Project page is available at https://zyf0619sjtu.github.io/dream-lip.
翻訳日:2024-03-27 20:05:20 公開日:2024-03-25
# FlashFace: 高忠実度ID保存による人物画像のパーソナライズ

FlashFace: Human Image Personalization with High-fidelity Identity Preservation ( http://arxiv.org/abs/2403.17008v1 )

ライセンス: Link先を確認
Shilong Zhang, Lianghua Huang, Xi Chen, Yifei Zhang, Zhi-Fan Wu, Yutong Feng, Wei Wang, Yujun Shen, Yu Liu, Ping Luo, (参考訳) FlashFaceは、ユーザーが自分の写真をリアルタイムで簡単にパーソナライズできる実用的なツールで、1つまたは数枚の参照顔画像とテキストプロンプトを提供する。 本手法は,2つの微妙なデザインの利点を生かして,高忠実度ID保存とより良い指示に従うことによる既存の人間の写真カスタマイズ手法と区別できる。 まず、先行技術のように、1つの画像トークンではなく、一連の特徴マップに顔のアイデンティティをエンコードし、参照顔の詳細(例えば、傷跡、入れ墨、顔の形)をモデルに保持する。 第2に,テキスト・ツー・イメージ生成過程におけるテキスト・イメージ誘導のバランスを保ち,参照顔とテキスト・プロンプト(例えば,大人を「子」や「子」にパーソナライズするなど)との衝突を緩和する統合戦略を導入する。 画像のパーソナライゼーション,言語プロンプトによる顔のスワップ,仮想キャラクタの実物化など,さまざまな用途における本手法の有効性を実験的に検証した。 Project Page: https://jshilong.github.io/flashface-page.com

This work presents FlashFace, a practical tool with which users can easily personalize their own photos on the fly by providing one or a few reference face images and a text prompt. Our approach is distinguishable from existing human photo customization methods by higher-fidelity identity preservation and better instruction following, benefiting from two subtle designs. First, we encode the face identity into a series of feature maps instead of one image token as in prior arts, allowing the model to retain more details of the reference faces (e.g., scars, tattoos, and face shape ). Second, we introduce a disentangled integration strategy to balance the text and image guidance during the text-to-image generation process, alleviating the conflict between the reference faces and the text prompts (e.g., personalizing an adult into a "child" or an "elder"). Extensive experimental results demonstrate the effectiveness of our method on various applications, including human image personalization, face swapping under language prompts, making virtual characters into real people, etc. Project Page: https://jshilong.github.io/flashface-page.
翻訳日:2024-03-27 20:05:20 公開日:2024-03-25
# 逆条件下でのロバスト運転知覚のためのLiDAR配置の最適化

Optimizing LiDAR Placements for Robust Driving Perception in Adverse Conditions ( http://arxiv.org/abs/2403.17009v1 )

ライセンス: Link先を確認
Ye Li, Lingdong Kong, Hanjiang Hu, Xiaohao Xu, Xiaonan Huang, (参考訳) 前例のない状況下での運転認識システムの堅牢性は、安全クリティカルな使用に不可欠である。 最新の進歩により、マルチLiDARに対する関心が高まっている。 しかし、一般的な運転データセットは、主に単一LiDARシステムを使用し、悪条件を伴わないデータを収集し、現実世界の環境の複雑さを正確に把握することができない。 これらのギャップに対処するため、私たちはLiDAR配置最適化、データ生成、下流評価を含むフルサイクルパイプラインであるPlace3Dを提案しました。 私たちのフレームワークは3つの魅力的な貢献をしている。 1) マルチLiDARシステムにおいて最も効果的な構成を特定するために, セマンティック職業グリッド(M-SOG)のSurrogate Metricを導入してLiDARの配置品質を評価する。 2) M-SOG測定値を活用することで,マルチLiDAR配置を洗練するための新しい最適化手法を提案する。 3)マルチ条件マルチLiDAR知覚のテーマを中心に,クリーンかつ有害な条件から364,000フレームのデータセットを収集した。 大規模な実験により、LiDARの配置は、我々のアプローチで最適化され、様々なベースラインを上回ります。 各種悪天候およびセンサ故障条件下での3Dオブジェクト検出とLiDARセマンティックセマンティックセグメンテーションの両タスクにおいて,顕著なロバスト性を示す。 コードとベンチマークツールキットが公開されている。

The robustness of driving perception systems under unprecedented conditions is crucial for safety-critical usages. Latest advancements have prompted increasing interests towards multi-LiDAR perception. However, prevailing driving datasets predominantly utilize single-LiDAR systems and collect data devoid of adverse conditions, failing to capture the complexities of real-world environments accurately. Addressing these gaps, we proposed Place3D, a full-cycle pipeline that encompasses LiDAR placement optimization, data generation, and downstream evaluations. Our framework makes three appealing contributions. 1) To identify the most effective configurations for multi-LiDAR systems, we introduce a Surrogate Metric of the Semantic Occupancy Grids (M-SOG) to evaluate LiDAR placement quality. 2) Leveraging the M-SOG metric, we propose a novel optimization strategy to refine multi-LiDAR placements. 3) Centered around the theme of multi-condition multi-LiDAR perception, we collect a 364,000-frame dataset from both clean and adverse conditions. Extensive experiments demonstrate that LiDAR placements optimized using our approach outperform various baselines. We showcase exceptional robustness in both 3D object detection and LiDAR semantic segmentation tasks, under diverse adverse weather and sensor failure conditions. Code and benchmark toolkit are publicly available.
翻訳日:2024-03-27 20:05:20 公開日:2024-03-25
# Calib3D: 信頼性の高い3Dシーン理解のためのモデル設定の校正

Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding ( http://arxiv.org/abs/2403.17010v1 )

ライセンス: Link先を確認
Lingdong Kong, Xiang Xu, Jun Cen, Wenwei Zhang, Liang Pan, Kai Chen, Ziwei Liu, (参考訳) 安全クリティカルな3Dシーン理解タスクは、正確なだけでなく、3D知覚モデルからの確実な予測も必要である。 本研究では,不確実性推定の観点から3次元シーン理解モデルの信頼性をベンチマークし,検証する先駆的な試みであるCalib3Dを紹介する。 10の異なる3Dデータセットにまたがる28の最先端モデルを総合的に評価し,3Dシーン理解における動脈的およびてんかん的不確実性に対処する洞察力のある現象を明らかにする。 この落とし穴は、安全に敏感な状況における適用性を著しく損なうものだ。 ネットワーク容量、LiDAR表現、ラスタライズ解決、および3Dデータ拡張技術といった重要な要素を広範囲に分析することにより、これらの側面をモデル校正の有効性と直接相関する。 さらに,3次元モデルのキャリブレーション向上を目的とした,深度を考慮した新しいスケーリング手法であるDeptSを紹介する。 広範囲にまたがる広範囲な実験により,本手法の優位性が検証された。 この作品が、信頼できる3Dシーン理解の基盤になることを期待している。 コードとベンチマークツールキットが公開されている。

Safety-critical 3D scene understanding tasks necessitate not only accurate but also confident predictions from 3D perception models. This study introduces Calib3D, a pioneering effort to benchmark and scrutinize the reliability of 3D scene understanding models from an uncertainty estimation viewpoint. We comprehensively evaluate 28 state-of-the-art models across 10 diverse 3D datasets, uncovering insightful phenomena that cope with both the aleatoric and epistemic uncertainties in 3D scene understanding. We discover that despite achieving impressive levels of accuracy, existing models frequently fail to provide reliable uncertainty estimates -- a pitfall that critically undermines their applicability in safety-sensitive contexts. Through extensive analysis of key factors such as network capacity, LiDAR representations, rasterization resolutions, and 3D data augmentation techniques, we correlate these aspects directly with the model calibration efficacy. Furthermore, we introduce DeptS, a novel depth-aware scaling approach aimed at enhancing 3D model calibration. Extensive experiments across a wide range of configurations validate the superiority of our method. We hope this work could serve as a cornerstone for fostering reliable 3D scene understanding. Code and benchmark toolkits are publicly available.
翻訳日:2024-03-27 20:05:20 公開日:2024-03-25
# 意識駆動型スパイクニューラルネットワークによるグラフ表現学習の強化

Enhancing Graph Representation Learning with Attention-Driven Spiking Neural Networks ( http://arxiv.org/abs/2403.17040v1 )

ライセンス: Link先を確認
Huifeng Yin, Mingkun Xu, Jing Pei, Lei Deng, (参考訳) グラフ表現学習は、ソーシャルネットワーク、化学物質、生体システムといった複雑な構造をモデル化する可能性から、機械学習やデータマイニングにおいて重要な課題となっている。 最近、スパイキングニューラルネットワーク(SNN)は、時間的および空間的な情報を効率的にエンコードし処理する能力の恩恵を受け、グラフ学習タスクのための従来のニューラルネットワークに代わる有望な代替品として登場した。 本稿では,SNNとアテンション機構を統合してグラフ表現学習を改善する手法を提案する。 具体的には、学習過程において重要なノードとそれに対応する機能に選択的にフォーカスできるSNNの注意機構を導入する。 提案手法をいくつかのベンチマークデータセット上で評価し,既存のグラフ学習手法と同等の性能を発揮することを示す。

Graph representation learning has become a crucial task in machine learning and data mining due to its potential for modeling complex structures such as social networks, chemical compounds, and biological systems. Spiking neural networks (SNNs) have recently emerged as a promising alternative to traditional neural networks for graph learning tasks, benefiting from their ability to efficiently encode and process temporal and spatial information. In this paper, we propose a novel approach that integrates attention mechanisms with SNNs to improve graph representation learning. Specifically, we introduce an attention mechanism for SNN that can selectively focus on important nodes and corresponding features in a graph during the learning process. We evaluate our proposed method on several benchmark datasets and show that it achieves comparable performance compared to existing graph learning techniques.
翻訳日:2024-03-27 20:05:20 公開日:2024-03-25
# プラグ・アンド・プレイ画像再構成のためのロバストなスコアベース拡散後方サンプリング

Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction ( http://arxiv.org/abs/2403.17042v1 )

ライセンス: Link先を確認
Xingyu Xu, Yuejie Chi, (参考訳) 科学と工学における多くのタスクにおいて、ゴールは、特定のセンシングや画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定結果から未知のイメージを推測することである。 リソース制約のため、このタスクは極端に不適切であり、ソリューション空間を規則化するために表現力のある事前情報を採用する必要がある。 スコアベースの拡散モデルは、その印象的な経験的成功により、画像再構成に先立って表現力に訴える候補として現れてきた。 多様なタスクを同時にこなすためには、前方モデルの柔軟な選択と合わせて、画像の事前分布のスコア関数を組み込んだ効率的で一貫性のある、堅牢なアルゴリズムを開発することが大きな関心事である。 本研究では、一般的な非線形逆問題に先立って、スコアベース拡散モデルを表現データとして利用するアルゴリズムフレームワークを開発する。 画像コミュニティのプラグ・アンド・プレイフレームワークに動機づけられた拡散プラグ・アンド・プレイ法 (\textsf{DPnP}) を導入し、2つのサンプルを代わりに呼び出す。 鍵となる洞察は、ホワイトガウス雑音下でのデノイングは確率的(DDPM型)と決定論的(DDIM型)の両方で、無条件スコア関数を用いて厳密に解けることである。 本稿では, 漸近的および非漸近的性能保証をともに確立し, 線形画像再構成と非線形画像再構成の両課題を解くための数値実験を行う。 我々の知る限りでは、無条件拡散前処理を用いた非線形逆問題に対する最初の実証可能な後続サンプリング法である。

In a great number of tasks in science and engineering, the goal is to infer an unknown image from a small number of measurements collected from a known forward model describing certain sensing or imaging modality. Due to resource constraints, this task is often extremely ill-posed, which necessitates the adoption of expressive prior information to regularize the solution space. Score-based diffusion models, due to its impressive empirical success, have emerged as an appealing candidate of an expressive prior in image reconstruction. In order to accommodate diverse tasks at once, it is of great interest to develop efficient, consistent and robust algorithms that incorporate {\em unconditional} score functions of an image prior distribution in conjunction with flexible choices of forward models. This work develops an algorithmic framework for employing score-based diffusion models as an expressive data prior in general nonlinear inverse problems. Motivated by the plug-and-play framework in the imaging community, we introduce a diffusion plug-and-play method (\textsf{DPnP}) that alternatively calls two samplers, a proximal consistency sampler based solely on the likelihood function of the forward model, and a denoising diffusion sampler based solely on the score functions of the image prior. The key insight is that denoising under white Gaussian noise can be solved {\em rigorously} via both stochastic (i.e., DDPM-type) and deterministic (i.e., DDIM-type) samplers using the unconditional score functions. We establish both asymptotic and non-asymptotic performance guarantees of \textsf{DPnP}, and provide numerical experiments to illustrate its promise in solving both linear and nonlinear image reconstruction tasks. To the best of our knowledge, \textsf{DPnP} is the first provably-robust posterior sampling method for nonlinear inverse problems using unconditional diffusion priors.
翻訳日:2024-03-27 20:05:20 公開日:2024-03-25
# 意味的方向の同定によるT2Iモデルの連続的主観的属性制御

Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions ( http://arxiv.org/abs/2403.17064v1 )

ライセンス: Link先を確認
Stefan Andreas Baumann, Felix Krause, Michael Neumayr, Nick Stracke, Vincent Tao Hu, Björn Ommer, (参考訳) 近年,テキスト・ツー・イメージ(T2I)拡散モデルの進歩により,画像の品質が著しく向上している。 しかし、自然言語のプロンプトの制限により、属性のきめ細かい制御を達成することは、依然として困難である(例えば、 ``person'' と ``old person''' の間には、中間的な記述の連続的なセットが存在しないなど)。 このような制御を可能にするためにモデルや生成プロセスを増強する多くの方法が導入されたが、固定参照画像を必要としない方法は、グローバルな微粒化属性表現制御や粗粒化属性表現制御が可能かのいずれかに限られており、どちらも同時にではない。 一般に使われているトークンレベルのCLIPテキスト埋め込みには,テキスト・ツー・イメージ・モデルにおける高レベル属性の微粒な主観的制御を可能にする方向が存在することを示す。 そこで本研究では,テキストプロンプトから特定の属性の方向を特定するための,効率的な最適化自由度とロバストな最適化ベース手法を提案する。 これらの方向は, 拡散モデルを適用することなく, 特定の対象の属性に対して細かな制御を施したテキスト入力を, 構成的手法(単一対象の複数の属性に対する制御)で拡張することができることを示す。 プロジェクトページ: https://compvis.github.io/属性コントロール。 コードはhttps://github.com/CompVis/attribute-controlで入手できる。

In recent years, advances in text-to-image (T2I) diffusion models have substantially elevated the quality of their generated images. However, achieving fine-grained control over attributes remains a challenge due to the limitations of natural language prompts (such as no continuous set of intermediate descriptions existing between ``person'' and ``old person''). Even though many methods were introduced that augment the model or generation process to enable such control, methods that do not require a fixed reference image are limited to either enabling global fine-grained attribute expression control or coarse attribute expression control localized to specific subjects, not both simultaneously. We show that there exist directions in the commonly used token-level CLIP text embeddings that enable fine-grained subject-specific control of high-level attributes in text-to-image models. Based on this observation, we introduce one efficient optimization-free and one robust optimization-based method to identify these directions for specific attributes from contrastive text prompts. We demonstrate that these directions can be used to augment the prompt text input with fine-grained control over attributes of specific subjects in a compositional manner (control over multiple attributes of a single subject) without having to adapt the diffusion model. Project page: https://compvis.github.io/attribute-control. Code is available at https://github.com/CompVis/attribute-control.
翻訳日:2024-03-27 20:05:20 公開日:2024-03-25
# セキュリティテキストにおける自動逆法アノテーションのセマンティックランク付け

Semantic Ranking for Automated Adversarial Technique Annotation in Security Text ( http://arxiv.org/abs/2403.17068v1 )

ライセンス: Link先を確認
Udesh Kumarasinghe, Ahmed Lekssays, Husrev Taha Sencar, Sabri Boughorbel, Charitha Elvitigala, Preslav Nakov, (参考訳) 本稿では,脅威知能テキストから構造化された脅威行動を抽出する新しい手法を提案する。 提案手法は,効率と効率性を最適化する多段階ランキングアーキテクチャに基づく。 したがって,この問題の定式化は,多数の敵技術と,セキュリティアナリストが生み出した広範囲な脅威知能を考慮し,タスクの現実的な性質とよく一致していると考えている。 提案手法は,本課題に対する最先端の性能評価結果が得られることを示す。 その結果, 提案手法は, 193 トップレベル技術のうち, 81 % のリコール性能を有することがわかった。 また, ゼロショット条件下での試験では, 広く使われている大規模言語モデルに比べて, システムの性能は有意に向上した(+40\%)。

We introduce a new method for extracting structured threat behaviors from threat intelligence text. Our method is based on a multi-stage ranking architecture that allows jointly optimizing for efficiency and effectiveness. Therefore, we believe this problem formulation better aligns with the real-world nature of the task considering the large number of adversary techniques and the extensive body of threat intelligence created by security analysts. Our findings show that the proposed system yields state-of-the-art performance results for this task. Results show that our method has a top-3 recall performance of 81\% in identifying the relevant technique among 193 top-level techniques. Our tests also demonstrate that our system performs significantly better (+40\%) than the widely used large language models when tested under a zero-shot setting.
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# 混合状態における対称性保護位相のテンソルネットワーク定式化

Tensor network formulation of symmetry protected topological phases in mixed states ( http://arxiv.org/abs/2403.17069v1 )

ライセンス: Link先を確認
Hanyu Xue, Jong Yeon Lee, Yimu Bao, (参考訳) 我々は、密度行列のテンソルネットワーク定式化に基づいて、対称性保護位相(SPT)位相を混合状態で定義し、分類する。 一次元では、局所デコヒートSPT状態を含む幅広い短距離相関混合状態のクラスを記述する強い射影行列積密度演算子(MPDO)を導入する。 強射影 MPDO を二重ヒルベルト空間の純粋状態に写像し、二重状態の対称性群のコホモロジークラスに従って SPT 位相を定義する。 二重状態は拡大対称性を示すが、SPT相は密度行列のエルミティシティと半正に制約される。 ここでは、コホモロジー群 $\mathcal{H}^2(G, \text{U}(1))\oplus\mathcal{H}^1(K, \mathcal{H}^1(G, \text{U}(1)))$ によって与えられる強い$G$と弱い$K$ユニタリ対称性の直積を持つSPT相の完全な分類を得る。 我々の定義のSPT位相は非退化チャネルからなる対称局所回路で保存される。 このことは、対称非退化チャネルを用いた ``one-way' 接続の下で混合状態の同値類に従ってSPT相の代替定義を動機付けている。 強対称性を持つ局所純度MPDOでは、この代替定義がコホモロジー分類を再現することを証明している。 さらに、強い半射影テンソルネットワーク密度演算子によって記述された2次元混合状態に結果を拡張し、可能なSPT位相を分類する。

We define and classify symmetry-protected topological (SPT) phases in mixed states based on the tensor network formulation of the density matrix. In one dimension, we introduce strong injective matrix product density operators (MPDO), which describe a broad class of short-range correlated mixed states, including the locally decohered SPT states. We map strong injective MPDO to a pure state in the doubled Hilbert space and define the SPT phases according to the cohomology class of the symmetry group in the doubled state. Although the doubled state exhibits an enlarged symmetry, the possible SPT phases are also constrained by the Hermiticity and the semi-positivity of the density matrix. We here obtain a complete classification of SPT phases with a direct product of strong $G$ and weak $K$ unitary symmetry given by the cohomology group $\mathcal{H}^2(G, \text{U}(1))\oplus\mathcal{H}^1(K, \mathcal{H}^1(G, \text{U}(1)))$. The SPT phases in our definition are preserved under symmetric local circuits consisting of non-degenerate channels. This motivates an alternative definition of SPT phases according to the equivalence class of mixed states under a ``one-way" connection using symmetric non-degenerate channels. In locally purifiable MPDO with strong symmetry, we prove that this alternative definition reproduces the cohomology classification. We further extend our results to two-dimensional mixed states described by strong semi-injective tensor network density operators and classify the possible SPT phases.
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# ブロックチェーンデータを用いた機械学習 - システムマッピングによる研究

Machine Learning on Blockchain Data: A Systematic Mapping Study ( http://arxiv.org/abs/2403.17081v1 )

ライセンス: Link先を確認
Georgios Palaiokrassas, Sarah Bouraga, Leandros Tassiulas, (参考訳) コンテキスト: ブロックチェーン技術は文学や実践において注目を集めています。 ブロックチェーン技術は大量のデータを生成し、機械学習(ML)のトピックとなっている。 目的:本論文の目的は,ブロックチェーンデータに適用された機械学習の最新技術に関する包括的なレビューを提供することである。 この研究は、ブロックチェーンデータに適用されたMLの文献を体系的に識別し、分析し、分類することを目的としている。 これにより、将来の研究により多くの労力を費やすべき分野を見つけることができます。 方法:関連文献を特定するための系統的マッピング研究が実施されている。 最終的に159の項目が選択され、さまざまな次元、特にドメインユースケース、ブロックチェーン、データ、マシンラーニングモデルに基づいて分類された。 結果: 論文の大多数(49.7%)は異常ユースケースに該当する。 Bitcoin(47.2%)が最も注目を集めたブロックチェーンである。 論文の31.4%は、10,000.000以上のデータポイントからなるデータセットを使用した。 そして分類(46.5%)は、最もブロックチェーンデータに適用されたMLタスクである。 結論: 結果は、ブロックチェーンデータに適用されたMLが、文学と実践の両方において、関連性があり、関心が高まりつつあることを確認します。 それでも、いくつかのオープンな課題とギャップが残っており、将来の研究の方向性に繋がる可能性がある。 具体的には、新しい機械学習アルゴリズム、標準化フレームワークの欠如、ブロックチェーンのスケーラビリティの問題、チェーン間のインタラクションを、将来探求する価値のある分野として特定する。

Context: Blockchain technology has drawn growing attention in the literature and in practice. Blockchain technology generates considerable amounts of data and has thus been a topic of interest for Machine Learning (ML). Objective: The objective of this paper is to provide a comprehensive review of the state of the art on machine learning applied to blockchain data. This work aims to systematically identify, analyze, and classify the literature on ML applied to blockchain data. This will allow us to discover the fields where more effort should be placed in future research. Method: A systematic mapping study has been conducted to identify the relevant literature. Ultimately, 159 articles were selected and classified according to various dimensions, specifically, the domain use case, the blockchain, the data, and the machine learning models. Results: The majority of the papers (49.7%) fall within the Anomaly use case. Bitcoin (47.2%) was the blockchain that drew the most attention. A dataset consisting of more than 1.000.000 data points was used by 31.4% of the papers. And Classification (46.5%) was the ML task most applied to blockchain data. Conclusion: The results confirm that ML applied to blockchain data is a relevant and a growing topic of interest both in the literature and in practice. Nevertheless, some open challenges and gaps remain, which can lead to future research directions. Specifically, we identify novel machine learning algorithms, the lack of a standardization framework, blockchain scalability issues and cross-chain interactions as areas worth exploring in the future.
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# 画像超解像のためのデータセット・プルーニングに関する研究

A Study in Dataset Pruning for Image Super-Resolution ( http://arxiv.org/abs/2403.17083v1 )

ライセンス: Link先を確認
Brian B. Moser, Federico Raue, Andreas Dengel, (参考訳) Image Super-Resolution (SR)では、トレーニング用の大きなデータセットに依存するのは、二重刃の剣である。 リッチなトレーニング資料を提供する一方で、相当量の計算とストレージのリソースも要求している。 本研究では,これらの課題に対する解決策として,データセットプルーニングを解析する。 簡単な事前学習SRモデルにより決定された損失値に基づいて選択されたトレーニングサンプルのコアセットにデータセットを還元する新しい手法を提案する。 トレーニングをオリジナルのデータセットのたった50%、特に最高の損失値が特徴のサンプルに集中させることで、データセット全体のトレーニングから得られた結果に匹敵する、あるいは超える結果が得られます。 興味深いことに,最も損失率の高い試料の上位5%がトレーニングプロセスに悪影響を及ぼすことが明らかとなった。 これらのサンプルを除外し、より簡単なサンプルを好むように選択を調整することで、トレーニング結果をさらに強化する。 我々の研究は、イメージSRにおけるデータセットプルーニングの未解決の可能性に対する新たな視点を開く。 損失値のメトリクスに基づくトレーニングデータの慎重に選択することは、SRモデルの改善につながる可能性があることを示唆し、より多くのデータが必然的にパフォーマンス向上につながるという従来の知恵に挑戦する。

In image Super-Resolution (SR), relying on large datasets for training is a double-edged sword. While offering rich training material, they also demand substantial computational and storage resources. In this work, we analyze dataset pruning as a solution to these challenges. We introduce a novel approach that reduces a dataset to a core-set of training samples, selected based on their loss values as determined by a simple pre-trained SR model. By focusing the training on just 50% of the original dataset, specifically on the samples characterized by the highest loss values, we achieve results comparable to or even surpassing those obtained from training on the entire dataset. Interestingly, our analysis reveals that the top 5% of samples with the highest loss values negatively affect the training process. Excluding these samples and adjusting the selection to favor easier samples further enhances training outcomes. Our work opens new perspectives to the untapped potential of dataset pruning in image SR. It suggests that careful selection of training data based on loss-value metrics can lead to better SR models, challenging the conventional wisdom that more data inevitably leads to better performance.
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# 仮想及び実世界の鉄道環境におけるビジュアルオドメトリーの比較分析

A Comparative Analysis of Visual Odometry in Virtual and Real-World Railways Environments ( http://arxiv.org/abs/2403.17084v1 )

ライセンス: Link先を確認
Gianluca D'Amico, Mauro Marinoni, Giorgio Buttazzo, (参考訳) 知覚タスクは、複数のアプリケーション分野にわたる自動操作やシステムの開発において重要な役割を担います。 鉄道輸送分野において、これらのタスクは、列車のローカライゼーション、信号認識、トラック識別など、様々なペインの安全性、信頼性、効率を向上させることができる。 しかし、そのような新しいアルゴリズムをテストするために、相当かつ正確にラベル付けされたデータセットを収集することは、インフラへのアクセスの厳しい制限と、カメラやLiDARなどの必要なセンサーを適切に装備する際の実用上の困難により、鉄道環境において極端な課題を生じさせる。 グラフィックエンジンツールの驚くべき革新は、リアルな合成データセットを作るための新しいソリューションを提供する。 本稿では,鉄道領域における知覚タスクの初期段階テストにグラフィックシミュレーションを用いることの利点を説明するために,仮想合成環境と実世界のシナリオの両方に適用したSLAMアルゴリズムの性能の比較分析を行った。 この分析では、Unreal Engineの最新バージョンで作成された仮想鉄道環境を活用し、データ収集を容易にし、低視認性、危険な運用モード、複雑な環境など、困難なシナリオの検証を可能にする。 その結果,鉄道領域における認識タスクの促進に向けたグラフィックシミュレーションの可能性と可能性を強調した。

Perception tasks play a crucial role in the development of automated operations and systems across multiple application fields. In the railway transportation domain, these tasks can improve the safety, reliability, and efficiency of various perations, including train localization, signal recognition, and track discrimination. However, collecting considerable and precisely labeled datasets for testing such novel algorithms poses extreme challenges in the railway environment due to the severe restrictions in accessing the infrastructures and the practical difficulties associated with properly equipping trains with the required sensors, such as cameras and LiDARs. The remarkable innovations of graphic engine tools offer new solutions to craft realistic synthetic datasets. To illustrate the advantages of employing graphic simulation for early-stage testing of perception tasks in the railway domain, this paper presents a comparative analysis of the performance of a SLAM algorithm applied both in a virtual synthetic environment and a real-world scenario. The analysis leverages virtual railway environments created with the latest version of Unreal Engine, facilitating data collection and allowing the examination of challenging scenarios, including low-visibility, dangerous operational modes, and complex environments. The results highlight the feasibility and potentiality of graphic simulation to advance perception tasks in the railway domain.
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# GOLF:Goal-Oriented Long-term liFe tasks Support by Human-AI collaboration

GOLF: Goal-Oriented Long-term liFe tasks supported by human-AI collaboration ( http://arxiv.org/abs/2403.17089v1 )

ライセンス: Link先を確認
Ben Wang, (参考訳) ChatGPTと類似の大規模言語モデル(LLM)の出現は、人間とAIの相互作用と情報検索プロセスに革命をもたらした。 LLMを検索エンジンの代替として活用することで、ユーザはクエリに合わせて要約された情報にアクセスでき、膨大な情報リソースをナビゲートする際の認知的負荷を大幅に削減できる。 このシフトは、情報アクセスパラダイムを再定義するLLMの可能性を浮き彫りにしている。 本研究は、タスク中心の情報検索とLCMのタスク計画能力の基盤を基礎として、日常的なタスク自動化を超えてLLM機能の範囲を広げ、長期的かつ重要なライフタスクのユーザを支援する。 GOLFフレームワーク(Goal-Oriented Long-term liFe task)を導入し、ゴール指向と長期計画を通じて重要な人生決定を支援するLLMの能力を向上することに焦点を当てた。 この手法は、フレームワークの有効性をテストするための総合的なシミュレーション研究を含み、続いてモデルと人間の評価を行い、長期のライフタスクのためのデータセットベンチマークを開発し、異なるモデルと設定をまたいだ実験を行う。 本研究は、短期的課題から長期的目標の範囲に焦点を移すことにより、人間の意思決定プロセスとタスクマネジメントの強化におけるLLMの変革的ポテンシャルを浮き彫りにして、人間とAIのコラボレーションの進化における大きな一歩を踏み出した。

The advent of ChatGPT and similar large language models (LLMs) has revolutionized the human-AI interaction and information-seeking process. Leveraging LLMs as an alternative to search engines, users can now access summarized information tailored to their queries, significantly reducing the cognitive load associated with navigating vast information resources. This shift underscores the potential of LLMs in redefining information access paradigms. Drawing on the foundation of task-focused information retrieval and LLMs' task planning ability, this research extends the scope of LLM capabilities beyond routine task automation to support users in navigating long-term and significant life tasks. It introduces the GOLF framework (Goal-Oriented Long-term liFe tasks), which focuses on enhancing LLMs' ability to assist in significant life decisions through goal orientation and long-term planning. The methodology encompasses a comprehensive simulation study to test the framework's efficacy, followed by model and human evaluations to develop a dataset benchmark for long-term life tasks, and experiments across different models and settings. By shifting the focus from short-term tasks to the broader spectrum of long-term life goals, this research underscores the transformative potential of LLMs in enhancing human decision-making processes and task management, marking a significant step forward in the evolution of human-AI collaboration.
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# オフライン強化学習:状態集約と軌道データの役割

Offline Reinforcement Learning: Role of State Aggregation and Trajectory Data ( http://arxiv.org/abs/2403.17091v1 )

ライセンス: Link先を確認
Zeyu Jia, Alexander Rakhlin, Ayush Sekhari, Chen-Yu Wei, (参考訳) 我々は,ベルマン完全性を持たない値関数実現可能性を持つオフライン強化学習の問題を再考する。 Xie と Jiang (2021) と Foster et al (2022) による以前の研究は、軌道に基づくオフラインデータとともに有界な濃度係数が多項式サンプルの複雑さを許容するかどうかという問題を解き放った。 本研究では,オフライン政策評価の課題に対して,この問題に対する否定的な回答を提供する。 この問題に対処することに加えて、我々は、値関数実現可能性のみを備えたオフラインポリシー評価のための、かなり完全な図を提供する。 1) オフライン政策評価のサンプルの複雑さは, 関数クラスとオフラインデータ分布によって協調的に決定される集約マルコフ遷移モデルにおいて, 元のMDPではなく, 集中係数によって制御される。 これは、Xie and Jiang (2021) と Foster et al (2022) の考えを統一し、一般化する。 2) 集約マルコフ遷移モデルにおける集中係数は、元のMDPにおける集中係数が小さく、オフラインデータが許容できる(すなわち、データ分布が何らかの政策の占有率に等しい)場合でも、地平線長と指数的に増大することがある。 3) 値関数の実現可能性の下では、許容可能なデータを持つハードインスタンスをトラジェクティブデータを持つハードインスタンスに変換し、トラジェクトリデータが許容可能なデータよりも余分な利益をもたらすことを示唆するジェネリックリダクションが存在する。 これら3つのピースはオープンな問題を共同で解決するが、それぞれが独立した関心を持つ可能性がある。

We revisit the problem of offline reinforcement learning with value function realizability but without Bellman completeness. Previous work by Xie and Jiang (2021) and Foster et al. (2022) left open the question whether a bounded concentrability coefficient along with trajectory-based offline data admits a polynomial sample complexity. In this work, we provide a negative answer to this question for the task of offline policy evaluation. In addition to addressing this question, we provide a rather complete picture for offline policy evaluation with only value function realizability. Our primary findings are threefold: 1) The sample complexity of offline policy evaluation is governed by the concentrability coefficient in an aggregated Markov Transition Model jointly determined by the function class and the offline data distribution, rather than that in the original MDP. This unifies and generalizes the ideas of Xie and Jiang (2021) and Foster et al. (2022), 2) The concentrability coefficient in the aggregated Markov Transition Model may grow exponentially with the horizon length, even when the concentrability coefficient in the original MDP is small and the offline data is admissible (i.e., the data distribution equals the occupancy measure of some policy), 3) Under value function realizability, there is a generic reduction that can convert any hard instance with admissible data to a hard instance with trajectory data, implying that trajectory data offers no extra benefits over admissible data. These three pieces jointly resolve the open problem, though each of them could be of independent interest.
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# ゼロ信頼アーキテクチャによるUAVセキュリティの強化 - 高度なディープラーニングと説明可能なAI分析

Enhancing UAV Security Through Zero Trust Architecture: An Advanced Deep Learning and Explainable AI Analysis ( http://arxiv.org/abs/2403.17093v1 )

ライセンス: Link先を確認
Ekramul Haque, Kamrul Hasan, Imtiaz Ahmed, Md. Sahabul Alam, Tariqul Islam, (参考訳) 無人航空機(UAV)のダイナミックで絶え間なく変化する領域において、最大の重要性は、弾力性と緩やかなセキュリティ対策を保証することである。 本研究は、無人航空機(UAV)の安全性を高めるためにゼロトラストアーキテクチャ(ZTA)を実装する必要があることを強調する。 Zero Trust Architecture(ZTA)パラダイムは、すべてのネットワークエンティティと通信を認証する厳密で継続的なプロセスを必要とする。 無人航空機(UAV)の検出・識別における手法の精度は84.59 %である。 これは、一意の手法であるDeep Learning framework内でRF信号を利用することで実現される。 ネットワークアクセスを決定するため、Zero Trust Architecture(ZTA)では正確な識別が不可欠である。 さらに、SHAP(SHapley Additive exPlanations)やLIME(Local Interpretable Model-Agnostic Explanations)といったeXplainable Artificial Intelligence(XAI)ツールの使用は、モデルの透明性と解釈可能性の向上に寄与する。 ゼロ・トラスト・アーキテクチャ(ZTA)標準への準拠は、無人航空機(UAV)の分類が検証可能で理解可能であることを保証する。

In the dynamic and ever-changing domain of Unmanned Aerial Vehicles (UAVs), the utmost importance lies in guaranteeing resilient and lucid security measures. This study highlights the necessity of implementing a Zero Trust Architecture (ZTA) to enhance the security of unmanned aerial vehicles (UAVs), hence departing from conventional perimeter defences that may expose vulnerabilities. The Zero Trust Architecture (ZTA) paradigm requires a rigorous and continuous process of authenticating all network entities and communications. The accuracy of our methodology in detecting and identifying unmanned aerial vehicles (UAVs) is 84.59\%. This is achieved by utilizing Radio Frequency (RF) signals within a Deep Learning framework, a unique method. Precise identification is crucial in Zero Trust Architecture (ZTA), as it determines network access. In addition, the use of eXplainable Artificial Intelligence (XAI) tools such as SHapley Additive exPlanations (SHAP) and Local Interpretable Model-agnostic Explanations (LIME) contributes to the improvement of the model's transparency and interpretability. Adherence to Zero Trust Architecture (ZTA) standards guarantees that the classifications of unmanned aerial vehicles (UAVs) are verifiable and comprehensible, enhancing security within the UAV field.
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# SynFog: エンド・ツー・エンド・イメージング・シミュレーションに基づく自動走行における実世界のデフォッギング改善のためのフォトリアリスティック・シンセティック・フォッグデータセット

SynFog: A Photo-realistic Synthetic Fog Dataset based on End-to-end Imaging Simulation for Advancing Real-World Defogging in Autonomous Driving ( http://arxiv.org/abs/2403.17094v1 )

ライセンス: Link先を確認
Yiming Xie, Henglu Wei, Zhenyi Liu, Xiaoyu Wang, Xiangyang Ji, (参考訳) 学習に基づくデファジグアルゴリズムの研究を進めるために、様々な合成霧データセットが開発された。 しかし、大気散乱モデル(ASM)やリアルタイムレンダリングエンジンを使用して作成された既存のデータセットは、実際の画像処理を正確に模倣する写実的な霧画像を作成するのに苦労することが多い。 この制限は、合成データから実データへのモデルの効果的な一般化を妨げる。 本稿では,フォトリアリスティックな霧画像を生成するために,エンドツーエンドのシミュレーションパイプラインを提案する。 このパイプラインは、現実世界の画像キャプチャー手法と密接に整合して、物理的にベースとした霧のシーンイメージングプロセス全体を包括的に検討している。 このパイプラインに基づいて、SynFogという新しい合成霧データセットを提示します。 実験結果から,SynFogでトレーニングしたモデルでは,実世界の霧画像に適用した場合と比較して,視覚知覚や検出精度が優れていた。

To advance research in learning-based defogging algorithms, various synthetic fog datasets have been developed. However, existing datasets created using the Atmospheric Scattering Model (ASM) or real-time rendering engines often struggle to produce photo-realistic foggy images that accurately mimic the actual imaging process. This limitation hinders the effective generalization of models from synthetic to real data. In this paper, we introduce an end-to-end simulation pipeline designed to generate photo-realistic foggy images. This pipeline comprehensively considers the entire physically-based foggy scene imaging process, closely aligning with real-world image capture methods. Based on this pipeline, we present a new synthetic fog dataset named SynFog, which features both sky light and active lighting conditions, as well as three levels of fog density. Experimental results demonstrate that models trained on SynFog exhibit superior performance in visual perception and detection accuracy compared to others when applied to real-world foggy images.
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# 分数量子ホール効果におけるトンネルノイズのスケーリングは、キラルルッティンガー液体の再正規化と分解を示唆する

Scaling tunnelling noise in the fractional quantum Hall effect tells about renormalization and breakdown of chiral Luttinger liquid ( http://arxiv.org/abs/2403.17097v1 )

ライセンス: Link先を確認
Noam Schiller, Tomer Alkalay, Changki Hong, Vladimir Umansky, Moty Heiblum, Yuval Oreg, Kyrylo Snizhko, (参考訳) 分数量子ホール(FQH)効果は、物質の位相相のパラダイム的な例を提供する。 FQHエッジは、キラルルッティンガー液体(CLL)理論のクラスに属するモデル [1 (Wen, 2007)]を介して理論的に記述される。 これらの理論は、分数電荷や分数統計のような励起のエキゾチックな性質を予測する。 この記述と定性的な実験的確証に理論的に自信があるにもかかわらず、CLLの挙動に関する定量的な実験的証拠は乏しい。 本研究では,量子ホール状態におけるエッジモード間のトンネルについて,充填係数$\nu=1/3$で検討する。 本稿では,異なるシステム温度で測定を行い,Refで提案された実験データの新しいスケーリング解析を行う。 [2 (Schiller et al , 2022)] 我々の分析は、あるエネルギースケールを超えるCLL崩壊の明確な証拠を示している。 スケーリング動作が成立する低エネルギー状態において、スケーリングディメンションと呼ばれる特性を抽出し、それをna\\ive CLL理論の予測と比較して非常に再正規化する。 以上の結果から、何十年も前からある実験には、量子ホールエッジの物理を研究するのに使える、これまで見過ごされていた情報が数多く含まれていたことが分かる。 特に、定量実験研究への道を開く。 (a) 量子点接触におけるスケーリング次元の再正規化 b) 中間エネルギースケールでのCLL分解機構はバルクギャップよりもはるかに小さい。

The fractional quantum Hall (FQH) effect provides a paradigmatic example of a topological phase of matter. FQH edges are theoretically described via models belonging to the class of chiral Luttinger liquid (CLL) theories [1 (Wen, 2007)]. These theories predict exotic properties of the excitations, such as fractional charge and fractional statistics. Despite theoretical confidence in this description and qualitative experimental confirmations, quantitative experimental evidence for CLL behaviour is scarce. In this work, we study tunnelling between edge modes in the quantum Hall regime at the filling factor $\nu=1/3$. We present measurements at different system temperatures and perform a novel scaling analysis of the experimental data, originally proposed in Ref. [2 (Schiller et al., 2022)]. Our analysis shows clear evidence of CLL breakdown - above a certain energy scale. In the low-energy regime, where the scaling behaviour holds, we extract the property called the scaling dimension and find it heavily renormalized compared to na\"ive CLL theory predictions. Our results show that decades-old experiments contain a lot of previously overlooked information that can be used to investigate the physics of quantum Hall edges. In particular, we open a road to quantitative experimental studies of (a) scaling dimension renormalization in quantum point contacts and (b) CLL breakdown mechanisms at an intermediate energy scale, much smaller than the bulk gap.
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# AIの意識は必然的:理論的コンピュータ科学の視点

AI Consciousness is Inevitable: A Theoretical Computer Science Perspective ( http://arxiv.org/abs/2403.17101v1 )

ライセンス: Link先を確認
Lenore Blum, Manuel Blum, (参考訳) 我々は,資源制限下での計算を研究する数学の分野である理論計算機科学のレンズを通して,意識を考察する。 この観点から、意識のための正式な機械モデルを開発する。 このモデルはアラン・チューリングの単純だが強力な計算モデルとバーナード・ベアーズの意識の劇場モデルにインスパイアされている。 非常に単純ではあるが、このモデルは人間と動物の意識に関する主要な科学的理論の多くと高いレベルで一致しており、機械の意識は避けられないという我々の主張を支持している。

We look at consciousness through the lens of Theoretical Computer Science, a branch of mathematics that studies computation under resource limitations. From this perspective, we develop a formal machine model for consciousness. The model is inspired by Alan Turing's simple yet powerful model of computation and Bernard Baars' theater model of consciousness. Though extremely simple, the model aligns at a high level with many of the major scientific theories of human and animal consciousness, supporting our claim that machine consciousness is inevitable.
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# 動物アバター:カジュアルビデオからアニマタブルな3D動物を再構築

Animal Avatars: Reconstructing Animatable 3D Animals from Casual Videos ( http://arxiv.org/abs/2403.17103v1 )

ライセンス: Link先を確認
Remy Sabathier, Niloy J. Mitra, David Novotny, (参考訳) モノクロビデオからアニマタブルな犬用アバターを構築する方法を提案する。 動物は様々な(予測不可能な)非剛体運動を示し、外観の詳細(例えば毛皮、斑点、尾)を持っているため、これは難しい。 我々は,動物のポーズの変化と外観(標準的ポーズ)を共同で解決する4Dソリューションを通じて,ビデオフレームをリンクするアプローチを開発する。 そこで我々は,SMALパラメトリックモデルに連続面埋め込みを付与することにより,テンプレートベースの形状適合性を大幅に向上させる。 外観をモデル化するために、標準ポーズで定義される暗黙の二重メッシュテクスチャを提案するが、SMALポーズ係数を用いて変形し、後にレンダリングすることで、入力されたビデオフレームとの光度互換性を強制することができる。 挑戦的なCoP3DとAPTv2データセットでは、既存のテンプレートフリー(RAC)とテンプレートベースのアプローチ(BARC, BITE)に優れた結果(ポーズ推定と外観予測の両方)を示す。

We present a method to build animatable dog avatars from monocular videos. This is challenging as animals display a range of (unpredictable) non-rigid movements and have a variety of appearance details (e.g., fur, spots, tails). We develop an approach that links the video frames via a 4D solution that jointly solves for animal's pose variation, and its appearance (in a canonical pose). To this end, we significantly improve the quality of template-based shape fitting by endowing the SMAL parametric model with Continuous Surface Embeddings, which brings image-to-mesh reprojection constaints that are denser, and thus stronger, than the previously used sparse semantic keypoint correspondences. To model appearance, we propose an implicit duplex-mesh texture that is defined in the canonical pose, but can be deformed using SMAL pose coefficients and later rendered to enforce a photometric compatibility with the input video frames. On the challenging CoP3D and APTv2 datasets, we demonstrate superior results (both in terms of pose estimates and predicted appearance) to existing template-free (RAC) and template-based approaches (BARC, BITE).
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# Attribute First, then Generate: Locally-Atributable Grounded Text Generation

Attribute First, then Generate: Locally-attributable Grounded Text Generation ( http://arxiv.org/abs/2403.17104v1 )

ライセンス: Link先を確認
Aviv Slobodkin, Eran Hirsch, Arie Cattan, Tal Schuster, Ido Dagan, (参考訳) 近年,Large Language Models (LLMs) における幻覚への取り組みは,生成したテキストに後代事実チェックと修正のための支援源の引用を補足する属性テキスト生成に焦点が当てられている。 しかし、これらの引用は文書や段落全体を指していることが多く、ユーザーを広範囲の検証作業に苦しめている。 本稿では,簡潔な属性を優先する局所帰属型テキスト生成手法を提案する。 提案手法は,従来のエンドツーエンド生成プロセスを,コンテンツ選択,文計画,逐次文生成という3つの直感的なステップに分解する。 最初は関連するソースセグメント(`select first'')を識別し、それから生成プロセス(``then generation''')を条件付けすることで、これらのセグメントが出力のきめ細かい属性(``select''は ``attribute'')としても機能するようにします。 提案手法は,複数文書の要約と長文質問回答に基づいて,ベースラインよりも簡潔な引用を得られるだけでなく,生成品質と帰属精度を向上する。 さらに、人間の評価者による事実検証に要する時間を大幅に短縮する。

Recent efforts to address hallucinations in Large Language Models (LLMs) have focused on attributed text generation, which supplements generated texts with citations of supporting sources for post-generation fact-checking and corrections. Yet, these citations often point to entire documents or paragraphs, burdening users with extensive verification work. In this paper, we introduce a locally-attributable text generation approach, prioritizing concise attributions. Our method, named ``Attribute First, then Generate'', breaks down the conventional end-to-end generation process into three intuitive steps: content selection, sentence planning, and sequential sentence generation. By initially identifying relevant source segments (``select first'') and then conditioning the generation process on them (``then generate''), we ensure these segments also act as the output's fine-grained attributions (``select'' becomes ``attribute''). Tested on Multi-document Summarization and Long-form Question-answering, our method not only yields more concise citations than the baselines but also maintains - and in some cases enhances - both generation quality and attribution accuracy. Furthermore, it significantly reduces the time required for fact verification by human assessors.
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# 確率的グラディエント・ランゲヴィン・アンラーニング

Stochastic Gradient Langevin Unlearning ( http://arxiv.org/abs/2403.17105v1 )

ライセンス: Link先を確認
Eli Chien, Haoyu Wang, Ziang Chen, Pan Li, (参考訳) 「忘れられる権利」は、ユーザーデータのプライバシーに関する法律によって保証される。 機械学習の目的は、訓練されたモデルパラメータに対する特定のデータポイントの効果を効率よく除去することであり、モデルをスクラッチから再トレーニングするのとほぼ同じである。 本研究は確率勾配ランゲヴィン・アンラーニング(SGD)をベースとした最初のアンラーニングフレームワークである確率勾配ランゲヴィン・アンラーニング(英語版)を提案する。 以上の結果から,ミニバッチの勾配更新は,フルバッチに比べてプライバシーと複雑さのトレードオフが優れていることが示唆された。 私たちのアンラーニングアプローチには、再トレーニングよりも複雑性の削減、シーケンシャルおよびバッチアンラーニングのサポートなど、多くのアルゴリズム的なメリットがあります。 本手法のプライバシ・ユーティリティ・複雑さのトレードオフを検討するため,従来の手法と比較したベンチマークデータセットの実験を行った。 提案手法は, 2 %$ と 10 %$ の勾配計算を, ミニバッチおよびフルバッチ設定のための最先端の勾配に基づく近似アンラーニング手法と比較しながら, 同一のプライバシー制約下で同様のユーティリティを実現する。

``The right to be forgotten'' ensured by laws for user data privacy becomes increasingly important. Machine unlearning aims to efficiently remove the effect of certain data points on the trained model parameters so that it can be approximately the same as if one retrains the model from scratch. This work proposes stochastic gradient Langevin unlearning, the first unlearning framework based on noisy stochastic gradient descent (SGD) with privacy guarantees for approximate unlearning problems under convexity assumption. Our results show that mini-batch gradient updates provide a superior privacy-complexity trade-off compared to the full-batch counterpart. There are numerous algorithmic benefits of our unlearning approach, including complexity saving compared to retraining, and supporting sequential and batch unlearning. To examine the privacy-utility-complexity trade-off of our method, we conduct experiments on benchmark datasets compared against prior works. Our approach achieves a similar utility under the same privacy constraint while using $2\%$ and $10\%$ of the gradient computations compared with the state-of-the-art gradient-based approximate unlearning methods for mini-batch and full-batch settings, respectively.
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# 複数の同時攻撃によるグラフ保護 : ヒューリスティックアプローチ

Graph Protection under Multiple Simultaneous Attacks: A Heuristic Approach ( http://arxiv.org/abs/2403.17108v1 )

ライセンス: Link先を確認
Marko Djukanovic, Stefan Kapunac, Aleksandar Kartelj, Dragan Matic, (参考訳) この研究は、グラフを用いてモデル化されたネットワークのノードに対する同時攻撃から保護するための効果的なメタヒューリスティックなアプローチの開発に焦点を当てる。 具体的には、グラフ上のよく知られたローマ支配問題の一般化である$k$-strong Roman支配問題に焦点を当てる。 この一般的な問題は、全重量を最小化しながら保護制約を満たすために各ノードに駐留する野戦部隊の数を表すノードに整数重みを割り当てることである。 これらの制約は、$k \in \mathbb{N}$ノードからなる同時攻撃に対するグラフの保護に関するものである。 攻撃は、隣接するノードの1つから軍隊を借りることで、0とラベル付けされた各ノードを防御できるとされ、近隣のノードが少なくとも1つの軍隊を自己防衛のために保持することを保証する。 k$-SRD問題は、対テロ戦略の開発やサプライチェーンの破壊管理など、様々な分野で実用化されている。 この問題に対する解決策は、提案されたソリューションの実現可能性を確認する場合でも指数関数的なステップを必要とするため、見つからないことが知られている。 本稿では, 準実現可能性の概念を導入して, 実現可能性を確認する可変近傍探索アルゴリズムを提案する。 大規模な実験的評価は,提案手法のスケーラビリティとロバスト性を示し,文献からの2つの正確なアプローチと比較した。 文献からのランダムネットワークと、新たに導入されたランダム無線ネットワーク、および実世界のネットワークを用いて実験を行う。 実世界のネットワークを用いた実践的な応用シナリオは、数百の都市や大地域の地理的特徴を含むGeoJSONファイルから抽出したグラフに我々のアプローチを適用することである。

This work focuses on developing an effective meta-heuristic approach to protect against simultaneous attacks on nodes of a network modeled using a graph. Specifically, we focus on the $k$-strong Roman domination problem, a generalization of the well-known Roman domination problem on graphs. This general problem is about assigning integer weights to nodes that represent the number of field armies stationed at each node in order to satisfy the protection constraints while minimizing the total weights. These constraints concern the protection of a graph against any simultaneous attack consisting of $k \in \mathbb{N}$ nodes. An attack is considered repelled if each node labeled 0 can be defended by borrowing an army from one of its neighboring nodes, ensuring that the neighbor retains at least one army for self-defense. The $k$-SRD problem has practical applications in various areas, such as developing counter-terrorism strategies or managing supply chain disruptions. The solution to this problem is notoriously difficult to find, as even checking the feasibility of the proposed solution requires an exponential number of steps. We propose a variable neighborhood search algorithm in which the feasibility of the solution is checked by introducing the concept of quasi-feasibility, which is realized by careful sampling within the set of all possible attacks. Extensive experimental evaluations show the scalability and robustness of the proposed approach compared to the two exact approaches from the literature. Experiments are conducted with random networks from the literature and newly introduced random wireless networks as well as with real-world networks. A practical application scenario, using real-world networks, involves applying our approach to graphs extracted from GeoJSON files containing geographic features of hundreds of cities or larger regions.
翻訳日:2024-03-27 19:55:36 公開日:2024-03-25
# カウンターの裏側:オンラインカウンセリングのモチベーションと障壁を探る

Behind the Counter: Exploring the Motivations and Barriers of Online Counterspeech Writing ( http://arxiv.org/abs/2403.17116v1 )

ライセンス: Link先を確認
Kaike Ping, Anisha Kumar, Xiaohan Ding, Eugenia Rho, (参考訳) 現在の研究では、オンラインカウンター音声の属性と影響を主に調査し、オンラインカウンター音声に携わる人や、ユーザーの参加を動機づけたり妨げたりする人に対する理解のギャップを残している。 これを調べるために、英語話者458人を調査し、オンライン対音声エンゲージメントの根底にある重要な動機と障壁を分析した。 対象者は3つのヘイトスピーチの例で, 人種, 性別, 宗教, 性的指向, 障害の3つを提示し, 対音声応答を要請した。 その後の質問は、その満足度、難易度、反響の有効性を評価した。 以上の結果から、オンラインヘイトを標的にしていたことが、オンラインの反音声活動の頻繁な推進役であることが明らかとなった。 人々は、異なる人口集団間でオンラインのカウンタースピーチに参加するためのモチベーションと障壁が異なる。 若者、女性、高等教育レベルが高い人、そしてオンライン嫌がらせに対する定期的な目撃者は、公的な暴露、報復、サードパーティの嫌がらせに関する懸念から、オンラインの対抗活動に消極的だ。 反音声エンゲージメントのモチベーションと障壁は、個人が自称の反音声を見る方法と、それを書くことの難しさを形作る。 さらに、私たちの研究は、反音声書き込みにChatGPTのようなAI技術を使用したいという人々の意思について調べています。 この作業を通じて、カウンター音声のモチベーションと障壁を理解するためのマルチテムスケールを導入し、オンラインのカウンター音声のエンゲージメントを形成する要因をより微妙に理解する。

Current research mainly explores the attributes and impact of online counterspeech, leaving a gap in understanding of who engages in online counterspeech or what motivates or deters users from participating. To investigate this, we surveyed 458 English-speaking U.S. participants, analyzing key motivations and barriers underlying online counterspeech engagement. We presented each participant with three hate speech examples from a set of 900, spanning race, gender, religion, sexual orientation, and disability, and requested counterspeech responses. Subsequent questions assessed their satisfaction, perceived difficulty, and the effectiveness of their counterspeech. Our findings show that having been a target of online hate is a key driver of frequent online counterspeech engagement. People differ in their motivations and barriers towards engaging in online counterspeech across different demographic groups. Younger individuals, women, those with higher education levels, and regular witnesses to online hate are more reluctant to engage in online counterspeech due to concerns around public exposure, retaliation, and third-party harassment. Varying motivation and barriers in counterspeech engagement also shape how individuals view their own self-authored counterspeech and the difficulty experienced writing it. Additionally, our work explores people's willingness to use AI technologies like ChatGPT for counterspeech writing. Through this work we introduce a multi-item scale for understanding counterspeech motivation and barriers and a more nuanced understanding of the factors shaping online counterspeech engagement.
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# 走査型SU(1,1)干渉計による量子化分散位相検出

Quantum enhanced distributed phase sensing with a truncated SU(1,1) interferometer ( http://arxiv.org/abs/2403.17119v1 )

ライセンス: Link先を確認
Seongjin Hong, Matthew A. Feldman, Claire E. Marvinney, Donghwa Lee, Changhyoup Lee, Michael T. Febbraro, Alberto M. Marino, Raphael C. Pooser, (参考訳) 近年、分散量子センシングは、グローバルなクロック同期から高エネルギー物理学まで、センサーのネットワークを必要とする幅広いアプリケーションに注目されている。 特に、絡み合ったセンサーのネットワークは、ショットノイズの限界を超えた感度を改善するだけでなく、センサーの数に応じてハイゼンベルクのスケーリングを可能にする。 ここでは、明るい絡み合ったツインビームを用いて、ショットノイズ限界を超える2つの分散位相の線形結合と、歪んだSU(1,1)干渉計との検出を理論的および実験的に実証する。 本研究では、2つの歪んだSU(1,1)干渉計を含む分離型センシング手法による1.7dBの量子ノイズ低減と古典的な3dB信号-雑音比の改善を実験的に実証した。 さらに,ネットワーク内のセンサ数によるスケーリングの量子的改善を実現するために,絡み合いをリソースとして活用する多相分散センシング方式に,停止したSU(1,1)干渉計の使用を理論的に拡張する。 本研究は, 量子化センサネットワークの開発において, エンタングルメント強化感度を実現する方法である。

In recent years, distributed quantum sensing has gained interest for a range of applications requiring networks of sensors, from global-scale clock synchronization to high energy physics. In particular, a network of entangled sensors can improve not only the sensitivity beyond the shot noise limit, but also enable a Heisenberg scaling with the number of sensors. Here, using bright entangled twin beams, we theoretically and experimentally demonstrate the detection of a linear combination of two distributed phases beyond the shot noise limit with a truncated SU(1,1) interferometer. We experimentally demonstrate a quantum noise reduction of 1.7 dB and a classical 3 dB signal-to-noise ratio improvement over the separable sensing approach involving two truncated SU(1,1) interferometers. Additionally, we theoretically extend the use of a truncated SU(1,1) interferometer to a multi-phase-distributed sensing scheme that leverages entanglement as a resource to achieve a quantum improvement in the scaling with the number of sensors in the network. Our results pave the way for developing quantum enhanced sensor networks that can achieve an entanglement-enhanced sensitivity.
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# 対物摂動による実証における接地言語計画

Grounding Language Plans in Demonstrations Through Counterfactual Perturbations ( http://arxiv.org/abs/2403.17124v1 )

ライセンス: Link先を確認
Yanwei Wang, Tsun-Hsuan Wang, Jiayuan Mao, Michael Hagenow, Julie Shah, (参考訳) 物理領域における大規模言語モデルの常識的推論を基礎づけることは、AIを具現化するための重要な問題でありながら未解決である。 従来の研究は、LLMを記号空間の計画に直接活用することに重点を置いていたが、この研究は、多段階のデモにおいて暗黙的なタスク構造と制約の探索を誘導するためにLLMを用いている。 具体的には、特定の動作制約によってロボットの構成をグループ化するモードファミリーの概念を、LLMの高レベル言語表現とロボットの低レベル物理軌道の抽象層として機能させる、という操作計画の文献から借用する。 人工摂動でいくつかの人間のデモをリプレイすることで、実行がさらに成功し、タスクを失敗する反事実とともに、デモの状態空間のカバレッジを生成します。 我々の説明に基づく学習フレームワークは、終端から終端までの微分可能なニューラルネットワークをトレーニングし、失敗から軌道をうまく予測し、副産物として、高密度なラベル付けをせずにモードファミリ内の低レベル状態とイメージを基底とする分類器を学習する。 学習された基底分類器は、解釈可能な方法で言語プランを物理領域のリアクティブポリシーに変換するためにさらに使用できる。 提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。 Webサイト: https://sites.google.com/view/grounding-plans

Grounding the common-sense reasoning of Large Language Models in physical domains remains a pivotal yet unsolved problem for embodied AI. Whereas prior works have focused on leveraging LLMs directly for planning in symbolic spaces, this work uses LLMs to guide the search of task structures and constraints implicit in multi-step demonstrations. Specifically, we borrow from manipulation planning literature the concept of mode families, which group robot configurations by specific motion constraints, to serve as an abstraction layer between the high-level language representations of an LLM and the low-level physical trajectories of a robot. By replaying a few human demonstrations with synthetic perturbations, we generate coverage over the demonstrations' state space with additional successful executions as well as counterfactuals that fail the task. Our explanation-based learning framework trains an end-to-end differentiable neural network to predict successful trajectories from failures and as a by-product learns classifiers that ground low-level states and images in mode families without dense labeling. The learned grounding classifiers can further be used to translate language plans into reactive policies in the physical domain in an interpretable manner. We show our approach improves the interpretability and reactivity of imitation learning through 2D navigation and simulated and real robot manipulation tasks. Website: https://sites.google.com/view/grounding-plans
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# 大規模言語モデルにおける先行知識の強引な獲得と感情認識への影響

The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition ( http://arxiv.org/abs/2403.17125v1 )

ライセンス: Link先を確認
Georgios Chochlakis, Alexandros Potamianos, Kristina Lerman, Shrikanth Narayanan, (参考訳) In-context Learning (ICL) は、従来の勾配に基づく微調整とは対照的に、モデルのパラメータを更新することなく、Large Language Models (LLM) で自然言語タスクを実行するための強力なパラダイムとして登場した。 ICLの約束は、LLMが現在のタスクを競争力や最先端のレベルで、コストのごく一部で実行できるように適応できることである。 LLMがこの数ショットでタスクを実行する能力は、タスク(またはタスクの事前)のバックグラウンド知識に依存している。 しかし、最近の研究によると、従来の学習とは異なり、LLMはタスク先行とは対照的なデモからの情報を完全に統合することはできない。 これは、特に感情認識のような主観的なタスクにおいて、人間のアノテーションの多様性のために、テキストから感情へのマッピングが広く異なる場合において、最適以下のレベルのパフォーマンス飽和を引き起こす可能性がある。 本研究では,LLM前のプロキシと後部のプルの一貫性を明示的に定量化するための実験と測定方法を提案する。 LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。 また、モデルが大きくなればなるほど、これらの効果は強くなります。 以上の結果から,ICL をより大きな LLM と併用して,事前学習領域外における感情中心タスクや,ICL 結果の解釈に注意が必要であることが示唆された。

In-context Learning (ICL) has emerged as a powerful paradigm for performing natural language tasks with Large Language Models (LLM) without updating the models' parameters, in contrast to the traditional gradient-based finetuning. The promise of ICL is that the LLM can adapt to perform the present task at a competitive or state-of-the-art level at a fraction of the cost. The ability of LLMs to perform tasks in this few-shot manner relies on their background knowledge of the task (or task priors). However, recent work has found that, unlike traditional learning, LLMs are unable to fully integrate information from demonstrations that contrast task priors. This can lead to performance saturation at suboptimal levels, especially for subjective tasks such as emotion recognition, where the mapping from text to emotions can differ widely due to variability in human annotations. In this work, we design experiments and propose measurements to explicitly quantify the consistency of proxies of LLM priors and their pull on the posteriors. We show that LLMs have strong yet inconsistent priors in emotion recognition that ossify their predictions. We also find that the larger the model, the stronger these effects become. Our results suggest that caution is needed when using ICL with larger LLMs for affect-centered tasks outside their pre-training domain and when interpreting ICL results.
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# ビデオフレーム補間ベンチマーク

Benchmarking Video Frame Interpolation ( http://arxiv.org/abs/2403.17128v1 )

ライセンス: Link先を確認
Simon Kiefhaber, Simon Niklaus, Feng Liu, Simone Schaub-Meyer, (参考訳) 新しいフレームを2つ以上のフレーム間で合成するタスクであるビデオフレーム補間は、ますます人気のある研究ターゲットになりつつある。 しかし、フレーム補間技術の現在の評価は理想的ではない。 テストデータセットの多用とエラーメトリクスの一貫性のない計算のため、論文間の一貫性と公正な比較は非常に難しい。 さらに,新しいテストセットが提案されているため,専用のベンチマーク用紙の詳細な評価が得られない。 もう一つの深刻な欠点は、これらのテストセットが2つの入力フレームが与えられたときの線形性の仮定に反し、オラクルなしでは解決できないことである。 したがって、私たちはコミュニティがベンチマーク論文から大きな恩恵を受けると強く信じています。 具体的には、入力Webサイトを利用して一貫したエラーメトリクスを確立し、動きの大きさなどの画素ごとの様々な属性に対する補間品質を分析して洞察を提供し、合成データを利用して線形性の仮定に固執する慎重に設計されたテストセットを含み、その計算効率を一貫性のある方法で評価する。

Video frame interpolation, the task of synthesizing new frames in between two or more given ones, is becoming an increasingly popular research target. However, the current evaluation of frame interpolation techniques is not ideal. Due to the plethora of test datasets available and inconsistent computation of error metrics, a coherent and fair comparison across papers is very challenging. Furthermore, new test sets have been proposed as part of method papers so they are unable to provide the in-depth evaluation of a dedicated benchmarking paper. Another severe downside is that these test sets violate the assumption of linearity when given two input frames, making it impossible to solve without an oracle. We hence strongly believe that the community would greatly benefit from a benchmarking paper, which is what we propose. Specifically, we present a benchmark which establishes consistent error metrics by utilizing a submission website that computes them, provides insights by analyzing the interpolation quality with respect to various per-pixel attributes such as the motion magnitude, contains a carefully designed test set adhering to the assumption of linearity by utilizing synthetic data, and evaluates the computational efficiency in a coherent manner.
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# 不均衡データ分類のための試作ソフトラベルデータ蒸留の可能性を探る

Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification ( http://arxiv.org/abs/2403.17130v1 )

ライセンス: Link先を確認
Radu-Andrei Rosu, Mihaela-Elena Breaban, Henri Luchian, (参考訳) データセット蒸留は、少数の人工的に生成されたデータアイテムによってデータセットを合成することを目的としており、トレーニングデータとして使用される場合、機械学習(ML)モデルをオリジナルのデータセット全体をトレーニングしたかのように再現または近似する。 その結果、データ蒸留法は通常、特定のMLアルゴリズムに結びついている。 近年の文献では、主にニューラルネットワークモデルにおける大量の画像の蒸留を扱っているが、表層データ蒸留は、表現がはるかに少なく、理論的な視点に重点を置いている。 本報告では, 単発学習における簡単な蒸留技術の可能性について考察する。 主な目的は, 蒸留工程に最適化工程を統合することにより, 分類精度の観点から, 試作ソフトラベル蒸留の性能を高めることである。 この分析は、様々な不均衡な実世界のデータセット上で行われる。 実験的な研究は、この方法でデータを蒸留する能力だけでなく、拡張法として機能する機会、すなわち、オリジナルのデータではなく、使用時にモデル精度を向上できる新しいデータを生成する機会を辿っている。

Dataset distillation aims at synthesizing a dataset by a small number of artificially generated data items, which, when used as training data, reproduce or approximate a machine learning (ML) model as if it were trained on the entire original dataset. Consequently, data distillation methods are usually tied to a specific ML algorithm. While recent literature deals mainly with distillation of large collections of images in the context of neural network models, tabular data distillation is much less represented and mainly focused on a theoretical perspective. The current paper explores the potential of a simple distillation technique previously proposed in the context of Less-than-one shot learning. The main goal is to push further the performance of prototype-based soft-labels distillation in terms of classification accuracy, by integrating optimization steps in the distillation process. The analysis is performed on real-world data sets with various degrees of imbalance. Experimental studies trace the capability of the method to distill the data, but also the opportunity to act as an augmentation method, i.e. to generate new data that is able to increase model accuracy when used in conjunction with - as opposed to instead of - the original data.
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# repairAgent: プログラム修復のための自律的LLMベースのエージェント

RepairAgent: An Autonomous, LLM-Based Agent for Program Repair ( http://arxiv.org/abs/2403.17134v1 )

ライセンス: Link先を確認
Islem Bouzenia, Premkumar Devanbu, Michael Pradel, (参考訳) 自動プログラム修復は、システムの信頼性とユーザエクスペリエンスに対するソフトウェアバグの影響を軽減する強力なテクニックとして現れました。 本稿では,大規模言語モデル(LLM)に基づく自律型エージェントによるプログラム修復問題に対処する最初の取り組みであるRepreAgentを紹介する。 固定的なプロンプトや固定的なフィードバックループを持つモデルを促す既存のディープラーニングベースのアプローチとは異なり、当社の作業では、適切なツールを呼び出してバグを修正するためのアクションを自律的に計画し実行することができるエージェントとしてLLMを扱います。 repairAgentは、収集された情報と以前の修正の試みからのフィードバックに基づいて、どのツールを呼び出すかを決定しながら、バグに関する情報の収集、修復材料の収集、修正の検証を自由にインターリーブする。 repairAgentの主要なコントリビューションには、プログラムの修復に有用なツールセット、これらのツールとの対話を可能にする動的に更新されたプロンプトフォーマット、ツールを呼び出すエージェントを誘導する有限状態マシンが含まれている。 一般的なDefects4Jデータセットに対する評価は、以前の手法では修正されなかった39のバグを含む164のバグを自律的に修復するAgentの有効性を示す。 LLMとの相互作用により、バグ当たり平均270,000トークンが課せられ、OpenAIのGPT-3.5モデルの現在の価格の下では、バグ毎のUSDの14セントに変換される。 私たちの知る限りでは、この研究は、LLMベースの自律的プログラム修復エージェントを初めて提示し、将来のソフトウェア工学におけるエージェントベースの技術への道を開いたものです。

Automated program repair has emerged as a powerful technique to mitigate the impact of software bugs on system reliability and user experience. This paper introduces RepairAgent, the first work to address the program repair challenge through an autonomous agent based on a large language model (LLM). Unlike existing deep learning-based approaches, which prompt a model with a fixed prompt or in a fixed feedback loop, our work treats the LLM as an agent capable of autonomously planning and executing actions to fix bugs by invoking suitable tools. RepairAgent freely interleaves gathering information about the bug, gathering repair ingredients, and validating fixes, while deciding which tools to invoke based on the gathered information and feedback from previous fix attempts. Key contributions that enable RepairAgent include a set of tools that are useful for program repair, a dynamically updated prompt format that allows the LLM to interact with these tools, and a finite state machine that guides the agent in invoking the tools. Our evaluation on the popular Defects4J dataset demonstrates RepairAgent's effectiveness in autonomously repairing 164 bugs, including 39 bugs not fixed by prior techniques. Interacting with the LLM imposes an average cost of 270,000 tokens per bug, which, under the current pricing of OpenAI's GPT-3.5 model, translates to 14 cents of USD per bug. To the best of our knowledge, this work is the first to present an autonomous, LLM-based agent for program repair, paving the way for future agent-based techniques in software engineering.
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# がん治験適性分類の一般化をめざして

Exploring the Generalization of Cancer Clinical Trial Eligibility Classifiers Across Diseases ( http://arxiv.org/abs/2403.17135v1 )

ライセンス: Link先を確認
Yumeng Yang, Ashley Gilliam, Ethan B Ludmir, Kirk Roberts, (参考訳) 臨床試験は医学研究において重要であり、NLPは採用に応用してその成功を高めることができる。 本研究は, 幅広い臨床試験範囲において, 資格分類の一般化可能性を評価することを目的とする。 まず第3相臨床試験から始まり、7つのアノテートでアノテートされ、モデルが非がんおよび非フェーズ3臨床試験にどのように一般化できるかを判断する。 これを評価するために,(1)第3相臨床試験,(2)第1相臨床試験,(2)第2相臨床試験,(3)心臓病臨床試験,(4)第2型糖尿病臨床試験,(5)第5相臨床試験の5種類の検査基準データをまとめた。 以上の結果から, がんデータセットに基づいてトレーニングしたモデルでは, 自己免疫疾患などの非がん臨床試験で一般的に見られる基準を効果的に扱えることが示唆された。 しかし、早期悪性腫瘍のように、がんの治験において不適切な基準に苦しむ。 また、このパフォーマンスギャップを部分的に克服できる病気特異的例の数が限られていることを実証して、数発の学習実験を行った。 臨床試験分類におけるクロス・ディスリーズ・ジェネリゼーションの進展を促進するために, 注釈付き適性ステートメントのデータセットを新たにリリースする。

Clinical trials are pivotal in medical research, and NLP can enhance their success, with application in recruitment. This study aims to evaluate the generalizability of eligibility classification across a broad spectrum of clinical trials. Starting with phase 3 cancer trials, annotated with seven eligibility exclusions, then to determine how well models can generalize to non-cancer and non-phase 3 trials. To assess this, we have compiled eligibility criteria data for five types of trials: (1) additional phase 3 cancer trials, (2) phase 1 and 2 cancer trials, (3) heart disease trials, (4) type 2 diabetes trials, and (5) observational trials for any disease, comprising 2,490 annotated eligibility criteria across seven exclusion types. Our results show that models trained on the extensive cancer dataset can effectively handle criteria commonly found in non-cancer trials, such as autoimmune diseases. However, they struggle with criteria disproportionately prevalent in cancer trials, like prior malignancy. We also experiment with few-shot learning, demonstrating that a limited number of disease-specific examples can partially overcome this performance gap. We are releasing this new dataset of annotated eligibility statements to promote the development of cross-disease generalization in clinical trial classification.
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# 量子熱力学と多体系における準確率:チュートリアル

Quasiprobabilities in quantum thermodynamics and many-body systems: A tutorial ( http://arxiv.org/abs/2403.17138v1 )

ライセンス: Link先を確認
Stefano Gherardini, Gabriele De Chiara, (参考訳) 準確率(英: Quasiprobabilities)は、測定結果の統計を2回以上の時間で表す数学的量であり、測定可能な測定値の不整合性と測定された量子系の状態を含む。 本チュートリアルでは,本論文で知られている主準確率の定義,解釈,特性について述べる。 また、弱い2点測定方式からラムゼー型干渉計方式、外部検出器で補助される手順まで、準確率分布を実験的にアクセスする手法についても論じる。 量子力学における関節測定可能性の観点に従って基本的な概念を定義すると、仕事と熱の量子統計を記述するために量子熱力学における準確率の使用を説明し、与えられた熱力学変換によって引き起こされるエネルギー交換における異常を説明する。 一方, 作業プロトコルでは, 吸収エネルギーが抽出可能な作業にどのように変換できるかを示す。 一方、最初に異なる温度で2つの量子系間の交換過程において、その初期状態における量子相関が、任意の平衡非駆動系間の不自然な冷間エネルギー交換をいかに引き起こすかを説明する。 量子情報のスクランブル、局所摂動に対する感度、自由フェルミオンの系にマッピング可能なモデルのクエンチ力学における量子作業統計、例えば横フィールドを持つイジングモデルなどである。 チュートリアルを通して,本質的な概念の導出を簡潔な例とともに慎重に提示し,理解の促進と学習の促進を目的としている。

Quasiprobabilities are mathematical quantities describing the statistics of measurement outcomes evaluated at two or more times, which incorporate the incompatibility of the measurement observables and the state of the measured quantum system. In this tutorial, we present the definition, interpretation and properties of the main quasiprobabilities known in the literature. We also discuss techniques to experimentally access a quasiprobability distribution, ranging from the weak two-point measurement scheme, to a Ramsey-like interferometric scheme and procedures assisted by an external detector. Once defined the fundamental concepts following the standpoint of joint measurability in quantum mechanics, we illustrate the use of quasiprobabilities in quantum thermodynamics to describe the quantum statistics of work and heat, and to explain anomalies in the energy exchanges entailed by a given thermodynamic transformation. On the one hand, in work protocols, we show how absorbed energy can be converted to extractable work and vice versa due to Hamiltonian incompatibility at distinct times. On the other hand, in exchange processes between two quantum systems initially at different temperatures, we explain how quantum correlations in their initial state may induce cold-to-hot energy exchanges, which are unnatural between any pair of equilibrium non-driven systems. We conclude the tutorial by giving simple examples where quasiprobabilities are applied to many-body systems: scrambling of quantum information, sensitivity to local perturbations, quantum work statistics in the quenched dynamics of models that can be mapped onto systems of free fermions, for instance the Ising model with a transverse field. Throughout the tutorial, we meticulously present derivations of essential concepts alongside straightforward examples, aiming to enhance comprehension and facilitate learning.
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# MetaAligner:言語モデルの一般化可能な多目的アライメントのための条件付き弱-ストロング補正

MetaAligner: Conditional Weak-to-Strong Correction for Generalizable Multi-Objective Alignment of Language Models ( http://arxiv.org/abs/2403.17141v1 )

ライセンス: Link先を確認
Kailai Yang, Zhiwei Liu, Qianqian Xie, Tianlin Zhang, Nirui Song, Jimin Huang, Ziyan Kuang, Sophia Ananiadou, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、多目的選好アライメントを通じて、異種人の期待と価値に取り組むことを目的としている。 しかし、既存の手法はポリシーモデルにパラメータ依存しており、(1)新しいターゲットモデルごとに高コストでアライメントアルゴリズムを繰り返すこと、(2)静的アライメント目的のために未確認の目的に拡張できないこと、の2つの主要な制限をもたらす。 本稿では,弱い応答に対して条件付き弱値補正を行い,強い応答に近づくメタオブジェクトアリグナー(MetaAligner)を提案する。 MetaAlignerは、ポリシーモデルからパラメータ更新を分離することでプラグ・アンド・プレイのアライメントを可能にし、コンテキスト内学習を通じて、目に見えない目的に対するゼロショット・リライスアライメントを容易にする、多目的のリライメントアライメントのための最初のポリシーに依存しない一般化可能な方法である。 実験の結果、MetaAlignerは最大63倍のパラメータを持つ11のポリシーモデルにおいて、多目的アライメントの大幅な改善とバランスの取れた改善を実現し、22.27倍の計算資源で従来のアライメント手法よりも優れていた。 このモデルはまた、目に見えない目的と正確に一致し、一般化可能な多目的の選好アライメントへの第一歩をマークしている。

Recent advancements in large language models (LLMs) aim to tackle heterogeneous human expectations and values via multi-objective preference alignment. However, existing methods are parameter-adherent to the policy model, leading to two key limitations: (1) the high-cost repetition of their alignment algorithms for each new target model; (2) they cannot expand to unseen objectives due to their static alignment objectives. In this work, we propose Meta-Objective Aligner (MetaAligner), a model that performs conditional weak-to-strong correction for weak responses to approach strong responses. MetaAligner is the first policy-agnostic and generalizable method for multi-objective preference alignment, which enables plug-and-play alignment by decoupling parameter updates from the policy models and facilitates zero-shot preference alignment for unseen objectives via in-context learning. Experimental results show that MetaAligner achieves significant and balanced improvements in multi-objective alignments on 11 policy models with up to 63x more parameters, and outperforms previous alignment methods with down to 22.27x less computational resources. The model also accurately aligns with unseen objectives, marking the first step towards generalizable multi-objective preference alignment.
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# 乱浅ReLUネットワークによる近似とモデル参照適応制御への応用

Approximation with Random Shallow ReLU Networks with Applications to Model Reference Adaptive Control ( http://arxiv.org/abs/2403.17142v1 )

ライセンス: Link先を確認
Andrew Lamperski, Tyler Lekang, (参考訳) ニューラルネットワークは、非線形システムの適応制御と強化学習の関連手法に定期的に採用されている。 一般的なアーキテクチャでは、重みとバイアスを事前に固定し、出力層のみをトレーニングする単一の隠れ層(すなわち浅いネットワーク)を持つニューラルネットワークを使用する。 古典的な結果は、境界領域上の任意の連続関数を近似できるこのタイプのニューラルネットワークが存在することを示しているが、それらは非構成的であり、実際に使用されるネットワークは近似保証を持たない。 したがって、ニューラルネットワークによる制御に必要な近似特性は、証明されるよりもむしろ仮定される。 本稿では、十分に滑らかな関数に対して、ランダムに生成される重みとバイアスを持つReLUネットワークが、高い確率で$O(m^{-1/2})$の誤差を達成し、m$がニューロンの数であることを示すことで、このギャップを埋めることを目指している。 球面上の重みを均一に生成するのに十分であり、偏差は一定間隔で均一に発生する。 本稿では,モデル参照適応制御アプリケーションにおいて,必要な精度を近似するために,その結果をどのように利用できるかを示す。

Neural networks are regularly employed in adaptive control of nonlinear systems and related methods o reinforcement learning. A common architecture uses a neural network with a single hidden layer (i.e. a shallow network), in which the weights and biases are fixed in advance and only the output layer is trained. While classical results show that there exist neural networks of this type that can approximate arbitrary continuous functions over bounded regions, they are non-constructive, and the networks used in practice have no approximation guarantees. Thus, the approximation properties required for control with neural networks are assumed, rather than proved. In this paper, we aim to fill this gap by showing that for sufficiently smooth functions, ReLU networks with randomly generated weights and biases achieve $L_{\infty}$ error of $O(m^{-1/2})$ with high probability, where $m$ is the number of neurons. It suffices to generate the weights uniformly over a sphere and the biases uniformly over an interval. We show how the result can be used to get approximations of required accuracy in a model reference adaptive control application.
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# 多言語関係抽出データのためのガイド付き距離スーパービジョン:新しい言語に適応する

Guided Distant Supervision for Multilingual Relation Extraction Data: Adapting to a New Language ( http://arxiv.org/abs/2403.17143v1 )

ライセンス: Link先を確認
Alistair Plum, Tharindu Ranasinghe, Christoph Purschke, (参考訳) 関係抽出は、デジタル人文科学と関連する主題の文脈において、伝記情報を抽出し理解するために不可欠である。 機械学習モデルをトレーニングして関係を抽出できるデータセットを構築することに対するコミュニティの関心が高まっている。 しかし、このようなデータセットの注釈付けは、英語に限定されるだけでなく、高価で時間を要する可能性がある。 本稿では,ドイツにおける大規模生物関係抽出データセットの作成のために,遠距離監視法を適用した。 我々のデータセットは,9種類の関係型に対して80,000以上のインスタンスで構成されており,ドイツで最大規模の関係抽出データセットである。 また、2000のインスタンスで手動で注釈付きデータセットを作成し、モデルを評価し、ガイド付き遠隔監視を使用してコンパイルされたデータセットと一緒にリリースします。 私たちは、自動生成されたデータセット上に、最先端の機械学習モデルをトレーニングし、それらもリリースします。 さらに、低リソース言語の多くに利益をもたらす多言語および多言語間実験を実験する。

Relation extraction is essential for extracting and understanding biographical information in the context of digital humanities and related subjects. There is a growing interest in the community to build datasets capable of training machine learning models to extract relationships. However, annotating such datasets can be expensive and time-consuming, in addition to being limited to English. This paper applies guided distant supervision to create a large biographical relationship extraction dataset for German. Our dataset, composed of more than 80,000 instances for nine relationship types, is the largest biographical German relationship extraction dataset. We also create a manually annotated dataset with 2000 instances to evaluate the models and release it together with the dataset compiled using guided distant supervision. We train several state-of-the-art machine learning models on the automatically created dataset and release them as well. Furthermore, we experiment with multilingual and cross-lingual experiments that could benefit many low-resource languages.
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# ヘイトスピーチに対するアウトカム制約付き大言語モデル

Outcome-Constrained Large Language Models for Countering Hate Speech ( http://arxiv.org/abs/2403.17146v1 )

ライセンス: Link先を確認
Lingzi Hong, Pengcheng Luo, Eduardo Blanco, Xiaoying Song, (参考訳) ヘイトスピーチへの挑戦や対応は、ヘイトスピーチのネガティブな影響を緩和し、生産的なオンラインコミュニケーションを促進する代替手段として見なされてきた。 研究は、オンラインヘイトと戦う努力を支援するために、言語モデルを使用して対抗音声を自動生成することを目的としている。 既存の研究は、礼儀正しさ、情報的、意図駆動といった特定の言語的特性を持つ対音声の生成に焦点を当てている。 しかし、オンライン環境での反響がどのような影響を及ぼすかは不明だ。 まず,大きな言語モデル(LLM)を用いて,潜在的な会話結果に制約された反音声を生成する手法について検討する。 本研究は,Redditデータに対する嫌悪感に追従して,インシヴィティレベルとハザーリエントリー行動を予測する2つの会話結果分類器を構築し,低会話インシビティと非ヘイトフルハザーリエントリーをテキスト生成プロセスに組み込むための4つの方法を提案する。 評価結果は,結果制約付き逆音声を生成するための効果的な戦略と,異なる手法により生成されたテキストの言語的特徴を示す。

Counterspeech that challenges or responds to hate speech has been seen as an alternative to mitigate the negative impact of hate speech and foster productive online communications. Research endeavors have been directed to using language models for the automatic generation of counterspeech to assist efforts in combating online hate. Existing research focuses on the generation of counterspeech with certain linguistic attributes, such as being polite, informative, and intent-driven. However, it remains unclear what impact the counterspeech might have in an online environment. We first explore methods that utilize large language models (LLM) to generate counterspeech constrained by potential conversation outcomes. We build two conversation outcome classifiers that predict the incivility level and the hater reentry behavior following replies to hate with Reddit data, then propose four methods to incorporate the desired outcomes, i.e., low conversation incivility and non-hateful hater reentry, into the text generation process, including Prompt with Instructions, Prompt and Select, LLM finetune, and LLM transformer reinforcement learning (TRL). Evaluation results show effective strategies to generate outcome-constrained counterspeech and the linguistic characteristics of texts generated by different methods.
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# スペクトル群ロボットによるアリーナ形状の聴取

Hearing the shape of an arena with spectral swarm robotics ( http://arxiv.org/abs/2403.17147v1 )

ライセンス: Link先を確認
Leo Cazenille, Nicolas Lobato-Dauzier, Alessia Loi, Mika Ito, Olivier Marchal, Nathanael Aubert-Kato, Nicolas Bredeche, Anthony J. Genot, (参考訳) Swarm Roboticsは未知の状況への適応性と障害に対する堅牢性を保証する。 しかし、ロボットが埋め込まれたアリーナの形状を識別するなど、ロボットが操作するより広いコンテキストを理解する必要があるグローバルなタスクには、依然として苦戦している。 魚の群れ、鳥の群れ、昆虫の群れのような生物学的群れは、局所的な手がかりの拡散を通じて、地球規模の幾何学的問題を日常的に解決する。 このパラダイムは、ロボット群によって直接計算され、活用される数学的モデルによって明確に記述することができる。 領域上の拡散は、関数の局所曲率を測定する線型作用素であるラプラシアンによって数学的にカプセル化される。 決定的に、ある領域の幾何学は一般にラプラシアンの固有スペクトルから再構成することができる。 ここでは、ロボットが隣人に情報を拡散してラプラシア人のオペレーターをエミュレートし、アリーナのスペクトルを「聴く」ことができるスペクトル群ロボットを紹介します。 最適なロボット数(グローバルパラメータ)と最適な相互作用半径(ローカルパラメータ)を結びつける普遍的なスケーリングを明らかにする。 本研究では,キロボットのスパース・スワムを用いたアリーナ形状のワンショット分類による課題条件下でのスペクトルスワム・ロボティクスの検証を行った。 スペクトル法は、未知の地形への適応、労働分割、クォーラムセンシングなど、ロボットが環境に対する緊急のコンセンサスを構築する必要がある課題を支援することができる。 スペクトル法はロボティクスを超えて、交通や群衆といった様々な性質のエージェントの群れを分析し、調整し、短距離相互作用から生じる自然システムの長距離力学をよりよく理解するために用いられる。

Swarm robotics promises adaptability to unknown situations and robustness against failures. However, it still struggles with global tasks that require understanding the broader context in which the robots operate, such as identifying the shape of the arena in which the robots are embedded. Biological swarms, such as shoals of fish, flocks of birds, and colonies of insects, routinely solve global geometrical problems through the diffusion of local cues. This paradigm can be explicitly described by mathematical models that could be directly computed and exploited by a robotic swarm. Diffusion over a domain is mathematically encapsulated by the Laplacian, a linear operator that measures the local curvature of a function. Crucially the geometry of a domain can generally be reconstructed from the eigenspectrum of its Laplacian. Here we introduce spectral swarm robotics where robots diffuse information to their neighbors to emulate the Laplacian operator - enabling them to "hear" the spectrum of their arena. We reveal a universal scaling that links the optimal number of robots (a global parameter) with their optimal radius of interaction (a local parameter). We validate experimentally spectral swarm robotics under challenging conditions with the one-shot classification of arena shapes using a sparse swarm of Kilobots. Spectral methods can assist with challenging tasks where robots need to build an emergent consensus on their environment, such as adaptation to unknown terrains, division of labor, or quorum sensing. Spectral methods may extend beyond robotics to analyze and coordinate swarms of agents of various natures, such as traffic or crowds, and to better understand the long-range dynamics of natural systems emerging from short-range interactions.
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# エッジAIのブラックボックス展開戦略がレイテンシとモデルパフォーマンスに及ぼす影響について

On the Impact of Black-box Deployment Strategies for Edge AI on Latency and Model Performance ( http://arxiv.org/abs/2403.17154v1 )

ライセンス: Link先を確認
Jaskirat Singh, Bram Adams, Ahmed E. Hassan, (参考訳) 特定のレイテンシとパフォーマンス要件をモデル化するために、Edge AIティアで使用する演算子の組み合わせを決定することは、MLOpsエンジニアにとって、オープンな疑問である。 この研究は、異なるブラックボックスのEdge AIデプロイメント戦略、すなわちデプロイメントオペレータとデプロイメント層の組み合わせの正確さと推論時間のトレードオフを実証的に評価することを目的としている。 本稿では,MLOps開発者の観点から,3つのデプロイメント演算子(パーティショニング,量子化,早期実行),3つのデプロイメント階層(モバイル,エッジ,クラウド)と4つの広く使用されているコンピュータビジョンモデルに対するそれらの組み合わせを含む推論実験を行い,最適な戦略を検討する。 以上の結果から,ハイブリッドなQuantization+Early Exit演算子を用いたエッジ配置は,高速遅延が中精度損失の懸念となる場合,非ハイブリッド演算子(Quantization/Early Exit on Edge,Partition on Mobile-Edge)よりも望ましいことが示唆された。 しかし、精度損失の最小化が問題となる場合、MLOpsのエンジニアは、レイテンシの削減または増加時に、それぞれEarly Exit/Partition(エッジ/モバイルエッジ)とQuantized Early Exit(エッジ)演算子よりも、エッジ上の量子化演算子のみを使用することを推奨する。 モバイルCPU/RAMリソースに制約されたシナリオでは、モバイルデプロイメントにおいて、モバイル層とエッジ層のパーティショニングが優先される。 小さい入力データサンプル(FCNなど)を持つモデルの場合、ネットワークに制約のあるクラウドデプロイメントは、Mobile/Edgeデプロイメントやパーティショニング戦略よりも優れた選択肢になる。 大規模な入力データサンプル(ResNet、ResNext、DUC)を持つモデルでは、クラウド/モバイルよりも高いネットワーク/計算能力を持つエッジ層が、パーティショニングやモバイル/クラウドデプロイメント戦略よりも実行可能な選択肢となる。

Deciding what combination of operators to use across the Edge AI tiers to achieve specific latency and model performance requirements is an open question for MLOps engineers. This study aims to empirically assess the accuracy vs inference time trade-off of different black-box Edge AI deployment strategies, i.e., combinations of deployment operators and deployment tiers. In this paper, we conduct inference experiments involving 3 deployment operators (i.e., Partitioning, Quantization, Early Exit), 3 deployment tiers (i.e., Mobile, Edge, Cloud) and their combinations on four widely used Computer-Vision models to investigate the optimal strategies from the point of view of MLOps developers. Our findings suggest that Edge deployment using the hybrid Quantization + Early Exit operator could be preferred over non-hybrid operators (Quantization/Early Exit on Edge, Partition on Mobile-Edge) when faster latency is a concern at medium accuracy loss. However, when minimizing accuracy loss is a concern, MLOps engineers should prefer using only a Quantization operator on edge at a latency reduction or increase, respectively over the Early Exit/Partition (on edge/mobile-edge) and Quantized Early Exit (on edge) operators. In scenarios constrained by Mobile CPU/RAM resources, a preference for Partitioning across mobile and edge tiers is observed over mobile deployment. For models with smaller input data samples (such as FCN), a network-constrained cloud deployment can also be a better alternative than Mobile/Edge deployment and Partitioning strategies. For models with large input data samples (ResNet, ResNext, DUC), an edge tier having higher network/computational capabilities than Cloud/Mobile can be a more viable option than Partitioning and Mobile/Cloud deployment strategies.
翻訳日:2024-03-27 19:45:52 公開日:2024-03-25
# 挿入型バックドアアタックのためのタスク非依存検出装置

Task-Agnostic Detector for Insertion-Based Backdoor Attacks ( http://arxiv.org/abs/2403.17155v1 )

ライセンス: Link先を確認
Weimin Lyu, Xiao Lin, Songzhu Zheng, Lu Pang, Haibin Ling, Susmit Jha, Chao Chen, (参考訳) テキストバックドア攻撃は重大なセキュリティ上の脅威を引き起こす。 現在の検出アプローチは、典型的には中間的特徴表現や潜在的なトリガーの再構成に依存し、タスク固有のものであり、文分類を超えては効果が低く、質問応答や名前付きエンティティ認識のようなタスクに苦しむ。 本稿では,バックドア検出の先駆的手法であるTABDet(Task-Agnostic Backdoor Detector)を紹介する。 TABDetは、最終層ロジットと効率的なプーリング技術を組み合わせて、3つの著名なNLPタスクをまたいだ統一ロジット表現を可能にする。 TABDetは多様なタスク特化モデルから共同で学習し、従来のタスク特化手法よりも優れた検出効率を示す。

Textual backdoor attacks pose significant security threats. Current detection approaches, typically relying on intermediate feature representation or reconstructing potential triggers, are task-specific and less effective beyond sentence classification, struggling with tasks like question answering and named entity recognition. We introduce TABDet (Task-Agnostic Backdoor Detector), a pioneering task-agnostic method for backdoor detection. TABDet leverages final layer logits combined with an efficient pooling technique, enabling unified logit representation across three prominent NLP tasks. TABDet can jointly learn from diverse task-specific models, demonstrating superior detection efficacy over traditional task-specific methods.
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# 男性の迷路を振り返る:19世紀と20世紀の小説における女性の客観化の定量化

Reflecting the Male Gaze: Quantifying Female Objectification in 19th and 20th Century Novels ( http://arxiv.org/abs/2403.17158v1 )

ライセンス: Link先を確認
Kexin Luo, Yue Mao, Bei Zhang, Sophie Hao, (参考訳) 文献・メディア研究における男性視線(Mulvey, 1975)の概念に触発された本論文では,女性の客観化の観点からジェンダーバイアスを分析するための枠組みを提案する。 我々の枠組みは2つの軸に沿って女性の客観性を測定する。 まず, テキスト中の男性エンティティが, 女性エンティティよりも文法的エージェントとして現れる可能性が高いことを示すエージェンシーバイアススコアを計算した。 次に、テキストによって誘導される単語埋め込み空間(Caliskan et al , 2017)を解析することにより、女性の実体が男性よりも外見関連語と密接に関連しているかどうかを示す外観バイアススコアを算出する。 この枠組みを19世紀から20世紀にかけての小説に適用すると、文学における女性の客観性の証拠が明らかになる:男性の視点から書かれた小説は女性キャラクターを体系的に客観化しているのに対し、女性の視点から書かれた小説はいかなる性別も統計的に有意な客観化を示さない。

Inspired by the concept of the male gaze (Mulvey, 1975) in literature and media studies, this paper proposes a framework for analyzing gender bias in terms of female objectification: the extent to which a text portrays female individuals as objects of visual pleasure. Our framework measures female objectification along two axes. First, we compute an agency bias score that indicates whether male entities are more likely to appear in the text as grammatical agents than female entities. Next, by analyzing the word embedding space induced by a text (Caliskan et al., 2017), we compute an appearance bias score that indicates whether female entities are more closely associated with appearance-related words than male entities. Applying our framework to 19th and 20th century novels reveals evidence of female objectification in literature: we find that novels written from a male perspective systematically objectify female characters, while novels written from a female perspective do not exhibit statistically significant objectification of any gender.
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# より少ない - TSPのためのトランスフォーマーとグラフニューラルネットワークのスパーシフィケーションの重要性について

Less Is More - On the Importance of Sparsification for Transformers and Graph Neural Networks for TSP ( http://arxiv.org/abs/2403.17159v1 )

ライセンス: Link先を確認
Attila Lischka, Jiaming Wu, Rafael Basso, Morteza Haghir Chehreghani, Balázs Kulcsár, (参考訳) 最近の研究の多くは、トランスフォーマーやグラフニューラルネットワーク(GNN)ベースのエンコーダアーキテクチャを使用して、機械学習によるTSP(Traking Salesman Problem)のようなルーティング問題に対処している。 しかし、それらの多くは、TSPインスタンス全体に情報を集約することで、これらのエンコーダを論理的に適用している。 一方、我々は、エンコーダがTSPインスタンスの最も関連性の高い部分のみに集中できるデータ前処理法を提案する。 特に、GNNに渡されるTSPグラフ表現のグラフスペーシングと、スパースTSPグラフ表現の隣接行列に対応する変換器に渡されるTSPインスタンスのアテンションマスキングを提案する。 さらに,モデルを最も有望な部分に集中させると同時に,TSPインスタンスの全ノード間の情報フローを可能とした,異なるスペーシングレベルのアンサンブルを提案する。 実験では,GNNが適切なスパーシフィケーションとアンサンブルの異なるスペーシフィケーションレベルを適切に組み合わせることで,アーキテクチャ全体の性能が大幅に向上することを示した。 我々はまた、注目マスキングのアンサンブルを備えた最先端のトランスフォーマーエンコーダを設計する。 これらの変換器はモデル性能を、サイズ100のTSPインスタンスでは0.16\%$から0.10\%$に、サイズ50のTSPインスタンスでは0.02\%$から0.00\%$に向上させる。

Most of the recent studies tackling routing problems like the Traveling Salesman Problem (TSP) with machine learning use a transformer or Graph Neural Network (GNN) based encoder architecture. However, many of them apply these encoders naively by allowing them to aggregate information over the whole TSP instances. We, on the other hand, propose a data preprocessing method that allows the encoders to focus on the most relevant parts of the TSP instances only. In particular, we propose graph sparsification for TSP graph representations passed to GNNs and attention masking for TSP instances passed to transformers where the masks correspond to the adjacency matrices of the sparse TSP graph representations. Furthermore, we propose ensembles of different sparsification levels allowing models to focus on the most promising parts while also allowing information flow between all nodes of a TSP instance. In the experimental studies, we show that for GNNs appropriate sparsification and ensembles of different sparsification levels lead to substantial performance increases of the overall architecture. We also design a new, state-of-the-art transformer encoder with ensembles of attention masking. These transformers increase model performance from a gap of $0.16\%$ to $0.10\%$ for TSP instances of size 100 and from $0.02\%$ to $0.00\%$ for TSP instances of size 50.
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# CYGENT: GPT-3を利用したログ要約によるサイバーセキュリティ会話エージェント

CYGENT: A cybersecurity conversational agent with log summarization powered by GPT-3 ( http://arxiv.org/abs/2403.17160v1 )

ライセンス: Link先を確認
Prasasthy Balasubramanian, Justin Seby, Panos Kostakos, (参考訳) GPT-3.5ターボモデルを利用した対話型エージェントフレームワークCYGENTを開発し、システム管理者が最適なパフォーマンスと不断のリソース可用性を確保するために設計した。 本研究は、サイバーセキュリティ業務に特化した会話型AIや生成型AIを含む、サイバーセキュリティタスクのための微調整型GPT-3モデルに焦点を当てる。 CYGENTは、サイバーセキュリティ情報を提供し、アップロードされたログファイルを分析および要約し、特定のイベントを検出し、必須の指示を提供することによって、ユーザを支援する。 対話エージェントはGPT-3.5ターボモデルに基づいて開発された。 手動で生成したデータポイントを用いて,要約モデル(GPT3)を微調整し,検証した。 このアプローチを用いることで、GPT-3のログファイルを人間可読形式に要約し、ユーザに必要な情報を提供する能力が向上したことを示唆するBERTスコアを97%以上達成した。 さらに,GPT-3モデルと他のLarge Language Model (LLMs)の比較分析を行い,ログ解析手法を用いてCodeT5-small,CodeT5-base,CodeT5-base-multi-sumを行った。 解析の結果,ダヴィンチモデル(GPT-3)が他のLLMよりも優れており,高い性能を示した。 これらの発見は、特にIoTデバイスの増加に照らして、ログの人間の理解を改善するために不可欠である。 さらに,CodeT5-base-multi-sumモデルでは,ログの要約の程度において,Davinciと同等の性能を示し,このタスクのオフラインモデルとしての可能性を示している。

In response to the escalating cyber-attacks in the modern IT and IoT landscape, we developed CYGENT, a conversational agent framework powered by GPT-3.5 turbo model, designed to aid system administrators in ensuring optimal performance and uninterrupted resource availability. This study focuses on fine-tuning GPT-3 models for cybersecurity tasks, including conversational AI and generative AI tailored specifically for cybersecurity operations. CYGENT assists users by providing cybersecurity information, analyzing and summarizing uploaded log files, detecting specific events, and delivering essential instructions. The conversational agent was developed based on the GPT-3.5 turbo model. We fine-tuned and validated summarizer models (GPT3) using manually generated data points. Using this approach, we achieved a BERTscore of over 97%, indicating GPT-3's enhanced capability in summarizing log files into human-readable formats and providing necessary information to users. Furthermore, we conducted a comparative analysis of GPT-3 models with other Large Language Models (LLMs), including CodeT5-small, CodeT5-base, and CodeT5-base-multi-sum, with the objective of analyzing log analysis techniques. Our analysis consistently demonstrated that Davinci (GPT-3) model outperformed all other LLMs, showcasing higher performance. These findings are crucial for improving human comprehension of logs, particularly in light of the increasing numbers of IoT devices. Additionally, our research suggests that the CodeT5-base-multi-sum model exhibits comparable performance to Davinci to some extent in summarizing logs, indicating its potential as an offline model for this task.
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# 無限距離相互作用を持つ時間依存オープン量子系に対する平均場理論の適用性

Applicability of mean-field theory for time-dependent open quantum systems with infinite-range interactions ( http://arxiv.org/abs/2403.17163v1 )

ライセンス: Link先を確認
Federico Carollo, Igor Lesanovsky, (参考訳) 長距離または無限範囲の相互作用を持つ量子多体系を理解することは、量子光学、核磁気共鳴、核物理学を含む幅広い物理分野にまたがる関係である。 理論的な観点からは、これらの系は数値で効率的に研究できるので魅力的であり、熱力学の限界は運動の平均場方程式によって支配されると予想される。 長年にわたり、長距離の対話システムを実験的に作成する能力は、空間と時間の制御を劇的に改善してきた。 これにより、時間結晶やカオス状態を含む多くの非平衡力学相を誘導し、探索することができる。 しかし、数値シミュレーションからこれらの位相の出現を確立することは驚くほど難しいことが判明した。 この難しさは平均場理論が時間依存無限範囲相互作用系には適用できないという主張につながった。 ここでは、平均場理論が熱力学の極限において、その力学を正確に捉えていることを厳密に証明する。 さらに、有限サイズ効果のバウンダリと、その進化時間への依存性について述べる。

Understanding quantum many-body systems with long-range or infinite-range interactions is of relevance across a broad set of physical disciplines, including quantum optics, nuclear magnetic resonance and nuclear physics. From a theoretical viewpoint, these systems are appealing since they can be efficiently studied with numerics, and in the thermodynamic limit are expected to be governed by mean-field equations of motion. Over the past years the capabilities to experimentally create long-range interacting systems have dramatically improved permitting their control in space and time. This allows to induce and explore a plethora of nonequilibrium dynamical phases, including time-crystals and even chaotic regimes. However, establishing the emergence of these phases from numerical simulations turns out to be surprisingly challenging. This difficulty led to the assertion that mean-field theory may not be applicable to time-dependent infinite-range interacting systems. Here, we rigorously prove that mean-field theory in fact exactly captures their dynamics, in the thermodynamic limit. We further provide bounds for finite-size effects and their dependence on the evolution time.
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# 結晶構造予測のための多目的品質多様性

Multi-Objective Quality-Diversity for Crystal Structure Prediction ( http://arxiv.org/abs/2403.17164v1 )

ライセンス: Link先を確認
Hannah Janmohamed, Marta Wolinska, Shikha Surana, Thomas Pierrot, Aron Walsh, Antoine Cully, (参考訳) 結晶構造は電池から太陽電池まで、さまざまな領域で必須であり、原子配置に基づいて結晶の性質を予測するための広範な研究が続けられている。 しかし、一般的な結晶構造予測法は、エネルギー関数の世界の最小値にある最も安定な解を特定することに重点を置いている。 このアプローチは、近隣の局所的なミニマムにある他の潜在的に興味深い材料を見落とし、導電性や変形に対する抵抗などの異なる材料特性を持つ。 対照的に、Quality-Diversityアルゴリズムは、様々な特性を持つ高性能なソリューションの集合を見つけることを目的として、結晶構造予測のための有望な道を提供する。 しかし、磁性や熱電効率といった他の目的と並んで結晶構造の安定性を最適化するのも価値があるかもしれない。 そこで本研究では,多目的品質多様性アルゴリズムのパワーを利用して,多様な特徴を持つ結晶構造を探索し,異なる目的のトレードオフを実現する。 5つの結晶系に対する我々のアプローチを分析し、既知の実生活構造を再発見できるだけでなく、将来有望な新しい構造も発見できることを実証する。 また,目的空間を照らし,どのようなトレードオフが達成できるかを理解する方法を提案する。

Crystal structures are indispensable across various domains, from batteries to solar cells, and extensive research has been dedicated to predicting their properties based on their atomic configurations. However, prevailing Crystal Structure Prediction methods focus on identifying the most stable solutions that lie at the global minimum of the energy function. This approach overlooks other potentially interesting materials that lie in neighbouring local minima and have different material properties such as conductivity or resistance to deformation. By contrast, Quality-Diversity algorithms provide a promising avenue for Crystal Structure Prediction as they aim to find a collection of high-performing solutions that have diverse characteristics. However, it may also be valuable to optimise for the stability of crystal structures alongside other objectives such as magnetism or thermoelectric efficiency. Therefore, in this work, we harness the power of Multi-Objective Quality-Diversity algorithms in order to find crystal structures which have diverse features and achieve different trade-offs of objectives. We analyse our approach on 5 crystal systems and demonstrate that it is not only able to re-discover known real-life structures, but also find promising new ones. Moreover, we propose a method for illuminating the objective space to gain an understanding of what trade-offs can be achieved.
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# NUMTEMP: 統計的および時間的表現によるクレームの検証のための実世界のベンチマーク

NUMTEMP: A real-world benchmark to verify claims with statistical and temporal expressions ( http://arxiv.org/abs/2403.17169v1 )

ライセンス: Link先を確認
Venktesh V, Abhijit Anand, Avishek Anand, Vinay Setty, (参考訳) デジタル時代の偽情報に対処するために、自動事実チェックが大きな関心を集めている。 既存のシステムは主にウィキペディアの人工的な主張に焦点を当てており、注目すべき進歩は現実世界の主張にも向けられている。 本研究では,時間的,統計的,多様な側面を包含し,詳細なメタデータと漏洩のないエビデンス収集を含む,数値的クレームに特化した多分野データセットであるNumtempをリリースする。 これは、複雑でしばしば正確な情報がない実世界の数値的主張を検証するという課題に対処し、主に合成的主張に焦点を当てた既存の研究には対処しない。 我々は,数値クレームの検証作業において,既存の解の限界を評価し,定量化する。 また,クレーム分解に基づく手法,数値理解に基づくモデル,および最良ベースラインが58.32のマクロF1を達成することを評価した。 このことは、Numtempが数値クレーム検証のための挑戦的な評価セットであることを示している。

Automated fact checking has gained immense interest to tackle the growing misinformation in the digital era. Existing systems primarily focus on synthetic claims on Wikipedia, and noteworthy progress has also been made on real-world claims. In this work, we release Numtemp, a diverse, multi-domain dataset focused exclusively on numerical claims, encompassing temporal, statistical and diverse aspects with fine-grained metadata and an evidence collection without leakage. This addresses the challenge of verifying real-world numerical claims, which are complex and often lack precise information, not addressed by existing works that mainly focus on synthetic claims. We evaluate and quantify the limitations of existing solutions for the task of verifying numerical claims. We also evaluate claim decomposition based methods, numerical understanding based models and our best baselines achieves a macro-F1 of 58.32. This demonstrates that Numtemp serves as a challenging evaluation set for numerical claim verification.
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# 同一粒子の不明瞭性による純多粒子交絡状態の生成

Generation of genuine multipartite entangled states via indistinguishability of identical particles ( http://arxiv.org/abs/2403.17171v1 )

ライセンス: Link先を確認
Kobra Mahdavipour, Farzam Nosrati, Stefania Sciara, Roberto Morandotti, Rosario Lo Franco, (参考訳) 同一粒子の識別不可能性は、量子情報処理の資源であり、検出段階でのみ空間的に重なる独立粒子からの絡み合いを生成するために利用されてきた。 ここでは、W, Dicke, GHZ, およびクラスタ状態を含む多部交絡状態の包括クラスである$N$ qubitsの純積状態から、空間的局所化演算と古典的通信(sLOCC)の枠組み内で、ボソニック統計およびフェルミオン統計を生成できる一般的な制御可能なスキームを提供する。 グラフに基づくSLOCCフレームワークの表現を用いて、特定の絡み合った状態の生成スキームを、所定の実験装置に対応する色、複素、重み付きグラフに変換する。 このグラフ理論のアプローチは、特定のマルチパーティイト状態の正確なターゲティング、多様な生成スキームの探索、生成効率の最適化を可能にする。 量子ネットワークにおける同一グラフノードの不明瞭性は、フォトニック技術に有用であることを示す。

Indistinguishability of identical particles is a resource for quantum information processing and has been utilized to generate entanglement from independent particles that spatially overlap only at the detection stage. Here we provide a general controllable scheme capable of generating, from a pure product state of $N$ qubits, a comprehensive class of multipartite entangled states, including W, Dicke, GHZ, and cluster states with both bosonic and fermionic statistics within the framework of spatially localized operations and classical communication (sLOCC). Using graph-based representations of the sLOCC framework, we translate the generation schemes of specific entangled states into colored, complex, and weighted digraphs, each corresponding to a given experimental setup. This graph-theoretical approach allows for precise targeting of particular multipartite states, exploration of diverse generation schemes, and optimization of generation efficiency. Our results demonstrate that the indistinguishability of identical graph nodes in quantum networks offers useful perspectives for photonic technology.
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# Task2Box:非対称なタスク関係をモデル化するためのボックス埋め込み

Task2Box: Box Embeddings for Modeling Asymmetric Task Relationships ( http://arxiv.org/abs/2403.17173v1 )

ライセンス: Link先を確認
Rangel Daroya, Aaron Sun, Subhransu Maji, (参考訳) タスクやデータセット間の関係をモデル化し視覚化することは、データセット発見、マルチタスク、転送学習といったさまざまなメタタスクを解決するための重要なステップである。 しかし、封じ込めや転送可能性のような多くの関係は自然に非対称であり、表現と視覚化の現在のアプローチ(例えば t-SNE はそれを容易にはサポートしない)である。 本研究では,ボックス埋め込み(低次元空間における軸方向の超矩形)を用いてタスクを表現するためのTask2Boxを提案する。 我々は、Task2BoxがImageNetとiNaturalistデータセットのノード間の非階層的関係を正確に予測し、Taskonomyベンチマークのタスク間の転送可能性を示す。 また、タスク表現から推定されるボックス埋め込み(例えば、CLIP、Task2Vec、属性ベース)は、同じ表現で訓練された分類器や、手作りの非対称距離(例えば、KLの発散)よりも正確に、未確認タスク間の関係を予測できることを示す。 このことは、低次元のボックス埋め込みがこれらのタスク関係を効果的に捉え、解釈可能であるという利点を付加できることを示唆している。 私たちは、Hugging Faceと呼ばれる一般的なデータセットホスティングプラットフォーム上で、公開可能な画像分類データセット間の関係を可視化するために、このアプローチを使用します。

Modeling and visualizing relationships between tasks or datasets is an important step towards solving various meta-tasks such as dataset discovery, multi-tasking, and transfer learning. However, many relationships, such as containment and transferability, are naturally asymmetric and current approaches for representation and visualization (e.g., t-SNE do not readily support this. We propose Task2Box, an approach to represent tasks using box embeddings -- axis-aligned hyperrectangles in low dimensional spaces -- that can capture asymmetric relationships between them through volumetric overlaps. We show that Task2Box accurately predicts unseen hierarchical relationships between nodes in ImageNet and iNaturalist datasets, as well as transferability between tasks in the Taskonomy benchmark. We also show that box embeddings estimated from task representations (e.g., CLIP, Task2Vec, or attribute based) can be used to predict relationships between unseen tasks more accurately than classifiers trained on the same representations, as well as handcrafted asymmetric distances (e.g., KL divergence). This suggests that low-dimensional box embeddings can effectively capture these task relationships and have the added advantage of being interpretable. We use the approach to visualize relationships among publicly available image classification datasets on popular dataset hosting platform called Hugging Face.
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# ソーシャル・ラーニングに必要なのは「Breief Samples」

Belief Samples Are All You Need For Social Learning ( http://arxiv.org/abs/2403.17174v1 )

ライセンス: Link先を確認
Mahyar JafariNodeh, Amir Ajorlou, Ali Jadbabaie, (参考訳) 本稿では,ソーシャル・ラーニングの課題について考察する。そこでは,ソーシャル・ネットワークに埋め込まれたエージェント集団が,世界の根底にある状態を学習することに興味を持っている。 エージェントは不完全で騒々しく、異質な情報ソースを持ち、世界の根底にある状態の個人的な観察を繰り返している。 エージェントは、有限の可能な状態の値を使って、自分の学習経験を仲間と共有することができる。 アクションは、エージェントが生成し、世界の真の状態が何であるかを更新するかもしれない信念からサンプルとして解釈することができる。 完全な信念の代わりにサンプルを共有することは、特に大勢のエージェントが利用可能な限られたコミュニケーション、認知、情報処理資源によって動機付けられている。 先行研究(Salhab et al )は、エージェントが彼らの信念からサンプルを伝達することしか許されない場合、確率で学ぶことは依然として達成可能であるかどうかという疑問を提起する。 本稿では,この疑問に対して,信頼度の高いネットワークと「協調的識別可能性」の仮定を仮定して,肯定的な回答を提供する。 提案した信念更新メカニズムでは、各エージェントの信念は、ベイズ人の個人的信念(プライベートソースからの情報を集約する)と、隣人が共有するサンプルの実証的な分布のアンサンブルの間の正規化された幾何学的補間である。 真の状態/またはそうでない共有サンプルの周波数に基づいて漸近的準開小境界を慎重に構成することにより、すべての信念が真状態へ収束することを確率1で厳密に証明する。

In this paper, we consider the problem of social learning, where a group of agents embedded in a social network are interested in learning an underlying state of the world. Agents have incomplete, noisy, and heterogeneous sources of information, providing them with recurring private observations of the underlying state of the world. Agents can share their learning experience with their peers by taking actions observable to them, with values from a finite feasible set of states. Actions can be interpreted as samples from the beliefs which agents may form and update on what the true state of the world is. Sharing samples, in place of full beliefs, is motivated by the limited communication, cognitive, and information-processing resources available to agents especially in large populations. Previous work (Salhab et al.) poses the question as to whether learning with probability one is still achievable if agents are only allowed to communicate samples from their beliefs. We provide a definite positive answer to this question, assuming a strongly connected network and a ``collective distinguishability'' assumption, which are both required for learning even in full-belief-sharing settings. In our proposed belief update mechanism, each agent's belief is a normalized weighted geometric interpolation between a fully Bayesian private belief -- aggregating information from the private source -- and an ensemble of empirical distributions of the samples shared by her neighbors over time. By carefully constructing asymptotic almost-sure lower/upper bounds on the frequency of shared samples matching the true state/or not, we rigorously prove the convergence of all the beliefs to the true state, with probability one.
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# 顔のランドマークと時空間グラフ畳み込みネットワークに基づくエンゲージメント計測

Engagement Measurement Based on Facial Landmarks and Spatial-Temporal Graph Convolutional Networks ( http://arxiv.org/abs/2403.17175v1 )

ライセンス: Link先を確認
Ali Abedi, Shehroz S. Khan, (参考訳) 学習者の満足度やパフォーマンス,学習プログラムへのコンプライアンスなど,さまざまな要因に対して,仮想学習の促進が不可欠だが,その測定は難しい課題である。 したがって、人工知能と感情コンピューティングを利用して、自然環境におけるエンゲージメントを大規模に測定することにかなりの関心がある。 本稿では,ビデオからのエンゲージメント測定のための新しいプライバシ保護手法を提案する。 MediaPipeのディープラーニングソリューションを通じてビデオから抽出された顔のランドマークは、個人識別可能な情報を持たない。 抽出した顔のランドマークを空間時間グラフ畳み込みネットワーク(ST-GCN)に供給し、ビデオ内の学習者のエンゲージメントレベルを出力する。 エンゲージメント変数の順序性をトレーニングプロセスに統合するために,ST-GCNは転帰学習に基づく新しい順序学習フレームワークで訓練を行う。 2つのビデオ学生エンゲージメント測定データセットによる実験結果から,EngageNetデータセットの最先端化による従来の手法に比べて,4クラスエンゲージメントレベルの分類精度が3.1向上し,オンライン学生エンゲージメントデータセットでは1.5改善した2値エンゲージメント分類精度が1。 比較的軽量なST-GCNとリアルタイムのMediaPipeディープラーニングソリューションとの統合により、提案手法は仮想学習プラットフォームにデプロイされ、リアルタイムでエンゲージメントを測定することができる。

Engagement in virtual learning is crucial for a variety of factors including learner satisfaction, performance, and compliance with learning programs, but measuring it is a challenging task. There is therefore considerable interest in utilizing artificial intelligence and affective computing to measure engagement in natural settings as well as on a large scale. This paper introduces a novel, privacy-preserving method for engagement measurement from videos. It uses facial landmarks, which carry no personally identifiable information, extracted from videos via the MediaPipe deep learning solution. The extracted facial landmarks are fed to a Spatial-Temporal Graph Convolutional Network (ST-GCN) to output the engagement level of the learner in the video. To integrate the ordinal nature of the engagement variable into the training process, ST-GCNs undergo training in a novel ordinal learning framework based on transfer learning. Experimental results on two video student engagement measurement datasets show the superiority of the proposed method compared to previous methods with improved state-of-the-art on the EngageNet dataset with a %3.1 improvement in four-class engagement level classification accuracy and on the Online Student Engagement dataset with a %1.5 improvement in binary engagement classification accuracy. The relatively lightweight ST-GCN and its integration with the real-time MediaPipe deep learning solution make the proposed approach capable of being deployed on virtual learning platforms and measuring engagement in real time.
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# ニューラルネットワーク機能のためのヒストグラム層

Histogram Layers for Neural Engineered Features ( http://arxiv.org/abs/2403.17176v1 )

ライセンス: Link先を確認
Joshua Peeples, Salim Al Kharsa, Luke Saleh, Alina Zare, (参考訳) コンピュータビジョン文学では、多くの効果的なヒストグラムベースの特徴が開発されている。 これらのエンジニアリングされた特徴には、ローカルバイナリパターンやエッジヒストグラム記述子などが含まれており、様々なコンピュータビジョンタスクに有用な特徴であることが示されている。 本稿では,ニューラルネットワークに埋め込まれたヒストグラム層を用いて,これらの特徴が学習可能かどうかを検討する。 ヒストグラムの特徴を用いることで、畳み込みニューラルネットワークからの特徴マップの局所統計を用いて、データをよりよく表現することができる。 本稿では,特徴表現を協調的に改善し,画像分類を行う,局所的バイナリパターンとエッジヒストグラム記述子のニューラルバージョンを提案する。 実験は、ベンチマークと実世界のデータセットに表示される。

In the computer vision literature, many effective histogram-based features have been developed. These engineered features include local binary patterns and edge histogram descriptors among others and they have been shown to be informative features for a variety of computer vision tasks. In this paper, we explore whether these features can be learned through histogram layers embedded in a neural network and, therefore, be leveraged within deep learning frameworks. By using histogram features, local statistics of the feature maps from the convolution neural networks can be used to better represent the data. We present neural versions of local binary pattern and edge histogram descriptors that jointly improve the feature representation and perform image classification. Experiments are presented on benchmark and real-world datasets.
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# 深層学習モデルを用いた脳卒中セグメンテーション : 比較研究

Brain Stroke Segmentation Using Deep Learning Models: A Comparative Study ( http://arxiv.org/abs/2403.17177v1 )

ライセンス: Link先を確認
Ahmed Soliman, Yousif Yousif, Ahmed Ibrahim, Yalda Zafari-Ghadim, Essam A. Rashed, Mohamed Mabrok, (参考訳) ストロークセグメンテーションは脳卒中患者の診断と治療において重要な役割を担っている。 従来の手技は時間がかかり、エラーを起こしやすいことを考えると、脳卒中を正確に分類することは難しい作業である。 近年,一般的な医用画像セグメンテーションのための高度な深層モデルが導入され,特定のデータセットで評価すると,多くの最先端ネットワークを超える有望な結果が示された。 ビジョントランスフォーマーの出現により、いくつかのモデルがそれらに基づいて導入され、他のモデルはトランスフォーマーのような長距離依存関係を抽出するために、従来の畳み込みレイヤに基づいたより良いモジュールを設計することを目指している。 最良の結果を得るためには、すべてのセグメンテーションケースにそのようなハイレベルな設計が必要であるかどうかという問題は未解決のままである。 本研究では,最近提案されたストロークセグメンテーションの性能を評価した4種類のディープモデルを選択した。純粋なトランスフォーマーベースアーキテクチャ (DAE-Former) と,その設計に注意を向ける2つの高度なCNNベースモデル (LKAとDLKA) ,CNNとトランスフォーマーを組み込んだ高度なハイブリッドモデル (FCT) と,所定のデータに基づく構成でよく知られた自己適応的なnnUNetフレームワークである。 2つの公開データセットでそれらの性能を調べたところ、nUNetは最もシンプルな設計で最高の結果を得たことがわかった。 トランスフォーマーのロバスト性問題をそのような変動に展開することは、より弱い性能の潜在的理由である。 さらに、nnUNetの成功は、セグメンテーション結果の強化において前処理と後処理技術がアーキテクチャ設計のみに焦点を超越した大きな影響を浮き彫りにしている。

Stroke segmentation plays a crucial role in the diagnosis and treatment of stroke patients by providing spatial information about affected brain regions and the extent of damage. Segmenting stroke lesions accurately is a challenging task, given that conventional manual techniques are time consuming and prone to errors. Recently, advanced deep models have been introduced for general medical image segmentation, demonstrating promising results that surpass many state of the art networks when evaluated on specific datasets. With the advent of the vision Transformers, several models have been introduced based on them, while others have aimed to design better modules based on traditional convolutional layers to extract long-range dependencies like Transformers. The question of whether such high-level designs are necessary for all segmentation cases to achieve the best results remains unanswered. In this study, we selected four types of deep models that were recently proposed and evaluated their performance for stroke segmentation: a pure Transformer-based architecture (DAE-Former), two advanced CNN-based models (LKA and DLKA) with attention mechanisms in their design, an advanced hybrid model that incorporates CNNs with Transformers (FCT), and the well- known self-adaptive nnUNet framework with its configuration based on given data. We examined their performance on two publicly available datasets, and found that the nnUNet achieved the best results with the simplest design among all. Revealing the robustness issue of Transformers to such variabilities serves as a potential reason for their weaker performance. Furthermore, nnUNet's success underscores the significant impact of preprocessing and postprocessing techniques in enhancing segmentation results, surpassing the focus solely on architectural designs
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# コヒーレント制御とエンジニアリング環境を用いた量子発振器のエネルギー制御

Energy control in a quantum oscillator using coherent control and engineered environment ( http://arxiv.org/abs/2403.17178v1 )

ライセンス: Link先を確認
Alexander N. Pechen, Sergey Borisenok, Alexander L. Fradkov, (参考訳) 我々は、コヒーレント、eg、電磁、電場、非コヒーレント制御を用いて、量子調和振動子におけるエネルギーの新たな操作法を開発し、解析する。 コヒーレント制御は通常、形状のレーザーパルスまたはテーラー電磁場によって実装される。 インコヒーレント制御は、発振器の周波数における励起数の平均を制御変数として使用するエンジニアリング環境によって実装される。 速度勾配アルゴリズムに基づくコヒーレントかつ非コヒーレントな制御設計へのアプローチを提案する。 微分形式は振動子のエネルギーを完全に操作できることが証明され、任意のエネルギーは振動子の任意の初期状態から得られる。 この場合の完全なエネルギー操作を可能にする鍵となる機器は、エンジニアリングされた環境の利用である。 また, 速度勾配制御アルゴリズムの差分法も提案した。 提案した頑健化制御アルゴリズムは,サンプルデータ制御のために保存された閉ループシステムの指数的安定性を保証する。

We develop and analyze a new method for manipulation of energy in a quantum harmonic oscillator using coherent, e.g., electromagnetic, field and incoherent control. Coherent control is typically implemented by shaped laser pulse or tailored electromagnetic field. Incoherent control is implemented by engineered environment, whose mean number of excitations at the frequency of the oscillator is used as a control variable. An approach to coherent and incoherent controls design based on the speed gradient algorithms in general, finite and differential forms is proposed. It is proved that the differential form is able to completely manipulate the energy of the oscillator: an arbitrary energy can be achieved starting from any initial state of the oscillator. The key instrument which allows for complete energy manipulation in this case is the use of the engineered environment. A robustified speed-gradient control algorithm in differential form is also proposed. It is shown that the proposed robustified control algorithm ensures exponential stability of the closed loop system which is preserved for sampled-data control.
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# 信号処理と機械学習の交差点について:ユースケース駆動分析アプローチ

On the Intersection of Signal Processing and Machine Learning: A Use Case-Driven Analysis Approach ( http://arxiv.org/abs/2403.17181v1 )

ライセンス: Link先を確認
Sulaiman Aburakhia, Abdallah Shami, George K. Karagiannidis, (参考訳) 近年のセンサ,計測,コンピュータ技術の進歩は,信号処理と機械学習(ML)の相乗効果を活用して,信号ベースアプリケーションの可能性を大きく拡大し,性能と信頼性を両立させている。 この融合は、信号ベースのシステムの進化における重要なポイントであり、これらの2つの分野間の既存の知識ギャップを埋める必要性を強調している。 既存の文献でこのギャップを埋めようとする試みは多いが、多くは特定の用途に限られており、主に特徴抽出に焦点が当てられている。 この仮定は、幅広い読者にとって大きな障害となる。 これらの課題に対処するために、本論文は統合的な記事アプローチを採用する。 これは、信号処理の基本に関する詳細なチュートリアルから始まり、読者に必要なバックグラウンド知識を提供する。 これに続いて、標準信号処理ベースのMLパイプラインの重要ステージを探求し、機能抽出テクニックの詳細なレビュー、その固有の課題、ソリューションを提供する。 既存の文献と異なり、本研究はアプリケーションに依存しないレビューを提供し、特徴抽出技術のための新しい分類分類を導入している。 さらに,脳波信号を用いたてんかん検出のためのスペクトルに基づく転がり軸受条件監視法とウェーブレットエネルギー解析という,理論的概念と実用的応用を結びつけることを目的としている。 この研究は、理論的貢献に加えて、関連するPythonおよびMATLAB信号処理コードの公開リポジトリを提供することにより、共同研究文化を促進する。 この取り組みは、共同研究を支援し、提示された結果の再現性を確保することを目的としている。

Recent advancements in sensing, measurement, and computing technologies have significantly expanded the potential for signal-based applications, leveraging the synergy between signal processing and Machine Learning (ML) to improve both performance and reliability. This fusion represents a critical point in the evolution of signal-based systems, highlighting the need to bridge the existing knowledge gap between these two interdisciplinary fields. Despite many attempts in the existing literature to bridge this gap, most are limited to specific applications and focus mainly on feature extraction, often assuming extensive prior knowledge in signal processing. This assumption creates a significant obstacle for a wide range of readers. To address these challenges, this paper takes an integrated article approach. It begins with a detailed tutorial on the fundamentals of signal processing, providing the reader with the necessary background knowledge. Following this, it explores the key stages of a standard signal processing-based ML pipeline, offering an in-depth review of feature extraction techniques, their inherent challenges, and solutions. Differing from existing literature, this work offers an application-independent review and introduces a novel classification taxonomy for feature extraction techniques. Furthermore, it aims at linking theoretical concepts with practical applications, and demonstrates this through two specific use cases: a spectral-based method for condition monitoring of rolling bearings and a wavelet energy analysis for epilepsy detection using EEG signals. In addition to theoretical contributions, this work promotes a collaborative research culture by providing a public repository of relevant Python and MATLAB signal processing codes. This effort is intended to support collaborative research efforts and ensure the reproducibility of the results presented.
翻訳日:2024-03-27 19:36:07 公開日:2024-03-25
# 非ガウス状態からのボソンサンプリング

Boson Sampling from Non-Gaussian States ( http://arxiv.org/abs/2403.17183v1 )

ライセンス: Link先を確認
Craig S. Hamilton, Igor Jex, (参考訳) ボソンサンプリングは量子コンピュータと古典コンピュータの違いを示す重要な道具として現れ、実験家や理論家の興味を惹きつけた。 本研究では、ガウス状態と光子数測定を組み合わせることで、そのような状態を生成できるスキームを用いて、一般の単一モード状態からのボソンサンプリングについて検討する。 線形干渉計を通った後、これらの状態の出力光子数確率を計算するのに使用できる公式を導出する。 これにより、Bosonサンプリングプロトコルは、可能な単一モード状態の最も広い配列にまで拡張され、このような状態の複雑さのスケーリングは類似しており、より単純な状態よりも複雑な入力状態を使用するという複雑さの利点がないことを示す。

Boson sampling has emerged as an important tool to demonstrate the difference between quantum and classical computers and has attracted the interest of experimentalists and theoreticians. In this work we study Boson sampling from general, single-mode states using a scheme that can generate any such state by combining Gaussian states and photon number measurements. We derive a formula that can be used to calculate the output photon number probabilities of these states after they travel through a linear interferometer. This extends the Boson sampling protocol to the widest array of possible single-mode states and from this we show that the complexity scaling of all such states is similar and hence there is no complexity advantage of using complex input states over simpler ones.
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# キャビティマグノメカニクスにおけるマグノン-マイクロ波バックアクションノイズ回避

Magnon-microwave backaction noise evasion in cavity magnomechanics ( http://arxiv.org/abs/2403.17185v1 )

ライセンス: Link先を確認
V. A. S. V. Bittencourt, C. A. Potts, J. P. Davis, A. Metelmann, (参考訳) 空洞磁気力学系では、磁気励起は機械的振動とマイクロ波とを同時に結合し、磁化のチューニング性、機械的モードの長い寿命、マイクロ波系の測定ツールボックス全体を組み合わせた。 このようなハイブリッドシステムは、温度測定から絡み合い発生まで様々な用途に提案されている。 しかし、バックアクションノイズは機械振動の測定を妨げる可能性があり、そのような応用は実現不可能である。 本論文では, キャビティ・マグメカニカルシステムの機械的モードに導入される騒音を1音駆動方式で検討し, 機械振動のバックアクション回避測定を実現する手法を提案する。 提案手法は,2つの音色をフォノン周波数の2倍に分離し,同数のコヒーレントマグノンを生成するために振幅を平衡させてマイクロ波空洞を駆動することからなる。 このようなスキームの異なる構成が可能であることを示し、三重共振スキームにおける低周波マグノン-マイクロ波偏光子を中心とする駆動は、その構成が不完全性に対して最も頑健でないにもかかわらず、測定において最小のインプレクシデンスノイズを付加することを示した。

In cavity magnomechanical systems, magnetic excitations couple simultaneously with mechanical vibrations and microwaves, combining the tunability of the magnetization, the long lifetimes of mechanical modes and the whole measurement toolbox of microwave systems. Such hybrid systems have been proposed for applications ranging from thermometry to entanglement generation. However, backaction noise can hinder the measurement of the mechanical vibrations, potentially rendering such applications infeasible. In this paper, we investigate the noise introduced in a mechanical mode of a cavity magnomechanical system in a one-tone drive scheme and propose a scheme for realizing backaction evasion measurements of the mechanical vibrations. Our proposal consists of driving the microwave cavity with two tones separated by twice the phonon frequency and with amplitudes balanced to generate equal numbers of coherent magnons. We demonstrate that different configurations of such a scheme are possible and show that drives centered around the lower frequency magnon-microwave polariton in a triple resonance scheme add the minimum imprecision noise in the measurement, even though such configuration is not the most robust to imperfections.
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# LOTUS: サブパーティショニングによる広範かつレジリエントなバックドア攻撃

LOTUS: Evasive and Resilient Backdoor Attacks through Sub-Partitioning ( http://arxiv.org/abs/2403.17188v1 )

ライセンス: Link先を確認
Siyuan Cheng, Guanhong Tao, Yingqi Liu, Guangyu Shen, Shengwei An, Shiwei Feng, Xiangzhe Xu, Kaiyuan Zhang, Shiqing Ma, Xiangyu Zhang, (参考訳) バックドア攻撃は、ディープラーニングアプリケーションに重大なセキュリティ脅威をもたらす。 既存の攻撃はしばしば、確立されたバックドア検出技術を避けることはできない。 この感受性は、これらの攻撃が典型的には普遍的なトリガーパターンや変換関数を利用しており、トリガーが任意の入力に対して誤分類を引き起こす可能性があるという事実に起因している。 これに対応して、最近の論文では、特殊な変換機能を通じて作られたサンプル特異的な目に見えないトリガーを用いた攻撃を導入している。 これらのアプローチは検出をある程度回避するが、既存のバックドア緩和手法の脆弱性を明らかにする。 回避性とレジリエンスの両方に対処し,強化するために,新しいバックドアアタックLOTUSを導入する。 具体的には、シークレット関数を利用して、犠牲者クラスのサンプルをパーティションのセットに分離し、異なるパーティションにユニークなトリガを適用する。 さらに、LOTUSには効果的なトリガーフォーカス機構が組み込まれており、パーティションに対応するトリガーだけがバックドアの動作を誘発できる。 大規模な実験結果から、LOTUSは4つのデータセットと7つのモデル構造で高い攻撃成功率を達成でき、13のバックドア検出と緩和技術を効果的に回避できることが示された。 コードはhttps://github.com/Megum1/LOTUSで公開されている。

Backdoor attack poses a significant security threat to Deep Learning applications. Existing attacks are often not evasive to established backdoor detection techniques. This susceptibility primarily stems from the fact that these attacks typically leverage a universal trigger pattern or transformation function, such that the trigger can cause misclassification for any input. In response to this, recent papers have introduced attacks using sample-specific invisible triggers crafted through special transformation functions. While these approaches manage to evade detection to some extent, they reveal vulnerability to existing backdoor mitigation techniques. To address and enhance both evasiveness and resilience, we introduce a novel backdoor attack LOTUS. Specifically, it leverages a secret function to separate samples in the victim class into a set of partitions and applies unique triggers to different partitions. Furthermore, LOTUS incorporates an effective trigger focusing mechanism, ensuring only the trigger corresponding to the partition can induce the backdoor behavior. Extensive experimental results show that LOTUS can achieve high attack success rate across 4 datasets and 7 model structures, and effectively evading 13 backdoor detection and mitigation techniques. The code is available at https://github.com/Megum1/LOTUS.
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# 腹腔鏡解剖分類モデルの現実的適用性向上のための方策

Strategies to Improve Real-World Applicability of Laparoscopic Anatomy Segmentation Models ( http://arxiv.org/abs/2403.17192v1 )

ライセンス: Link先を確認
Fiona R. Kolbinger, Jiangpeng He, Jinge Ma, Fengqing Zhu, (参考訳) 腹腔鏡下画像診断における解剖学的構造の正確な同定と局所化は,外科的意思決定支援のためのコンピュータビジョン技術の可能性を活用するために必要である。 このようなモデルのセグメンテーション性能は、伝統的にIoUのような重なり合いのメトリクスを用いて報告されている。 しかし、トレーニングデータにおけるクラスの不均衡と非現実的な表現、および報告された指標の最適選択は、名目分割性能を損なう可能性があり、最終的に臨床翻訳を制限することができる。 本研究では,8つのセグメンテーション指標(精度,精度,リコール,IoU,F1スコア,特異性,ハウスドルフ距離,平均対称表面距離)に対して,クラス特性(臓器の大きさの違いなど),トレーニングおよびテストデータ組成(正および負の例の表現),モデリングパラメータ(前景と背景のクラス重量)の影響を系統的に分析する。 本研究は, 腹腔鏡下手術データにおける画像分割モデルの現実的適用性を改善するための, 単純かつ効果的な2つの方法を提案する。

Accurate identification and localization of anatomical structures of varying size and appearance in laparoscopic imaging are necessary to leverage the potential of computer vision techniques for surgical decision support. Segmentation performance of such models is traditionally reported using metrics of overlap such as IoU. However, imbalanced and unrealistic representation of classes in the training data and suboptimal selection of reported metrics have the potential to skew nominal segmentation performance and thereby ultimately limit clinical translation. In this work, we systematically analyze the impact of class characteristics (i.e., organ size differences), training and test data composition (i.e., representation of positive and negative examples), and modeling parameters (i.e., foreground-to-background class weight) on eight segmentation metrics: accuracy, precision, recall, IoU, F1 score, specificity, Hausdorff Distance, and Average Symmetric Surface Distance. Based on our findings, we propose two simple yet effective strategies to improve real-world applicability of image segmentation models in laparoscopic surgical data: (1) inclusion of negative examples in the training process and (2) adaptation of foreground-background weights in segmentation models to maximize model performance with respect to specific metrics of interest, depending on the clinical use case.
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# GPT-4、人間と同じくらいの速さで会話を理解

GPT-4 Understands Discourse at Least as Well as Humans Do ( http://arxiv.org/abs/2403.17196v1 )

ライセンス: Link先を確認
Thomas Shultz, Jamie Wise, Ardavan Salehi Nobandegani, (参考訳) 我々は,指導的AIシステムであるGPT-4が,言論理解の標準化テストを用いて,人間と同様に言論を理解するかどうかを検証した。 参加者には短いストーリーが提示され、8つのイエス/ノーの質問に答えて、ストーリーの理解を深める。 質問は、直接性(暗示と暗示)とサリエンス(主観と詳細)の異なる影響を評価するためにフォーマットされる。 GPT-4は、非常に高いレベルの人的性能を与えられたヒトよりも、わずかに、統計的に有意ではない。 GPT-4と人間は共に、物語に明記されていない情報について推論する強力な能力を示しており、これは理解の批判的なテストである。

We test whether a leading AI system GPT-4 understands discourse as well as humans do, using a standardized test of discourse comprehension. Participants are presented with brief stories and then answer eight yes/no questions probing their comprehension of the story. The questions are formatted to assess the separate impacts of directness (stated vs. implied) and salience (main idea vs. details). GPT-4 performs slightly, but not statistically significantly, better than humans given the very high level of human performance. Both GPT-4 and humans exhibit a strong ability to make inferences about information that is not explicitly stated in a story, a critical test of understanding.
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# 臨床精神医学ノートから社会的支援と社会的孤立情報を抽出する:ルールベースNLPシステムと大規模言語モデルの比較

Extracting Social Support and Social Isolation Information from Clinical Psychiatry Notes: Comparing a Rule-based NLP System and a Large Language Model ( http://arxiv.org/abs/2403.17199v1 )

ライセンス: Link先を確認
Braja Gopal Patra, Lauren A. Lepow, Praneet Kasi Reddy Jagadeesh Kumar, Veer Vekaria, Mohit Manoj Sharma, Prakash Adekkanattu, Brian Fennessy, Gavin Hynes, Isotta Landi, Jorge A. Sanchez-Ruiz, Euijung Ryu, Joanna M. Biernacka, Girish N. Nadkarni, Ardesheer Talati, Myrna Weissman, Mark Olfson, J. John Mann, Alexander W. Charney, Jyotishman Pathak, (参考訳) 背景: 社会的支援 (SS) と社会的孤立 (SI) は精神医学的な結果に関連する社会的健康決定因子 (SDOH) である。 電子健康記録(EHR)では、個々のレベルのSS/SIは構造化されたデータではなく、物語的な臨床記録として記録されるのが一般的である。 自然言語処理(NLP)アルゴリズムは、他の作業集約的なデータ抽出プロセスを自動化することができる。 データと方法:シナイ山健康システム(MSHS, n=300)とウェル・コーネル・メディカル(WCM, n=225)の精神科的出会いノートに注釈を付し, 金標準コーパスを確立した。 FLAN-T5-XLを用いたレキシコンと大規模言語モデル(LLM)を用いたルールベースシステム(RBS)を開発した。 結果: SS/SI抽出において, RBSはMSHS (0.89 vs. 0.65) およびWCM (0.85 vs. 0.82) において, LLMよりも高いマクロ平均Fスコアを得た。 サブカテゴリを抽出する際、RBSはMSHS(0.90 vs. 0.62)とWCM(0.82 vs. 0.81)の両方でLLMを上回った。 議論と結論: 予想外の結果、RBSはすべてのメトリクスでLLMを上回りました。 集中的なレビューでは、この発見はRBSとLLMによる散発的なアプローチによるものであることが示されている。 RBSは金の標準アノテーションと同じルールに従って設計・改良された。 逆に、LLMは分類に包括的であり、一般的な英語の理解に適合した。 どちらのアプローチも利点があり、将来のテストのためにオープンソースになっている。

Background: Social support (SS) and social isolation (SI) are social determinants of health (SDOH) associated with psychiatric outcomes. In electronic health records (EHRs), individual-level SS/SI is typically documented as narrative clinical notes rather than structured coded data. Natural language processing (NLP) algorithms can automate the otherwise labor-intensive process of data extraction. Data and Methods: Psychiatric encounter notes from Mount Sinai Health System (MSHS, n=300) and Weill Cornell Medicine (WCM, n=225) were annotated and established a gold standard corpus. A rule-based system (RBS) involving lexicons and a large language model (LLM) using FLAN-T5-XL were developed to identify mentions of SS and SI and their subcategories (e.g., social network, instrumental support, and loneliness). Results: For extracting SS/SI, the RBS obtained higher macro-averaged f-scores than the LLM at both MSHS (0.89 vs. 0.65) and WCM (0.85 vs. 0.82). For extracting subcategories, the RBS also outperformed the LLM at both MSHS (0.90 vs. 0.62) and WCM (0.82 vs. 0.81). Discussion and Conclusion: Unexpectedly, the RBS outperformed the LLMs across all metrics. Intensive review demonstrates that this finding is due to the divergent approach taken by the RBS and LLM. The RBS were designed and refined to follow the same specific rules as the gold standard annotations. Conversely, the LLM were more inclusive with categorization and conformed to common English-language understanding. Both approaches offer advantages and are made available open-source for future testing.
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# 光伝搬による多光子量子コヒーレンスの創発

Emergence of multiphoton quantum coherence by light propagation ( http://arxiv.org/abs/2403.17201v1 )

ライセンス: Link先を確認
Jannatul Ferdous, Mingyuan Hong, Riley B. Dawkins, Alina Oktyabrskaya, Chenglong You, Roberto de J. León-Montiel, Omar S. Magaña-Loaiza, (参考訳) 物質との相互作用による光子のコヒーレンスの量子的性質の修正は、光の量子論の中心にある。 実際、原子による光子の吸収と放出は、特徴的な量子統計的性質を持つ様々な種類の光につながる可能性がある。 そのため、異なるタイプの光は典型的には異なる光源に関連付けられている。 本稿では,自由空間における多光子系の量子コヒーレンスの変化の観測について報告する。 この驚くべき効果は、伝播における熱多光子波束の散乱によって生じる。 フォトニック系の励起モードと関連する量子ゆらぎの修正により、異なる量子コヒーレンス特性を持つ異なる光場が形成される。 注目すべきは、これらの散乱過程が、サブショットノイズ量子特性を持つ多光子系に繋がることである。 我々の観測は、エンブレマ的なファン・シッター=ゼルニケの定理の非古典的な定式化によって検証される。 我々は、線形伝播を通じてコヒーレンスの性質を改変した量子系を創出できる可能性は、様々な量子技術に劇的な影響をもたらすと信じている。

The modification of the quantum properties of coherence of photons through their interaction with matter lies at the heart of the quantum theory of light. Indeed, the absorption and emission of photons by atoms can lead to different kinds of light with characteristic quantum statistical properties. As such, different types of light are typically associated with distinct sources. Here, we report on the observation of the modification of quantum coherence of multiphoton systems in free space. This surprising effect is produced by the scattering of thermal multiphoton wavepackets upon propagation. The modification of the excitation mode of a photonic system and its associated quantum fluctuations result in the formation of different light fields with distinct quantum coherence properties. Remarkably, we show that these processes of scattering can lead to multiphoton systems with sub-shot-noise quantum properties. Our observations are validated through the nonclassical formulation of the emblematic van Cittert-Zernike theorem. We believe that the possibility of producing quantum systems with modified properties of coherence, through linear propagation, can have dramatic implications for diverse quantum technologies.
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# 量子回路のマッピング再考:マルチコア時代へ

Revisiting the Mapping of Quantum Circuits: Entering the Multi-Core Era ( http://arxiv.org/abs/2403.17205v1 )

ライセンス: Link先を確認
Pau Escofet, Anabel Ovide, Medina Bandic, Luise Prielinger, Hans van Someren, Sebastian Feld, Eduard Alarcón, Sergi Abadal, Carmen G. Almudéver, (参考訳) 量子コンピューティングは計算のパラダイムシフトであり、古典的コンピュータにとって難解な複雑な問題を解く可能性を提供する。 現在の量子プロセッサはすでに数百の量子ビットで構成されているが、そのスケーラビリティは依然として大きな課題である。 モジュール型量子コンピューティングアーキテクチャは、量子コンピューティングシステムをスケールアップするための有望なアプローチとして登場した。 本稿では、コア間の通信を最小化しつつ、コア間の量子アルゴリズムをうまく実行するための基本課題である量子回路マッピングに焦点を当て、分散マルチコア量子コンピューティングにおける重要な側面について述べる。 我々は、ランダムな量子回路に必要な非局所的な通信数に関する理論的境界を導出し、コア間の通信を減らすために、量子ビット割り当てを最適化するために設計されたマルチコアマッピングアルゴリズムであるハンガリークビット割り当て(HQA)アルゴリズムを導入する。 モジュラーアーキテクチャの最先端回路マッピングアルゴリズムに対するHQAの徹底的な評価では、実行時間と非ローカル通信の点で、最高性能のアルゴリズムと比較して、それぞれ4.9\times$と1.6\times$の改善が示されている。 HQAは、量子回路をマルチコアアーキテクチャにマッピングするための非常に有望なスケーラブルなアプローチとして登場し、量子コンピューティングの可能性を大規模に活用するための貴重なツールとして位置づけている。

Quantum computing represents a paradigm shift in computation, offering the potential to solve complex problems intractable for classical computers. Although current quantum processors already consist of a few hundred of qubits, their scalability remains a significant challenge. Modular quantum computing architectures have emerged as a promising approach to scale up quantum computing systems. This paper delves into the critical aspects of distributed multi-core quantum computing, focusing on quantum circuit mapping, a fundamental task to successfully execute quantum algorithms across cores while minimizing inter-core communications. We derive the theoretical bounds on the number of non-local communications needed for random quantum circuits and introduce the Hungarian Qubit Assignment (HQA) algorithm, a multi-core mapping algorithm designed to optimize qubit assignments to cores with the aim of reducing inter-core communications. Our exhaustive evaluation of HQA against state-of-the-art circuit mapping algorithms for modular architectures reveals a $4.9\times$ and $1.6\times$ improvement in terms of execution time and non-local communications, respectively, compared to the best performing algorithm. HQA emerges as a very promising scalable approach for mapping quantum circuits into multi-core architectures, positioning it as a valuable tool for harnessing the potential of quantum computing at scale.
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# 大規模言語モデルエージェントを用いたアセット管理シェルの生成:セマンティックノードを用いたディジタル双生児の相互運用性

Generation of Asset Administration Shell with Large Language Model Agents: Interoperability in Digital Twins with Semantic Node ( http://arxiv.org/abs/2403.17209v1 )

ライセンス: Link先を確認
Yuchen Xia, Zhewen Xiao, Nasser Jazdi, Michael Weyrich, (参考訳) 本研究は、産業4.0におけるデジタル双対モデリングのためのアセット管理シェル(AAS)インスタンスの作成を支援する新しいアプローチを導入し、スマート製造における相互運用性の向上と手作業の削減を目的とする。 テキストデータのセマンティックな意味を捉えるために「意味ノード」データ構造を構築した。 次に、大規模言語モデルを用いたシステムの設計と実装を行い、「意味ノード」を処理し、テキスト技術データからAASインスタンスモデルを生成する。 評価の結果,62~79%の有効生成率を示し,手作業による作成作業のかなりの割合を簡易な検証作業に変換することができ,AASインスタンスモデル作成の時間とコストを削減できることを示した。 本評価では, 異なるLLMの比較分析と検索・拡張生成(RAG)機構の詳細なアブレーション研究により, 技術的概念を解釈するためのLLMシステムの有効性について考察した。 本研究は,ALSインスタンスの自動生成,セマンティックインターオペラビリティの強化,産業アプリケーションにおけるデジタル双生児のセマンティックインターオペラビリティの幅広い分野への寄与など,LCMの能力を強調した。 プロトタイプの実装と評価結果は、リンクでGitHub Repositoryでリリースされています。

This research introduces a novel approach for assisting the creation of Asset Administration Shell (AAS) instances for digital twin modeling within the context of Industry 4.0, aiming to enhance interoperability in smart manufacturing and reduce manual effort. We construct a "semantic node" data structure to capture the semantic essence of textual data. Then, a system powered by large language models is designed and implemented to process "semantic node" and generate AAS instance models from textual technical data. Our evaluation demonstrates a 62-79% effective generation rate, indicating a substantial proportion of manual creation effort can be converted into easier validation effort, thereby reducing the time and cost in creating AAS instance models. In our evaluation, a comparative analysis of different LLMs and an in-depth ablation study of Retrieval-Augmented Generation (RAG) mechanisms provide insights into the effectiveness of LLM systems for interpreting technical concepts. Our findings emphasize LLMs' capability in automating AAS instance creation, enhancing semantic interoperability, and contributing to the broader field of semantic interoperability for digital twins in industrial applications. The prototype implementation and evaluation results are released on our GitHub Repository with the link: https://github.com/YuchenXia/AASbyLLM
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# CADGL:薬物と薬物の相互作用を予測するためのコンテキスト対応深層グラフ学習

CADGL: Context-Aware Deep Graph Learning for Predicting Drug-Drug Interactions ( http://arxiv.org/abs/2403.17210v1 )

ライセンス: Link先を確認
Azmine Toushik Wasi, Taki Hasan Rafi, Raima Islam, Serbetar Karlo, Dong-Kyu Chae, (参考訳) 薬物・薬物相互作用(DDIs)は、薬物開発における重要な要素である。 DDIは、ある薬物の性質が他の薬物を含むことにより影響を受ける場合に起こる。 好ましいDDIの検出は、実践的な環境に適用可能な革新的な医薬品の作成と進歩の道を開く可能性がある。 しかし、既存のDDI予測モデルは、極端な場合の一般化、ロバストな特徴抽出、現実のアプリケーションの可能性に関連する課題に直面し続けている。 我々は,CADGLという新しいフレームワークを導入することで,文脈認識深層グラフ学習の有効性を活用することで,これらの課題に対処することを目指している。 カスタマイズされた変分グラフオートエンコーダ(VGAE)に基づいて、局所近傍と分子コンテキストという2つの異なる視点から特徴抽出を行う2つのコンテキスト前処理装置を用いて、重要な構造的および物理化学的情報を取得する。 我々のカスタマイズされたVGAEは、グラフエンコーダ、潜時情報エンコーダ、MPPデコーダからなる。 CADGLは他の最先端のDDI予測モデルを超え、厳格なケーススタディによって支援された、臨床的に価値のある新しいDDIを予測するのに優れている。

Examining Drug-Drug Interactions (DDIs) is a pivotal element in the process of drug development. DDIs occur when one drug's properties are affected by the inclusion of other drugs. Detecting favorable DDIs has the potential to pave the way for creating and advancing innovative medications applicable in practical settings. However, existing DDI prediction models continue to face challenges related to generalization in extreme cases, robust feature extraction, and real-life application possibilities. We aim to address these challenges by leveraging the effectiveness of context-aware deep graph learning by introducing a novel framework named CADGL. Based on a customized variational graph autoencoder (VGAE), we capture critical structural and physio-chemical information using two context preprocessors for feature extraction from two different perspectives: local neighborhood and molecular context, in a heterogeneous graphical structure. Our customized VGAE consists of a graph encoder, a latent information encoder, and an MLP decoder. CADGL surpasses other state-of-the-art DDI prediction models, excelling in predicting clinically valuable novel DDIs, supported by rigorous case studies.
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# 説明の不確かさの正当性チェック

Sanity Checks for Explanation Uncertainty ( http://arxiv.org/abs/2403.17212v1 )

ライセンス: Link先を確認
Matias Valdenegro-Toro, Mihir Mulye, (参考訳) 機械学習モデルの説明は解釈し難いり、間違っていたりすることがある。 説明法と不確実性推定法を組み合わせることで、説明の不確実性を生成する。 説明の不確実性を評価することは難しい。 本稿では、不確実性のある説明のために重みとデータランダム化テストを定義し、不確実性と説明法の組み合わせに対する迅速なテストを可能にする、不確実性説明法に対する正当性チェックを提案する。 CIFAR10とCalifornia Housingのデータセットにおけるこれらのテストの有効性と有効性について実験的に明らかにし、Ensemblesはガイドバックプロパゲーション、統合グラディエンス、LIME説明の両方で一貫してテストに合格しているように見えることを指摘した。

Explanations for machine learning models can be hard to interpret or be wrong. Combining an explanation method with an uncertainty estimation method produces explanation uncertainty. Evaluating explanation uncertainty is difficult. In this paper we propose sanity checks for uncertainty explanation methods, where a weight and data randomization tests are defined for explanations with uncertainty, allowing for quick tests to combinations of uncertainty and explanation methods. We experimentally show the validity and effectiveness of these tests on the CIFAR10 and California Housing datasets, noting that Ensembles seem to consistently pass both tests with Guided Backpropagation, Integrated Gradients, and LIME explanations.
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# AnimateMe:拡散モデルによる4次元顔表現

AnimateMe: 4D Facial Expressions via Diffusion Models ( http://arxiv.org/abs/2403.17213v1 )

ライセンス: Link先を確認
Dimitrios Gerogiannis, Foivos Paraperas Papantoniou, Rolandos Alexandros Potamias, Alexandros Lattas, Stylianos Moschoglou, Stylianos Ploumpis, Stefanos Zafeiriou, (参考訳) フォトリアリスティックな3Dアバターの再構築と生成の分野は近年注目されているが、そのようなアバターのアニメーションはいまだに困難である。 拡散モデルの最近の進歩は、2次元アニメーションにおける生成モデルの能力を顕著に強化している。 本研究では、これらのモデルを3D領域内で直接利用し、制御可能で高忠実な4D顔アニメーションを実現する。 拡散過程と幾何学的深層学習の強みを統合することにより,グラフニューラルネットワーク(GNN)を新たな拡散モデルとして,メッシュ空間上で直接拡散過程を定式化し,三次元表情の生成を可能にする。 これにより、メッシュ拡散モデルによる顔の変形の発生が容易になる。 さらに,アニメーションにおける時間的コヒーレンスを確保するため,一貫したノイズサンプリング手法を提案する。 定量的および定性的な実験のシリーズにおいて,提案手法は,高忠実度極端な表現を生成することによって,4次元表現合成における先行的な作業よりも優れていることを示す。 さらに,本手法をテクスチャ化された4次元表情生成に適用し,大規模テクスチャ化された4次元表情データベースのトレーニングを含む簡単な拡張を実装した。

The field of photorealistic 3D avatar reconstruction and generation has garnered significant attention in recent years; however, animating such avatars remains challenging. Recent advances in diffusion models have notably enhanced the capabilities of generative models in 2D animation. In this work, we directly utilize these models within the 3D domain to achieve controllable and high-fidelity 4D facial animation. By integrating the strengths of diffusion processes and geometric deep learning, we employ Graph Neural Networks (GNNs) as denoising diffusion models in a novel approach, formulating the diffusion process directly on the mesh space and enabling the generation of 3D facial expressions. This facilitates the generation of facial deformations through a mesh-diffusion-based model. Additionally, to ensure temporal coherence in our animations, we propose a consistent noise sampling method. Under a series of both quantitative and qualitative experiments, we showcase that the proposed method outperforms prior work in 4D expression synthesis by generating high-fidelity extreme expressions. Furthermore, we applied our method to textured 4D facial expression generation, implementing a straightforward extension that involves training on a large-scale textured 4D facial expression database.
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# コード翻訳のための大規模言語モデル評価における出力形式の影響を探る

Exploring the Impact of the Output Format on the Evaluation of Large Language Models for Code Translation ( http://arxiv.org/abs/2403.17214v1 )

ライセンス: Link先を確認
Marcos Macedo, Yuan Tian, Filipe R. Cogo, Bram Adams, (参考訳) プログラミング言語間のコード翻訳は、ソフトウェア工学における長年の重要課題であり、レガシーシステムの近代化を促進し、クロスプラットフォームの互換性を確保し、ソフトウェアパフォーマンスを向上させる。 近年の大規模言語モデル(LLM)とそのコード翻訳への応用により,これらのモデルの包括的な評価の必要性が高まっている。 本研究では,C言語,C++言語,Go言語,Java言語,Python言語を含む5言語にまたがる3,820の翻訳ペアに対して,最大1Bから46.7Bまでのパラメータで,11のポピュラーな命令付きLPMの出力を経験的に分析した。 我々の分析によると、評価済みのLLMが生成するコード翻訳の26.4%から73.7%は後処理を必要としており、これらの翻訳には純粋にソースコードではなく、コード、引用、テキストが混在していることが多い。 これらのモデルの出力フォーマットを見渡すことは、必然的に実際のパフォーマンスの過小評価につながる可能性がある。 これは、計算精度(CA)のような実行ベースのメトリクスで評価する場合、特に顕著である。 この結果から,プロンプトエンジニアリングと正規表現の戦略的組み合わせにより,モデル生成出力からソースコードを効果的に抽出できることが示唆された。 特に,選択した11種類のモデルに対して平均コード抽出成功率(CSR)92.73%を達成するのに有効である。 コード翻訳のための LLM のより信頼性の高いベンチマークを行うため,今後の研究に光を当て,モチベーションを与えました。

Code translation between programming languages is a long-existing and critical task in software engineering, facilitating the modernization of legacy systems, ensuring cross-platform compatibility, and enhancing software performance. With the recent advances in large language models (LLMs) and their applications to code translation, there is an increasing need for comprehensive evaluation of these models. In this study, we empirically analyze the generated outputs of eleven popular instruct-tuned LLMs with parameters ranging from 1B up to 46.7B on 3,820 translation pairs across five languages, including C, C++, Go, Java, and Python. Our analysis found that between 26.4% and 73.7% of code translations produced by our evaluated LLMs necessitate post-processing, as these translations often include a mix of code, quotes, and text rather than being purely source code. Overlooking the output format of these models can inadvertently lead to underestimation of their actual performance. This is particularly evident when evaluating them with execution-based metrics such as Computational Accuracy (CA). Our results demonstrate that a strategic combination of prompt engineering and regular expression can effectively extract the source code from the model generation output. In particular, our method can help eleven selected models achieve an average Code Extraction Success Rate (CSR) of 92.73%. Our findings shed light on and motivate future research to conduct more reliable benchmarks of LLMs for code translation.
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# リーキーパイプラインをコンピューティング研究に活用するための学部コンソーシアム

An Undergraduate Consortium for Addressing the Leaky Pipeline to Computing Research ( http://arxiv.org/abs/2403.17215v1 )

ライセンス: Link先を確認
James Boerkoel, Mehmet Ergezer, (参考訳) コンピューティング研究への参加を拡大するために設計された介入が増えているにもかかわらず、コンピューティング研究パイプラインにおける歴史的に疎外されたグループの間では、依然として大きな関心を集めている。 この経験報告では、この課題に対処するために、学生にカンファレンス環境での学部研究の成果を付与することで、第一種大学コンソーシアム(UC)について記述する。 AAAI Conference on Artificial Intelligence (AAAI)において、UCはAI研究コミュニティへの参加を拡大することを目的としており、特に歴史的に疎外されたグループから学生を募集し、メンターシップ、助言、ネットワークを大学院、AI研究、そして彼らの科学的アイデンティティのアクセラレーターとして支援することを目的としている。 本稿では,エビデンスに基づく実践の豊富なセットにインスパイアされたプログラム設計と,UCが望む成果の多くを達成していることを示す初年度の予備的評価について述べる。 我々は、プログラムを改善し、他のコンピューティングコミュニティに拡張するための洞察を議論することで締めくくります。

Despite an increasing number of successful interventions designed to broaden participation in computing research, there is still significant attrition among historically marginalized groups in the computing research pipeline. This experience report describes a first-of-its-kind Undergraduate Consortium (UC) that addresses this challenge by empowering students with a culmination of their undergraduate research in a conference setting. The UC, conducted at the AAAI Conference on Artificial Intelligence (AAAI), aims to broaden participation in the AI research community by recruiting students, particularly those from historically marginalized groups, supporting them with mentorship, advising, and networking as an accelerator toward graduate school, AI research, and their scientific identity. This paper presents our program design, inspired by a rich set of evidence-based practices, and a preliminary evaluation of the first years that points to the UC achieving many of its desired outcomes. We conclude by discussing insights to improve our program and expand to other computing communities.
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# 自然言語推論と概念埋め込みによるオントロジーの完成:分析

Ontology Completion with Natural Language Inference and Concept Embeddings: An Analysis ( http://arxiv.org/abs/2403.17216v1 )

ライセンス: Link先を確認
Na Li, Thomas Bailleux, Zied Bouraoui, Steven Schockaert, (参考訳) 本研究では,特定のオントロジーから欠落する有能な知識の発見という課題を,よく研究された分類学拡張タスクの一般化として考察する。 1行の作業では、このタスクを自然言語推論(NLI)問題として扱い、言語モデルによって取得された知識に依存して、不足した知識を特定する。 別の研究の行では、概念埋め込みを使用して、カテゴリベースの帰納のための認知モデルからインスピレーションを得て、異なる概念が共通しているものを特定する。 これらの2つのアプローチは直感的に相補的であるが、その効果はまだ比較されていない。 本稿では,オントロジー補完手法の評価のためのベンチマークを導入し,両手法の強みと弱みを徹底的に分析する。 両者のアプローチは相補的であり、ハイブリッド戦略が最高の結果をもたらすことが分かっています。 また、微調整後であっても、このタスクは大規模言語モデルにとって非常に困難であることもわかりました。

We consider the problem of finding plausible knowledge that is missing from a given ontology, as a generalisation of the well-studied taxonomy expansion task. One line of work treats this task as a Natural Language Inference (NLI) problem, thus relying on the knowledge captured by language models to identify the missing knowledge. Another line of work uses concept embeddings to identify what different concepts have in common, taking inspiration from cognitive models for category based induction. These two approaches are intuitively complementary, but their effectiveness has not yet been compared. In this paper, we introduce a benchmark for evaluating ontology completion methods and thoroughly analyse the strengths and weaknesses of both approaches. We find that both approaches are indeed complementary, with hybrid strategies achieving the best overall results. We also find that the task is highly challenging for Large Language Models, even after fine-tuning.
翻訳日:2024-03-27 19:26:23 公開日:2024-03-25
# DiffusionAct:ワンショット顔再現のための制御可能な拡散オートエンコーダ

DiffusionAct: Controllable Diffusion Autoencoder for One-shot Face Reenactment ( http://arxiv.org/abs/2403.17217v1 )

ライセンス: Link先を確認
Stella Bounareli, Christos Tzelepis, Vasileios Argyriou, Ioannis Patras, Georgios Tzimiropoulos, (参考訳) ビデオ駆動型ニューラルフェイス再現は、ターゲットの頭ポーズと表情を転送しながら、元の顔のアイデンティティと外観をうまく保持する現実的な顔画像を合成することを目的としている。 既存のGANベースの手法は、歪みや視覚的アーティファクト、あるいは粗悪な復元品質、すなわち、髪型/色、眼鏡、アクセサリーなどの背景といくつかの重要な外観の細部が忠実に再構築されていない。 拡散確率モデル(DPM)の最近の進歩は、高品質な現実画像の生成を可能にする。 そこで本稿では,拡散モデルのフォトリアリスティック画像生成を利用したニューラルフェース再現手法であるDiffusionActを提案する。 具体的には,拡散オートエンコーダ(DiffAE)のセマンティック空間を制御し,頭部ポーズの向きや表情として定義される入力画像の顔のポーズを編集する。 本手法では,単発,自己,クロスオブジェクトの再現が可能であり,被検体固有の微調整は不要である。 我々は,最先端のGAN-,StyleGAN2-,拡散に基づく手法と比較し,良好な再現性能を示した。

Video-driven neural face reenactment aims to synthesize realistic facial images that successfully preserve the identity and appearance of a source face, while transferring the target head pose and facial expressions. Existing GAN-based methods suffer from either distortions and visual artifacts or poor reconstruction quality, i.e., the background and several important appearance details, such as hair style/color, glasses and accessories, are not faithfully reconstructed. Recent advances in Diffusion Probabilistic Models (DPMs) enable the generation of high-quality realistic images. To this end, in this paper we present DiffusionAct, a novel method that leverages the photo-realistic image generation of diffusion models to perform neural face reenactment. Specifically, we propose to control the semantic space of a Diffusion Autoencoder (DiffAE), in order to edit the facial pose of the input images, defined as the head pose orientation and the facial expressions. Our method allows one-shot, self, and cross-subject reenactment, without requiring subject-specific fine-tuning. We compare against state-of-the-art GAN-, StyleGAN2-, and diffusion-based methods, showing better or on-par reenactment performance.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# 脆弱性検出のための大規模言語モデルの能力に関する総合的研究

A Comprehensive Study of the Capabilities of Large Language Models for Vulnerability Detection ( http://arxiv.org/abs/2403.17218v1 )

ライセンス: Link先を確認
Benjamin Steenhoek, Md Mahbubur Rahman, Monoshi Kumar Roy, Mirza Sanjida Alam, Earl T. Barr, Wei Le, (参考訳) 大規模言語モデル(LLM)は、コード生成やその他のソフトウェアエンジニアリングタスクに大きな可能性を実証しています。 脆弱性検出は、ソフトウェアシステムのセキュリティ、完全性、信頼性を維持する上で非常に重要である。 脆弱性の正確な検出には、コードを推論する必要があるため、LLMの推論能力の限界を探索するための良いケーススタディである。 最近の研究では、ジェネリックプロンプト技術を用いた脆弱性検出にLLMを適用しているが、このタスクのフル機能と、特定された脆弱性を説明する際に発生するエラーの種類はまだ不明である。 本稿では,コード生成の最先端であり,コーディングアシスタントとして一般的に使用されている11個のLCMを調査し,脆弱性検出機能の評価を行った。 提案手法は,インコンテクスト学習やチェーン・オブ・シントといった手法を取り入れて,最も優れたプロンプトを体系的に探索し,独自のプロンプト手法を3つ提案した。 提案手法はモデルの性能を向上するが,LLMは脆弱性検出に苦慮している。 彼らは0.5-0.63のバランス精度を報告し、平均して76%のケースでバグのあるプログラムと固定バージョンのプログラムを区別できなかった。 モデル推論の287のインスタンスを包括的に分析・分類することにより,LSM応答の57%にエラーが含まれており,バグコードや誤同定されたバグタイプの誤検出が頻発していることが判明した。 LLMはDbgBenchの27のバグのうち6つしか正しく局在せず、これらの6つのバグはヒトの70-100%によって正しく予測された。 これらの結果は,LLMが重要なコード構造やセキュリティ関連の概念を適切に理解できないことを示唆している。 私たちのデータとコードはhttps://figshare.com/s/78fe02e56e09ec49300bで公開されています。

Large Language Models (LLMs) have demonstrated great potential for code generation and other software engineering tasks. Vulnerability detection is of crucial importance to maintaining the security, integrity, and trustworthiness of software systems. Precise vulnerability detection requires reasoning about the code, making it a good case study for exploring the limits of LLMs' reasoning capabilities. Although recent work has applied LLMs to vulnerability detection using generic prompting techniques, their full capabilities for this task and the types of errors they make when explaining identified vulnerabilities remain unclear. In this paper, we surveyed eleven LLMs that are state-of-the-art in code generation and commonly used as coding assistants, and evaluated their capabilities for vulnerability detection. We systematically searched for the best-performing prompts, incorporating techniques such as in-context learning and chain-of-thought, and proposed three of our own prompting methods. Our results show that while our prompting methods improved the models' performance, LLMs generally struggled with vulnerability detection. They reported 0.5-0.63 Balanced Accuracy and failed to distinguish between buggy and fixed versions of programs in 76% of cases on average. By comprehensively analyzing and categorizing 287 instances of model reasoning, we found that 57% of LLM responses contained errors, and the models frequently predicted incorrect locations of buggy code and misidentified bug types. LLMs only correctly localized 6 out of 27 bugs in DbgBench, and these 6 bugs were predicted correctly by 70-100% of human participants. These findings suggest that despite their potential for other tasks, LLMs may fail to properly comprehend critical code structures and security-related concepts. Our data and code are available at https://figshare.com/s/78fe02e56e09ec49300b.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# SeSaMe:メンタルヘルスセンシング研究のための自己申告地上真実をシミュレートするフレームワーク

SeSaMe: A Framework to Simulate Self-Reported Ground Truth for Mental Health Sensing Studies ( http://arxiv.org/abs/2403.17219v1 )

ライセンス: Link先を確認
Akshat Choube, Vedant Das Swain, Varun Mishra, (参考訳) モバイルおよびウェアラブル技術の進歩は、人の精神的、行動的、感情的な健康を受動的に監視することを可能にする。 これらのアプローチは一般的に、機械学習(ML)モデルをトレーニングするために、うつ病、ストレス、不安といった自己申告結果の縦断的な収集に依存します。 しかし、継続的な自己申告の必要性は参加者に大きな負担を与え、しばしば誘惑、ラベルの欠如、不適切な反応をもたらす。 本研究では,デジタルメンタルヘルス研究における参加者の負担を軽減するために,メンタルモデル(SeSaMe)フレームワークを用いた尺度シミュレーションを導入する。 事前訓練された大規模言語モデル(LLM)を活用することで、SeSaMeは参加者の心理的尺度に対する反応のシミュレーションを可能にする。 SeSaMeでは、研究者は参加者の内部行動の配置に関する情報をLLMに促すことができ、LLMは参加者のメンタルモデルを構築し、心理的スケールで反応をシミュレートすることができる。 本稿では,GPT-4を用いて1つのスケールで応答をシミュレートするSeSaMeの応用例を示す。 また,人間とSeSaMeを模擬した心理尺度のアライメントも評価した。 そこで本研究では,既成のうつ病と不安スクリーニングタスクを再現することにより,機械学習モデルのトレーニングにおいて,SeSaMeシミュレーション応答を基礎的真理として活用する実験を行った。 以上の結果から,SeSaMeは有望なアプローチであることが示されたが,そのアライメントはスケールや予測対象によって異なる可能性がある。 また,シミュレーションデータを用いたモデルの性能は,ほとんどの評価シナリオにおいて実データと同等であった。 受動的センシング研究において、研究者が地道収集に直面する課題に、SeSaMeがもたらす影響について論じる。

Advances in mobile and wearable technologies have enabled the potential to passively monitor a person's mental, behavioral, and affective health. These approaches typically rely on longitudinal collection of self-reported outcomes, e.g., depression, stress, and anxiety, to train machine learning (ML) models. However, the need to continuously self-report adds a significant burden on the participants, often resulting in attrition, missing labels, or insincere responses. In this work, we introduce the Scale Scores Simulation using Mental Models (SeSaMe) framework to alleviate participants' burden in digital mental health studies. By leveraging pre-trained large language models (LLMs), SeSaMe enables the simulation of participants' responses on psychological scales. In SeSaMe, researchers can prompt LLMs with information on participants' internal behavioral dispositions, enabling LLMs to construct mental models of participants to simulate their responses on psychological scales. We demonstrate an application of SeSaMe, where we use GPT-4 to simulate responses on one scale using responses from another as behavioral information. We also evaluate the alignment between human and SeSaMe-simulated responses to psychological scales. Then, we present experiments to inspect the utility of SeSaMe-simulated responses as ground truth in training ML models by replicating established depression and anxiety screening tasks from a previous study. Our results indicate SeSaMe to be a promising approach, but its alignment may vary across scales and specific prediction objectives. We also observed that model performance with simulated data was on par with using the real data for training in most evaluation scenarios. We conclude by discussing the potential implications of SeSaMe in addressing some challenges researchers face with ground-truth collection in passive sensing studies.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# ユーザ生成コンテンツにロバストな文を埋め込む

Making Sentence Embeddings Robust to User-Generated Content ( http://arxiv.org/abs/2403.17220v1 )

ライセンス: Link先を確認
Lydia Nishimwe, Benoît Sagot, Rachel Bawden, (参考訳) NLPモデルはユーザ生成コンテンツ(UGC)の性能が低かったことが知られており、主に多くの語彙的バリエーションを示し、これらのモデルの大半が訓練された標準テキストから逸脱している。 本研究では,UGCデータに対する文埋め込みモデルであるLASERの堅牢性に着目した。 埋め込み空間において、非標準文とその標準文を互いに近接して表現するLASERの能力により、このロバスト性を評価する。 従来の研究によって他の言語やモダリティに拡張されたRoLASERは、標準文とUGC文の表現距離を減らすために教師と学生のアプローチで訓練された頑健な英語エンコーダである。 標準的なUGCライクなデータと合成UGCライクなデータのみをトレーニングすることにより、RoLASERは2倍、11倍のスコアを達成して、自然および人工両方のUGCデータに対するLASERの堅牢性を大幅に向上する。 また,UGCデータの微粒化分析を行い,キーボードタイポやソーシャルメディアの略語など,最も難解なUGC現象において,我々のモデルがLASERを著しく上回っていることを確認した。 下流タスクの評価によると、RoLASERは標準データではLASERと互換性があり、UGCデータでは一貫してパフォーマンスが向上している。

NLP models have been known to perform poorly on user-generated content (UGC), mainly because it presents a lot of lexical variations and deviates from the standard texts on which most of these models were trained. In this work, we focus on the robustness of LASER, a sentence embedding model, to UGC data. We evaluate this robustness by LASER's ability to represent non-standard sentences and their standard counterparts close to each other in the embedding space. Inspired by previous works extending LASER to other languages and modalities, we propose RoLASER, a robust English encoder trained using a teacher-student approach to reduce the distances between the representations of standard and UGC sentences. We show that with training only on standard and synthetic UGC-like data, RoLASER significantly improves LASER's robustness to both natural and artificial UGC data by achieving up to 2x and 11x better scores. We also perform a fine-grained analysis on artificial UGC data and find that our model greatly outperforms LASER on its most challenging UGC phenomena such as keyboard typos and social media abbreviations. Evaluation on downstream tasks shows that RoLASER performs comparably to or better than LASER on standard data, while consistently outperforming it on UGC data.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# 未ラベル物体発見に向けた物体検出と同定の共起

Co-Occurring of Object Detection and Identification towards unlabeled object discovery ( http://arxiv.org/abs/2403.17223v1 )

ライセンス: Link先を確認
Binay Kumar Singh, Niels Da Vitoria Lobo, (参考訳) 本稿では,複数ラベルオブジェクトカテゴリのベースオブジェクトと協調して生成するオブジェクトを同定する,新しいディープラーニングに基づくアプローチを提案する。 近年,コンピュータビジョンに基づく技術の発展に伴い,様々な目的において,ベースオブジェクトに対する共起オブジェクトについて知る必要がある。 提案手法のパイプラインは,2つの段階から構成される:提案モデルの第1段階では,画像とそのラベルに存在するすべての境界ボックスを検出し,第2段階では共起行列解析を行う。 共起行列解析では,ラベルの最大発生度に基づいて基本クラスを設定し,関連ルールを構築し,頻繁なパターンを生成する。 これらの頻繁なパターンは、ベースクラスとその対応する共起クラスを示す。 我々はPascal VOCとMS-COCOの2つの公開データセットで実験を行った。 公開ベンチマークデータセットの実験結果はSec 4.0で報告されている。 さらに、この作業は、すべての頻繁なオブジェクトにラベルが付けられていないことと、それらが無視されている場合についても考慮して拡張する。

In this paper, we propose a novel deep learning based approach for identifying co-occurring objects in conjunction with base objects in multilabel object categories. Nowadays, with the advancement in computer vision based techniques we need to know about co-occurring objects with respect to base object for various purposes. The pipeline of the proposed work is composed of two stages: in the first stage of the proposed model we detect all the bounding boxes present in the image and their corresponding labels, then in the second stage we perform co-occurrence matrix analysis. In co-occurrence matrix analysis, we set base classes based on the maximum occurrences of the labels and build association rules and generate frequent patterns. These frequent patterns will show base classes and their corresponding co-occurring classes. We performed our experiments on two publicly available datasets: Pascal VOC and MS-COCO. The experimental results on public benchmark dataset is reported in Sec 4. Further we extend this work by considering all frequently objects as unlabeled and what if they are occluded as well.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# ニューラルネットワークにおける勾配に基づく説明の不確かさの定量化

Uncertainty Quantification for Gradient-based Explanations in Neural Networks ( http://arxiv.org/abs/2403.17224v1 )

ライセンス: Link先を確認
Mihir Mulye, Matias Valdenegro-Toro, (参考訳) 説明法はモデルの予測の理由を理解するのに役立つ。 これらのメソッドは、モデルデバッギング、パフォーマンスの最適化、モデルの動作に関する洞察を得ることにますます関与しています。 これらの手法の批判的応用により、これらの手法が生み出す説明にまつわる不確実性を測定することが不可欠である。 本稿では,不確実性推定法と説明法を組み合わせることにより,ニューラルネットワークの説明の不確実性を確認するパイプラインを提案する。 このパイプラインを使用して、CIFAR-10、FER+、California Housingデータセットの説明分布を生成する。 これらの分布の変動係数を計算することにより、説明の信頼性を評価し、ガイドバックプロパゲーションを用いて生成された説明がそれらと関連する不確実性が少ないことを判断する。 さらに,修正画素挿入/削除のメトリクスを計算し,生成した説明の質を評価する。

Explanation methods help understand the reasons for a model's prediction. These methods are increasingly involved in model debugging, performance optimization, and gaining insights into the workings of a model. With such critical applications of these methods, it is imperative to measure the uncertainty associated with the explanations generated by these methods. In this paper, we propose a pipeline to ascertain the explanation uncertainty of neural networks by combining uncertainty estimation methods and explanation methods. We use this pipeline to produce explanation distributions for the CIFAR-10, FER+, and California Housing datasets. By computing the coefficient of variation of these distributions, we evaluate the confidence in the explanation and determine that the explanations generated using Guided Backpropagation have low uncertainty associated with them. Additionally, we compute modified pixel insertion/deletion metrics to evaluate the quality of the generated explanations.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# 空間と時間に関するカリフォルニア州消費者プライバシ法へのコンプライアンスを測る

Measuring Compliance with the California Consumer Privacy Act Over Space and Time ( http://arxiv.org/abs/2403.17225v1 )

ライセンス: Link先を確認
Van Tran, Aarushi Mehrotra, Marshini Chetty, Nick Feamster, Jens Frankenreiter, Lior Strahilevitz, (参考訳) 消費者の個人情報を第三者と広く共有することは、重要なプライバシー上の懸念を引き起こす。 カリフォルニア州消費者プライバシ法(CCPA)は、オンラインビジネスが消費者に個人情報の販売と共有をオプトアウトするオプションを提供することを義務付けている。 私たちの研究は、カリフォルニア州プライバシー法(CPRA)が施行された後、複数の州にまたがってオプトアウトリンクの存在を自動的に追跡します。 我々は,CCPAの対象であるかどうかに基づいてWebサイトを分類し,非準拠の可能性のある事例を調査する。 調査対象のすべての州でオプトアウトリンクを早期に実装するWebサイトは多数存在するが,CCPAが有効である場合でもオプトアウトメソッドを提供できないCCPAサブジェクトWebサイトも多数存在する。 我々の発見は、ウェブサイトがCCPAに対してどのように反応しているかを明らかにし、コンプライアンスの潜在的なギャップを特定し、消費者がCCPAオプトアウトの権利を行使することを妨げているメソッド設計をオプトアウトすることを可能にします。

The widespread sharing of consumers personal information with third parties raises significant privacy concerns. The California Consumer Privacy Act (CCPA) mandates that online businesses offer consumers the option to opt out of the sale and sharing of personal information. Our study automatically tracks the presence of the opt-out link longitudinally across multiple states after the California Privacy Rights Act (CPRA) went into effect. We categorize websites based on whether they are subject to CCPA and investigate cases of potential non-compliance. We find a number of websites that implement the opt-out link early and across all examined states but also find a significant number of CCPA-subject websites that fail to offer any opt-out methods even when CCPA is in effect. Our findings can shed light on how websites are reacting to the CCPA and identify potential gaps in compliance and opt- out method designs that hinder consumers from exercising CCPA opt-out rights.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# Dyna-LfLH: 学習した幻覚から動的環境におけるアジャイルナビゲーションを学ぶ

Dyna-LfLH: Learning Agile Navigation in Dynamic Environments from Learned Hallucination ( http://arxiv.org/abs/2403.17231v1 )

ライセンス: Link先を確認
Saad Abdul Ghani, Zizhao Wang, Peter Stone, Xuesu Xiao, (参考訳) 本稿では,地中ロボットが高密度でダイナミックな障害物を伴って環境をナビゲートするための移動プランナを安全に学習するための自己指導型学習手法を提案する。 高度に散らばり、速く動き、予測が難しい障害に直面している場合、古典的なモーションプランナーは、オンボード計算の制限に追随できないかもしれない。 学習型プランナでは,探索中に衝突する確率が高いため,強化学習が非効率になる一方で,模擬学習において高品質な実演を得ることは困難である。 トレーニングデータを安全かつ効率的に提供するために、LfH(Learning from Hallucination)アプローチは、過去の成功したナビゲーション体験を比較的容易に、あるいは完全にオープンなものとして、難しいナビゲーション環境を合成するが、残念ながら動的障害には対処できない。 新たに開発したDynamic Learning from Learned Hallucination (Dyna-LfLH)では,新しい潜伏分布を設計,学習し,そこから動的障害をサンプリングする。 Dyna-LfLHは、シミュレーションされた環境と物理的環境の両方において地上ロボット上で評価され、ベースラインと比較して最大25%高い成功率を達成する。

This paper presents a self-supervised learning method to safely learn a motion planner for ground robots to navigate environments with dense and dynamic obstacles. When facing highly-cluttered, fast-moving, hard-to-predict obstacles, classical motion planners may not be able to keep up with limited onboard computation. For learning-based planners, high-quality demonstrations are difficult to acquire for imitation learning while reinforcement learning becomes inefficient due to the high probability of collision during exploration. To safely and efficiently provide training data, the Learning from Hallucination (LfH) approaches synthesize difficult navigation environments based on past successful navigation experiences in relatively easy or completely open ones, but unfortunately cannot address dynamic obstacles. In our new Dynamic Learning from Learned Hallucination (Dyna-LfLH), we design and learn a novel latent distribution and sample dynamic obstacles from it, so the generated training data can be used to learn a motion planner to navigate in dynamic environments. Dyna-LfLH is evaluated on a ground robot in both simulated and physical environments and achieves up to 25% better success rate compared to baselines.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# サンプリングプロセスにおける事前知識を用いたダイナミクスの能動的学習

Active Learning of Dynamics Using Prior Domain Knowledge in the Sampling Process ( http://arxiv.org/abs/2403.17233v1 )

ライセンス: Link先を確認
Kevin S. Miller, Adam J. Thorpe, Ufuk Topcu, (参考訳) 本稿では,事前知識をサンプリングプロセスに明示的に組み込むことで,側面情報を活用する動的学習のための能動的学習アルゴリズムを提案する。 提案アルゴリズムは,観測データと側情報から導出される力学の非完全先行モデルとの間に高い経験的差を示す領域への探索を導く。 数値実験により,この戦略は高い不一致領域を探索し,モデルの不確実性を同時に低減しつつ学習を加速することを示した。 我々は,我々の能動学習アルゴリズムが,最大予測分散に対する明確な収束率を提供することで,基礎となる力学の一貫性のある推定値が得られることを厳密に証明する。 本研究は,非作動型振り子システムと半チータな MuJoCo 環境に対するアプローチの有効性を実証する。

We present an active learning algorithm for learning dynamics that leverages side information by explicitly incorporating prior domain knowledge into the sampling process. Our proposed algorithm guides the exploration toward regions that demonstrate high empirical discrepancy between the observed data and an imperfect prior model of the dynamics derived from side information. Through numerical experiments, we demonstrate that this strategy explores regions of high discrepancy and accelerates learning while simultaneously reducing model uncertainty. We rigorously prove that our active learning algorithm yields a consistent estimate of the underlying dynamics by providing an explicit rate of convergence for the maximum predictive variance. We demonstrate the efficacy of our approach on an under-actuated pendulum system and on the half-cheetah MuJoCo environment.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# 自動駐車のためのMCTSにおける強化学習による経路計画の高速化

Speeding Up Path Planning via Reinforcement Learning in MCTS for Automated Parking ( http://arxiv.org/abs/2403.17234v1 )

ライセンス: Link先を確認
Xinlong Zheng, Xiaozhou Zhang, Donghao Xu, (参考訳) 本稿では,モンテカルロ木探索に強化学習を統合し,自動駐車作業のための完全観測可能な環境下でのオンライン経路計画を強化する手法を提案する。 高次元空間下でのサンプリングベースの計画手法は、計算コストと時間を要する可能性がある。 状態評価手法は,事前の知識を検索ステップに活用することで,リアルタイムシステムにおけるプロセスの高速化に有効である。 自動駐車タスクは複雑な環境下で実行されることが多いことを考えると、従来の分析手法では、固体だが軽量なヒューリスティックな指導が難しい。 この制限を克服するために,モンテカルロ木探索を用いた強化学習パイプラインを提案する。 前回のサイクルの結果から、状態の価値と最良のアクションを反復的に学習することにより、与えられた状態に対する値推定器とポリシー生成器をモデル化することができる。 これにより、探索と搾取のバランスをとるメカニズムを構築し、人間の専門家のドライバーデータを用いることなく、その品質を維持しながら経路計画プロセスを高速化する。

In this paper, we address a method that integrates reinforcement learning into the Monte Carlo tree search to boost online path planning under fully observable environments for automated parking tasks. Sampling-based planning methods under high-dimensional space can be computationally expensive and time-consuming. State evaluation methods are useful by leveraging the prior knowledge into the search steps, making the process faster in a real-time system. Given the fact that automated parking tasks are often executed under complex environments, a solid but lightweight heuristic guidance is challenging to compose in a traditional analytical way. To overcome this limitation, we propose a reinforcement learning pipeline with a Monte Carlo tree search under the path planning framework. By iteratively learning the value of a state and the best action among samples from its previous cycle's outcomes, we are able to model a value estimator and a policy generator for given states. By doing that, we build up a balancing mechanism between exploration and exploitation, speeding up the path planning process while maintaining its quality without using human expert driver data.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# 量子化整流器を用いたニューラルイメージ圧縮

Neural Image Compression with Quantization Rectifier ( http://arxiv.org/abs/2403.17236v1 )

ライセンス: Link先を確認
Wei Luo, Bo Chen, (参考訳) ニューラル画像圧縮は、速度歪み性能の点で従来の画像コーデックより優れていることが示されている。 しかし、量子化は圧縮過程における誤差を導入し、圧縮された画像の品質を劣化させることができる。 既存の手法では、量子化時に発生する列車のミスマッチ問題に対して、画像特徴の表現性に対する量子化のランダムな影響は未解決のままである。 本稿では、画像特徴相関を利用して量子化の影響を緩和する画像圧縮のための新しい量子化整流器(QR)法を提案する。 提案手法は,画像再構成の品質向上のために特徴表現性を保ちながら,定量的特徴量から不定量特徴量を予測するニューラルネットワークアーキテクチャを設計する。 我々は,既存のニューラルイメージコーデックにQRを統合するソフト・トゥ・プレクティブ・トレーニング手法を開発した。 評価では、QRを最先端のニューラルイメージコーデックに統合し、広く使用されているKodakベンチマークの強化モデルとベースラインを比較する。 その結果,QRによる一貫した符号化効率の向上と,実行時間の増加が認められた。

Neural image compression has been shown to outperform traditional image codecs in terms of rate-distortion performance. However, quantization introduces errors in the compression process, which can degrade the quality of the compressed image. Existing approaches address the train-test mismatch problem incurred during quantization, the random impact of quantization on the expressiveness of image features is still unsolved. This paper presents a novel quantization rectifier (QR) method for image compression that leverages image feature correlation to mitigate the impact of quantization. Our method designs a neural network architecture that predicts unquantized features from the quantized ones, preserving feature expressiveness for better image reconstruction quality. We develop a soft-to-predictive training technique to integrate QR into existing neural image codecs. In evaluation, we integrate QR into state-of-the-art neural image codecs and compare enhanced models and baselines on the widely-used Kodak benchmark. The results show consistent coding efficiency improvement by QR with a negligible increase in the running time.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# DreamPolisher: 幾何学的拡散による高品質テキスト・ツー・3D生成を目指して

DreamPolisher: Towards High-Quality Text-to-3D Generation via Geometric Diffusion ( http://arxiv.org/abs/2403.17237v1 )

ライセンス: Link先を確認
Yuanze Lin, Ronald Clark, Philip Torr, (参考訳) 本稿では,幾何学的ガイダンスを付加した新しいガウススティング法であるDreamPolisherについて紹介する。 近年, テキスト・ツー・3D生成手法の進歩が期待されているが, 一般的な手法では, 表示の一貫性とテクスチュラル・リッチネスの確保に失敗することが多い。 この問題はテキスト入力のみを扱うメソッドでは特に顕著になる。 これを解決するために,ビュー間の幾何学的整合性を実現する2段階のガウス・スプレイティング・アプローチを提案する。 当初、粗い3D生成は幾何最適化によって洗練されている。 その後,制御ネット駆動型精錬器と幾何整合項を組み合わせることで,生成した3Dアセットのテクスチャの忠実度と全体的な整合性を改善する。 さまざまなオブジェクトカテゴリにまたがる多様なテキストプロンプトに対する実証的な評価は、一貫したリアルな3Dオブジェクトを生成する上でドリームポーリッシャーの有効性を示し、テキストインストラクションのセマンティクスと密接に一致している。

We present DreamPolisher, a novel Gaussian Splatting based method with geometric guidance, tailored to learn cross-view consistency and intricate detail from textual descriptions. While recent progress on text-to-3D generation methods have been promising, prevailing methods often fail to ensure view-consistency and textural richness. This problem becomes particularly noticeable for methods that work with text input alone. To address this, we propose a two-stage Gaussian Splatting based approach that enforces geometric consistency among views. Initially, a coarse 3D generation undergoes refinement via geometric optimization. Subsequently, we use a ControlNet driven refiner coupled with the geometric consistency term to improve both texture fidelity and overall consistency of the generated 3D asset. Empirical evaluations across diverse textual prompts spanning various object categories demonstrate the efficacy of DreamPolisher in generating consistent and realistic 3D objects, aligning closely with the semantics of the textual instructions.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# ロボットサブタスクのポストホック解析における基礎モデルの時間的・意味的評価指標

Temporal and Semantic Evaluation Metrics for Foundation Models in Post-Hoc Analysis of Robotic Sub-tasks ( http://arxiv.org/abs/2403.17238v1 )

ライセンス: Link先を確認
Jonathan Salfity, Selma Wanna, Minkyu Choi, Mitch Pryor, (参考訳) タスク・アンド・モーション・プランニング(TAMP)における最近の研究は、品質ラベル付きデータによる言語制御ロボット軌道のトレーニング制御ポリシーが、エージェント・タスクの成功率を著しく向上させることを示している。 しかし、そのようなデータの不足は、これらの手法を一般的なユースケースに拡張する上で大きなハードルとなる。 この問題に対処するため,我々は,大規模言語モデル (LLM) と視覚言語モデル (VLM) を含む最近の基礎モデル (FM) のプロンプト戦略を活用することにより,トラジェクトリデータを時間的境界と自然言語に基づく記述サブタスクに分解する自動フレームワークを提案する。 我々のフレームワークは、全軌道を構成する低レベルのサブタスクに対して、時間ベースの記述と言語ベースの記述の両方を提供する。 自動ラベリングフレームワークの品質を厳格に評価するために,時間的類似性と意味的類似性という2つの新しい指標を生成するアルゴリズムSIMILARITYを提案する。 このメトリクスは,2つのサブタスク分解,すなわちFMサブタスク分解予測と基底トラックサブタスク分解の間の言語記述の時間的アライメントと意味的忠実度を測定する。 提案手法の有効性を実証し,複数のロボット環境におけるランダム化されたベースラインの30%に対して,時間的類似度と意味的類似度が90%以上であることを示す。 この結果から,ロボットTAMPの改良を目的とした多種多様な大規模言語教師付きデータセットの構築が可能となった。

Recent works in Task and Motion Planning (TAMP) show that training control policies on language-supervised robot trajectories with quality labeled data markedly improves agent task success rates. However, the scarcity of such data presents a significant hurdle to extending these methods to general use cases. To address this concern, we present an automated framework to decompose trajectory data into temporally bounded and natural language-based descriptive sub-tasks by leveraging recent prompting strategies for Foundation Models (FMs) including both Large Language Models (LLMs) and Vision Language Models (VLMs). Our framework provides both time-based and language-based descriptions for lower-level sub-tasks that comprise full trajectories. To rigorously evaluate the quality of our automatic labeling framework, we contribute an algorithm SIMILARITY to produce two novel metrics, temporal similarity and semantic similarity. The metrics measure the temporal alignment and semantic fidelity of language descriptions between two sub-task decompositions, namely an FM sub-task decomposition prediction and a ground-truth sub-task decomposition. We present scores for temporal similarity and semantic similarity above 90%, compared to 30% of a randomized baseline, for multiple robotic environments, demonstrating the effectiveness of our proposed framework. Our results enable building diverse, large-scale, language-supervised datasets for improved robotic TAMP.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# グラフニューラルネットワークによる製造サービス能力予測

Manufacturing Service Capability Prediction with Graph Neural Networks ( http://arxiv.org/abs/2403.17239v1 )

ライセンス: Link先を確認
Yunqing Li, Xiaorui Liu, Binil Starly, (参考訳) 現在の状況では、製造業者から製造能力を識別する主要な方法はキーワードマッチングとセマンティックマッチングに大きく依存している。 しかし、これらの手法は、貴重な隠れ情報を見落としたり、重要なデータを誤解釈することで、しばしば不足する。 結果として、そのようなアプローチは製造業者の能力を不完全に識別する結果となった。 このことは、製造能力の同定の正確性と完全性を高めるために、データ駆動型ソリューションの必要性を浮き彫りにしている。 そこで本研究では,知識グラフ上でのサービス機能識別を実現するために,グラフニューラルネットワークを用いた手法を提案する。 識別性能を向上させるため,本研究では,グラフノードの近傍からの情報収集や,グラフデータのオーバーサンプリングを行う新しい手法を導入する。 製造サービス知識グラフおよびその後のアブレーション研究に基づく評価は,提案手法の有効性とロバスト性を示すものである。 本研究は, 製造サービス能力の推測方法として革新的なだけでなく, 製造サービス知識グラフの品質向上にも寄与する。

In the current landscape, the predominant methods for identifying manufacturing capabilities from manufacturers rely heavily on keyword matching and semantic matching. However, these methods often fall short by either overlooking valuable hidden information or misinterpreting critical data. Consequently, such approaches result in an incomplete identification of manufacturers' capabilities. This underscores the pressing need for data-driven solutions to enhance the accuracy and completeness of manufacturing capability identification. To address the need, this study proposes a Graph Neural Network-based method for manufacturing service capability identification over a knowledge graph. To enhance the identification performance, this work introduces a novel approach that involves aggregating information from the graph nodes' neighborhoods as well as oversampling the graph data, which can be effectively applied across a wide range of practical scenarios. Evaluations conducted on a Manufacturing Service Knowledge Graph and subsequent ablation studies demonstrate the efficacy and robustness of the proposed approach. This study not only contributes a innovative method for inferring manufacturing service capabilities but also significantly augments the quality of Manufacturing Service Knowledge Graphs.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# ニューラルネットワーク時代における$n$-gram平滑化の役割

The Role of $n$-gram Smoothing in the Age of Neural Networks ( http://arxiv.org/abs/2403.17240v1 )

ライセンス: Link先を確認
Luca Malagutti, Andrius Buinovskij, Anej Svete, Clara Meister, Afra Amini, Ryan Cotterell, (参考訳) 30年近くにわたって、$n$-gramの仮定から派生した言語モデルは、タスクの最先端を保った。 その成功の鍵は、オーバーフィッティングと戦うための様々なスムーズな技術の適用であった。 しかし、ニューラルネットワークモデルが最高のパフォーマーとして$n$-gramモデルに取って代わると、$n$-gramスムース化技術はより重要視されることはなかった。 実際、$n$-gramの平滑化技術に関する調査の行が休眠状態になったことを示唆するのは、下記の通りである。 本稿では,ニューラルネットワークモデルの時代において,古典的な$n$-gram平滑化技術が果たす役割を再オープン化する。 まず、ラベル平滑化、ニューラルネットワークモデルの一般的な正規化手法、および add-$\lambda$平滑化の形式的等価性を描く。 次に,n$-gramスムース化手法をニューラルネットワークモデルに適合する正規化器に変換するための一般化されたフレームワークを導出する。 我々の経験的結果は、我々の新しい正規化器は言語モデリングや機械翻訳において、ラベルのスムーズなスムーズさに匹敵するものであること、そして実際に、時には性能が優れていることを発見した。

For nearly three decades, language models derived from the $n$-gram assumption held the state of the art on the task. The key to their success lay in the application of various smoothing techniques that served to combat overfitting. However, when neural language models toppled $n$-gram models as the best performers, $n$-gram smoothing techniques became less relevant. Indeed, it would hardly be an understatement to suggest that the line of inquiry into $n$-gram smoothing techniques became dormant. This paper re-opens the role classical $n$-gram smoothing techniques may play in the age of neural language models. First, we draw a formal equivalence between label smoothing, a popular regularization technique for neural language models, and add-$\lambda$ smoothing. Second, we derive a generalized framework for converting \emph{any} $n$-gram smoothing technique into a regularizer compatible with neural language models. Our empirical results find that our novel regularizers are comparable to and, indeed, sometimes outperform label smoothing on language modeling and machine translation.
翻訳日:2024-03-27 19:16:39 公開日:2024-03-25
# c-d予想

The c-d conjecture ( http://arxiv.org/abs/2403.17242v1 )

ライセンス: Link先を確認
José I. Latorre, Germán Sierra, (参考訳) 局所的近傍臨界ハミルトニアンの1次元における局所次元$d$と最大中心電荷$c_{\text{max}}$の関係を予想する。 具体的には,$c_{\text{max}} \leq d-1$ を提案する。 この不等式は、UV格子とIR共形場理論の間の有効自由度を減少させる$c$-理論の一般的な形式と見なすことができる。 我々はこの予想を多くの例で支持する。

We conjecture a relation between the local dimension $d$ of a local nearest-neighbor critical Hamiltonian in one spatial dimension and the maximum central charge, $c_{\text{max}}$, that it can yield. Specifically, we propose that $c_{\text{max}} \leq d-1$, establishing a link between the short-distance lattice realization of a model and its emerging long-distance entanglement properties. This inequality can be viewed as a general form of a $c$-theorem establishing the reduction of effective degrees of freedom between the UV lattice and the IR conformal field theory. We support this conjecture with numerous examples.
翻訳日:2024-03-27 17:15:36 公開日:2024-03-25
# Ecosystems to access Educational XR Experiences: a Scoping Review

Review Ecosystems to access Educational XR Experiences: a Scoping Review ( http://arxiv.org/abs/2403.17243v1 )

ライセンス: Link先を確認
Shaun Bangay, Adam P. A. Cardilini, Sophie McKenzie, Maria Nicholas, Manjeet Singh, (参考訳) 教育者、開発者、その他のステークホルダーは、カリキュラムトピックを教えるためにバーチャルおよび拡張現実(XR)エクスペリエンスを作成し、適応し、利用する際に課題に直面します。 これらのアプリケーションのユーザによるレビューは、教育成果の達成を支援する上で、それらの妥当性と有効性に関する重要な情報を提供する。 これらのレビューをアクセスしやすく、関連性があり、有用なものにするためには、教育者による意思決定をサポートするフォーマットで簡単に提供し、提示する必要がある。 本稿では、インタラクティブな体験のレビューを提供するための既存のアプローチを分析し、新しいレビューエコシステムを構築するためのベストプラクティスを明らかにする。 これは、これらのレビューの形式と形式、および経験に関する情報を共有し、どのレビューが最も効果的かを特定するメカニズムに焦点を当てている。 また、レビュー作成とメンテナンスを推進し、新たな体験がレビュアーから注目を集め、必要に応じて関連情報が更新されることを保証するインセンティブについても検討する。 教育用XR(eduXR)レビューエコシステムを開発するための戦略と機会には、品質指標などの特性の測定方法、レビュープロセスにおける幅広い利害関係者の関与、フィードバックとインセンティブ構造によって管理されるクローズドループとしてシステムを構築すること、安定性と生産性を確保することが含まれる。 コンピューティング教育者は、XR体験と彼らが提供する教育と学習の潜在的な機会を関連付けることができる、これらのレビューエコシステムの開発を導くために、よく考えられている。

Educators, developers, and other stakeholders face challenges when creating, adapting, and utilizing virtual and augmented reality (XR) experiences for teaching curriculum topics. User created reviews of these applications provide important information about their relevance and effectiveness in supporting achievement of educational outcomes. To make these reviews accessible, relevant, and useful, they must be readily available and presented in a format that supports decision-making by educators. This paper identifies best practices for developing a new review ecosystem by analyzing existing approaches to providing reviews of interactive experiences. It focuses on the form and format of these reviews, as well as the mechanisms for sharing information about experiences and identifying which ones are most effective. The paper also examines the incentives that drive review creation and maintenance, ensuring that new experiences receive attention from reviewers and that relevant information is updated when necessary. The strategies and opportunities for developing an educational XR (eduXR) review ecosystem include methods for measuring properties such as quality metrics, engaging a broad range of stakeholders in the review process, and structuring the system as a closed loop managed by feedback and incentive structures to ensure stability and productivity. Computing educators are well-positioned to lead the development of these review ecosystems, which can relate XR experiences to the potential opportunities for teaching and learning that they offer.
翻訳日:2024-03-27 17:15:36 公開日:2024-03-25
# SPLICE: コアリゾリューションのためのシングルトン強化ピペリン

SPLICE: A Singleton-Enhanced PipeLIne for Coreference REsolution ( http://arxiv.org/abs/2403.17245v1 )

ライセンス: Link先を確認
Yilun Zhu, Siyao Peng, Sameer Pradhan, Amir Zeldes, (参考訳) シングルトンは、つまり、テキストの中で一度だけ言及される内容は、理論的な観点から人間が言論を理解する方法において重要であると言及している。 しかし、OntoNotesベンチマークにおけるシングルトン参照スパンの欠如により、英語のエンドツーエンドのニューラルコア参照解決にそれらの検出を組み込もうとする以前の試みは妨げられている。 本稿では,既存のネストネストNERシステムとOntoNotes構文木から派生した特徴を組み合わせることで,この制限に対処する。 このアプローチでは、OntoNotesデータセットのほぼ近似を、すべてのシングルトンの言及で生成し、金のシングルトンのサンプルに対して約94%のリコールを達成する。 次に、SPLICEと呼ばれる2段階のニューラル参照とコア参照解決システムを提案し、その性能をOntoNotesテストセットとOTOGUMコーパスの2つのシナリオでエンドツーエンドアプローチと比較する。 その結果、再構成シングルトントレーニングにより、OntoNotesのエンドツーエンドシステムに匹敵する結果が得られ、OOD安定性(+1.1 avg.F1)が向上した。 我々は、参照検出のためのエラー解析を行い、コア参照クラスタリングへの影響を掘り下げ、コア参照チェーンの解決のためのリコールの増加よりも精度の向上が大きなメリットをもたらすことを明らかにした。

Singleton mentions, i.e.~entities mentioned only once in a text, are important to how humans understand discourse from a theoretical perspective. However previous attempts to incorporate their detection in end-to-end neural coreference resolution for English have been hampered by the lack of singleton mention spans in the OntoNotes benchmark. This paper addresses this limitation by combining predicted mentions from existing nested NER systems and features derived from OntoNotes syntax trees. With this approach, we create a near approximation of the OntoNotes dataset with all singleton mentions, achieving ~94% recall on a sample of gold singletons. We then propose a two-step neural mention and coreference resolution system, named SPLICE, and compare its performance to the end-to-end approach in two scenarios: the OntoNotes test set and the out-of-domain (OOD) OntoGUM corpus. Results indicate that reconstructed singleton training yields results comparable to end-to-end systems for OntoNotes, while improving OOD stability (+1.1 avg. F1). We conduct error analysis for mention detection and delve into its impact on coreference clustering, revealing that precision improvements deliver more substantial benefits than increases in recall for resolving coreference chains.
翻訳日:2024-03-27 17:15:36 公開日:2024-03-25
# TwoStep: 古典的プランナーと大規模言語モデルを用いたマルチエージェントタスク計画

TwoStep: Multi-agent Task Planning using Classical Planners and Large Language Models ( http://arxiv.org/abs/2403.17246v1 )

ライセンス: Link先を確認
Ishika Singh, David Traum, Jesse Thomason, (参考訳) 計画ドメイン定義言語(PDDL)のような古典的な計画定式化は、可能であれば初期状態が与えられた目標状態を達成するために保証されたアクションシーケンスを認める。 しかし、PDDLで定義された推論問題は、アクションテイクの時間的側面を捉えない。例えば、ドメイン内の2つのエージェントが、それぞれのポストコンディションが他方のプレコンディションに干渉しない場合、同時にアクションを実行することができる。 人間の専門家は、ゴールを主に独立した構成部品に分解し、各エージェントをこれらのサブゴールの1つに割り当てて、計画手順の迅速な実行に同時アクションを活用する。 対照的に、計画手順を直接推論するために使われる大きな言語モデル(LLM)は、実行の成功を保証しないが、アクションシーケンスを組み立てるためにコモンセンス推論を利用する。 我々は,2エージェント計画目標分解のための人間の直感を近似することで,古典的計画とLLMの強みを組み合わせる。 LLMをベースとした目標分解は,複数エージェントのPDDL問題を直接解決すると同時に,単一エージェントの計画よりも少ない計画実行ステップを実現し,実行成功を保ちながら,より高速な計画時間を実現することを実証する。 さらに,LLMに基づくサブゴールの近似は,人間専門家が指定した手法と類似したマルチエージェント実行ステップを達成できることが判明した。 Webサイトとリソース - https://glamor-usc.github.io/twostep

Classical planning formulations like the Planning Domain Definition Language (PDDL) admit action sequences guaranteed to achieve a goal state given an initial state if any are possible. However, reasoning problems defined in PDDL do not capture temporal aspects of action taking, for example that two agents in the domain can execute an action simultaneously if postconditions of each do not interfere with preconditions of the other. A human expert can decompose a goal into largely independent constituent parts and assign each agent to one of these subgoals to take advantage of simultaneous actions for faster execution of plan steps, each using only single agent planning. By contrast, large language models (LLMs) used for directly inferring plan steps do not guarantee execution success, but do leverage commonsense reasoning to assemble action sequences. We combine the strengths of classical planning and LLMs by approximating human intuitions for two-agent planning goal decomposition. We demonstrate that LLM-based goal decomposition leads to faster planning times than solving multi-agent PDDL problems directly while simultaneously achieving fewer plan execution steps than a single agent plan alone and preserving execution success. Additionally, we find that LLM-based approximations of subgoals can achieve similar multi-agent execution steps than those specified by human experts. Website and resources at https://glamor-usc.github.io/twostep
翻訳日:2024-03-27 17:15:36 公開日:2024-03-25
# DASA: 遅延適応型マルチエージェント確率近似

DASA: Delay-Adaptive Multi-Agent Stochastic Approximation ( http://arxiv.org/abs/2403.17247v1 )

ライセンス: Link先を確認
Nicolo Dal Fabbro, Arman Adibi, H. Vincent Poor, Sanjeev R. Kulkarni, Aritra Mitra, George J. Pappas, (参考訳) 我々は,Stochastic Approximation (SA) 問題を並列に動作し,中央サーバと通信することで高速化することを目的としている。 サーバへのアップリンク送信は、非同期で潜在的に非バウンドな時間変化の遅延にさらされていると仮定する。 分散計算の利点を享受しながら遅延とストラグラーの効果を緩和するため,マルチエージェント確率近似のための遅延適応アルゴリズムである \texttt{DASA} を提案する。 エージェントの確率的観察過程が独立なマルコフ連鎖であることを仮定して、 texttt{DASA} の有限時間解析を行う。 既存の結果を前進させる最初のアルゴリズムは、収束速度が混合時間$\tmix$と平均遅延$\tau_{avg}$にのみ依存するが、マルコフサンプリングでは$N$倍収束速度を共同で達成する。 我々の研究は、マルチエージェントおよび分散時間差学習(TD)、Qラーニング、相関データによる確率的最適化など、様々なSAアプリケーションに関係している。

We consider a setting in which $N$ agents aim to speedup a common Stochastic Approximation (SA) problem by acting in parallel and communicating with a central server. We assume that the up-link transmissions to the server are subject to asynchronous and potentially unbounded time-varying delays. To mitigate the effect of delays and stragglers while reaping the benefits of distributed computation, we propose \texttt{DASA}, a Delay-Adaptive algorithm for multi-agent Stochastic Approximation. We provide a finite-time analysis of \texttt{DASA} assuming that the agents' stochastic observation processes are independent Markov chains. Significantly advancing existing results, \texttt{DASA} is the first algorithm whose convergence rate depends only on the mixing time $\tmix$ and on the average delay $\tau_{avg}$ while jointly achieving an $N$-fold convergence speedup under Markovian sampling. Our work is relevant for various SA applications, including multi-agent and distributed temporal difference (TD) learning, Q-learning and stochastic optimization with correlated data.
翻訳日:2024-03-27 17:15:36 公開日:2024-03-25
# 種数2曲線のモジュライ空間の機械学習とポスト量子暗号への応用

Machine learning for moduli space of genus two curves and an application to post-quantum cryptography ( http://arxiv.org/abs/2403.17250v1 )

ライセンス: Link先を確認
Elira Shaska, Tony Shaska, (参考訳) 我々は機械学習を用いて、$(n, n)$-split Jacobian の属2曲線の軌跡 ${\mathcal L}_n$ を研究する。 より正確には、イグサ不変量に対して値を与える変換モデルを設計し、対応する種数 2 の曲線が ${\mathcal L}_n$, for $n=2, 3, 5, 7$ であるかどうかを決定する。 このような曲線は同種暗号において重要である。 この研究において、有理点 ${\mathfrak p} \in {\mathcal L}_n$ の重み付きモジュライ高さ $\leq 2$ は、${\mathcal L}_2$, ${\mathcal L}_3$, ${\mathcal L}_5$ のいずれにおいても存在しない。 これは、機械学習手法を用いて、属 2 代数曲線のモジュライ空間を研究するために、著者の以前の研究を拡張している。

We use machine learning to study the locus ${\mathcal L}_n$ of genus two curves with $(n, n)$-split Jacobian. More precisely we design a transformer model which given values for the Igusa invariants determines if the corresponding genus two curve is in the locus ${\mathcal L}_n$, for $n=2, 3, 5, 7$. Such curves are important in isogeny based cryptography. During this study we discover that there are no rational points ${\mathfrak p} \in {\mathcal L}_n$ with weighted moduli height $\leq 2$ in any of ${\mathcal L}_2$, ${\mathcal L}_3$, and ${\mathcal L}_5$. This extends on previous work of the authors to use machine learning methods to study the moduli space of genus 2 algebraic curves.
翻訳日:2024-03-27 17:15:36 公開日:2024-03-25
# かなり悪い測定値

The pretty bad measurement ( http://arxiv.org/abs/2403.17252v1 )

ライセンス: Link先を確認
Caleb McIrvin, Ankith Mohan, Jamie Sikora, (参考訳) 量子状態判別問題はアリスがボブに量子状態を送り、その状態が正しく特定されれば勝利する。 正方形根の測定としても知られる、かなり良い測定は、このタスクでかなりうまく機能する。 我々は、ボブが可能な限り最も高い確率で失おうとする(これは音よりも難しい)この問題のバージョンについて研究する。 私たちは、このタスクでかなりうまく機能する、あるいは言い換えれば、元のタスクではかなり不十分な、かなり悪い測定値を定義します。 かなり良い測定値とかなり悪い測定値の両方が、それぞれのタスクについて盲目で推測するよりも、常に悪いことであることを示す。 応用として、量子状態異常検出問題にかなり悪い測定を適用し、かなり悪い量子ビットを避ける方法を示す。

The quantum state discrimination problem has Alice sending a quantum state to Bob who wins if he correctly identifies the state. The pretty good measurement, also known as the square root measurement, performs pretty well at this task. We study the version of this problem where Bob tries to lose with the greatest probability possible (which is harder than it sounds). We define the pretty bad measurement which performs pretty well at this task, or in other words, pretty poorly for the original task. We show that both the pretty good measurement and the pretty bad measurement are always no worse than blind guessing at their respective tasks. As an application, we apply the pretty bad measurement to the quantum state anomaly detection problem and show how to avoid pretty bad qubits.
翻訳日:2024-03-27 17:15:36 公開日:2024-03-25
# 干渉によるレーザー光を単一光子に変換する

Convert laser light into single photons via interference ( http://arxiv.org/abs/2403.17253v1 )

ライセンス: Link先を確認
Yanfeng Li, Manman Wang, Guoqi Huang, Li Liu, Wenyan Wang, Weijie Ji, Hanqing Liu, Xiangbin Su, Shulun Li, Deyan Dai, Xiangjun Shang, Haiqiao Ni, Zhichuan Niu, Chengyong Hu, (参考訳) レーザー光は完全コヒーレンスを持つが、線形光学によって単一の光子に減衰することはできない。 レーザー光を単一光子に変換するエレガントな経路は、強い結合状態にある単一の原子を持つキャビティ内の光子遮断に基づいている。 しかし、この方法で得られる単一光子純度は比較的低いままである。 本稿では、共振器結合から単一量子エミッタに放出される弱いが超束縛された非コヒーレント場と破壊的に干渉することにより、レーザ光を単一光子に変換する干渉ベースのアプローチを提案する。 このアイデアは、Purcell系に1つの人工原子量子ドット(QD)を含む両面光マイクロキャビティを駆動するレーザー場の反射光を測定することで実証される。 反射光は、キャビティ出力場を備えた駆動場の重ね合わせからなる。 2次自己相関g2(0)=0.030+-0.002と2光子干渉可視性94.3%+-0.2を達成する。 反射光中でのコヒーレント場と非コヒーレント場を分離することにより、空洞からの非コヒーレント場が g2(0)=41+-2 の超バンチングを示すのに対して、コヒーレント場はポアソン統計のままである。 我々は、コヒーレント場と非コヒーレント場の相対振幅を制御することにより、反射光の光子統計が、我々の予測と一致して完全な反バンチングから超バンチングに調整可能であることを検証した。 本研究は, 量子干渉現象として, 単一QDが2つの光子を同時に低駆動場に散乱できることを示すとともに, 単一の2レベル量子エミッタが単一光子を散乱(あるいは吸収, 放出)できるのに対して, 単一のQDが2つの光子を同時に散乱できることを示す。 この研究は、空洞または導波路量子力学と干渉によるレーザー光の光子統計を調整するための扉を開く。

Laser light possesses perfect coherence, but cannot be attenuated to single photons via linear optics. An elegant route to convert laser light into single photons is based on photon blockade in a cavity with a single atom in the strong coupling regime. However, the single-photon purity achieved by this method remains relatively low. Here we propose an interference-based approach where laser light can be transformed into single photons by destructively interfering with a weak but super-bunched incoherent field emitted from a cavity coupling to a single quantum emitter. We demonstrate this idea by measuring the reflected light of a laser field which drives a double-sided optical microcavity containing a single artificial atom-quantum dot (QD) in the Purcell regime. The reflected light consists of a superposition of the driving field with the cavity output field. We achieve the second-order autocorrelation g2(0)=0.030+-0.002 and the two-photon interference visibility 94.3%+-0.2. By separating the coherent and incoherent fields in the reflected light, we observe that the incoherent field from the cavity exhibits super-bunching with g2(0)=41+-2 while the coherent field remains Poissonian statistics. By controlling the relative amplitude of coherent and incoherent fields, we verify that photon statistics of reflected light is tuneable from perfect anti-bunching to super-bunching in agreement with our predictions. Our results demonstrate photon statistics of light as a quantum interference phenomenon that a single QD can scatter two photons simultaneously at low driving fields in contrast to the common picture that a single two-level quantum emitter can only scatter (or absorb and emit) single photons. This work opens the door to tailoring photon statistics of laser light via cavity or waveguide quantum electrodynamics and interference.
翻訳日:2024-03-27 17:15:36 公開日:2024-03-25
# 伝達学習を用いたアスペクトベース感性分析へのハイブリッドアプローチ

A Hybrid Approach To Aspect Based Sentiment Analysis Using Transfer Learning ( http://arxiv.org/abs/2403.17254v1 )

ライセンス: Link先を確認
Gaurav Negi, Rajdeep Sarkar, Omnia Zayed, Paul Buitelaar, (参考訳) Aspect-Based Sentiment Analysis (ABSA) は、感情が表現される用語やマルチワード表現(MWE)を識別することを目的としている。 教師付きモデルの開発は、この分野の研究の最前線にある。 しかし、これらのモデルをトレーニングするには、高価かつ時間を要する手動のアノテートデータセットが必要である。 さらに、利用可能なアノテーション付きデータセットは、特定のドメイン、言語、テキストタイプに合わせて調整される。 本研究では,現在最先端のABSA研究において,この課題に対処する。 本稿では,移動学習を用いたアスペクトベース感性分析のためのハイブリッド手法を提案する。 このアプローチは、大きな言語モデル(LLM)と従来の構文的依存関係の両方の長所を利用して、弱い教師付きアノテーションを生成することに焦点を当てている。 文の構文的依存構造を利用して、LLMが生成するアノテーションを補完する。 複数のデータセットに対する大規模な実験を行い、アスペクト項抽出とアスペクト感情分類のタスクに対するハイブリッド手法の有効性を実証した。 キーワード:アスペクトベースの知覚分析、構文解析、大言語モデル(LLM)

Aspect-Based Sentiment Analysis (ABSA) aims to identify terms or multiword expressions (MWEs) on which sentiments are expressed and the sentiment polarities associated with them. The development of supervised models has been at the forefront of research in this area. However, training these models requires the availability of manually annotated datasets which is both expensive and time-consuming. Furthermore, the available annotated datasets are tailored to a specific domain, language, and text type. In this work, we address this notable challenge in current state-of-the-art ABSA research. We propose a hybrid approach for Aspect Based Sentiment Analysis using transfer learning. The approach focuses on generating weakly-supervised annotations by exploiting the strengths of both large language models (LLM) and traditional syntactic dependencies. We utilise syntactic dependency structures of sentences to complement the annotations generated by LLMs, as they may overlook domain-specific aspect terms. Extensive experimentation on multiple datasets is performed to demonstrate the efficacy of our hybrid method for the tasks of aspect term extraction and aspect sentiment classification. Keywords: Aspect Based Sentiment Analysis, Syntactic Parsing, large language model (LLM)
翻訳日:2024-03-27 17:15:36 公開日:2024-03-25
# 病理医の視覚的注意を復号して専門知識のレベルを明らかにする

Decoding the visual attention of pathologists to reveal their level of expertise ( http://arxiv.org/abs/2403.17255v1 )

ライセンス: Link先を確認
Souradeep Chakraborty, Dana Perez, Paul Friedman, Natallia Sheuka, Constantin Friedman, Oksana Yaskiv, Rajarsi Gupta, Gregory J. Zelinsky, Joel H. Saltz, Dimitris Samaras, (参考訳) 本研究は, がん検診における注意の配分方法に基づいて, 病理医の専門知識を分類する手法を提案する。 本研究は,前立腺全スライディング画像(WSI)を読み,がん学級分類を作成することによって,病理医の注意を予測できる新しい手法を開発することで,この復号化作業に従事している。 病理学者が注意を払っているのは、読み上げ中にWSIを通ったときのビューポートのx, y, zの動きであり、現在までに123WSIを読んでいる43人の病理医の注意行動がある。 これらのデータから, 一般病理医や住民と比較して, 注意度とがん度は高く, 注意行動に十分な情報が存在する可能性が示唆された。 そこで我々は,Gleason グレーディング中の住民,一般,専門医(GU)の視覚的注意熱マップを予測するために,トランスフォーマーに基づくモデルを訓練した。 読み上げ時の病理学者の注意のみに基づいて、我々のモデルは、それぞれ75.3%、56.1%、77.2%の精度で彼らの専門知識のレベルを予測することができた。 そこで本モデルは,病理学の専門知識レベルを,病理学のトレーニングや能力評価において,容易かつ客観的に評価することを可能にした。 私たちのモデルから開発されたツールは、病理研修生が専門家のようにWSIを読む方法を学ぶのを助けるためにも使えます。

We present a method for classifying the expertise of a pathologist based on how they allocated their attention during a cancer reading. We engage this decoding task by developing a novel method for predicting the attention of pathologists as they read whole-slide Images (WSIs) of prostate and make cancer grade classifications. Our ground truth measure of a pathologists' attention is the x, y and z (magnification) movement of their viewport as they navigated through WSIs during readings, and to date we have the attention behavior of 43 pathologists reading 123 WSIs. These data revealed that specialists have higher agreement in both their attention and cancer grades compared to general pathologists and residents, suggesting that sufficient information may exist in their attention behavior to classify their expertise level. To attempt this, we trained a transformer-based model to predict the visual attention heatmaps of resident, general, and specialist (GU) pathologists during Gleason grading. Based solely on a pathologist's attention during a reading, our model was able to predict their level of expertise with 75.3%, 56.1%, and 77.2% accuracy, respectively, better than chance and baseline models. Our model therefore enables a pathologist's expertise level to be easily and objectively evaluated, important for pathology training and competency assessment. Tools developed from our model could also be used to help pathology trainees learn how to read WSIs like an expert.
翻訳日:2024-03-27 17:15:36 公開日:2024-03-25
# リンク予測のためのグラフ上の拡散型負サンプリング

Diffusion-based Negative Sampling on Graphs for Link Prediction ( http://arxiv.org/abs/2403.17259v1 )

ライセンス: Link先を確認
Trung-Kien Nguyen, Yuan Fang, (参考訳) リンク予測は、ソーシャルネットワーク分析やレコメンデーションシステムなど、Web上の重要なアプリケーションを用いたグラフ解析の基本的なタスクである。 現代のグラフリンク予測法は、しばしば負のサンプリングが中心となるロバストなノード表現を学習するための対照的なアプローチを用いる。 典型的な負のサンプリング手法は、既定のヒューリスティックまたは自動対向アプローチに基づいてハードサンプルを検索することを目的としており、これは非フレキシブルまたは制御が困難である。 さらに、リンク予測の文脈では、ほとんどの従来の手法はグラフの既存の部分構造から負のノードをサンプリングし、潜在空間における潜在的に最適なサンプルを欠いている。 これらの問題に対処するため、我々は、潜在空間からフレキシブルかつ制御可能な ``hardness'' レベルの負ノード生成を可能にするマルチレベル負サンプリングの新たな戦略について検討する。 条件拡散に基づく多値負サンプリング (DMNS) と呼ばれる手法は, 拡散モデルのマルコフ連鎖特性を利用して, 可変硬度の複数レベルにおいて負のノードを生成し, グラフリンク予測を効果的に行う。 さらに, DMNSはロバストな負サンプリングのためのサブ線形正の原理に従うことを実証した。 いくつかのベンチマークデータセットに対する大規模な実験は、DMNSの有効性を実証している。

Link prediction is a fundamental task for graph analysis with important applications on the Web, such as social network analysis and recommendation systems, etc. Modern graph link prediction methods often employ a contrastive approach to learn robust node representations, where negative sampling is pivotal. Typical negative sampling methods aim to retrieve hard examples based on either predefined heuristics or automatic adversarial approaches, which might be inflexible or difficult to control. Furthermore, in the context of link prediction, most previous methods sample negative nodes from existing substructures of the graph, missing out on potentially more optimal samples in the latent space. To address these issues, we investigate a novel strategy of multi-level negative sampling that enables negative node generation with flexible and controllable ``hardness'' levels from the latent space. Our method, called Conditional Diffusion-based Multi-level Negative Sampling (DMNS), leverages the Markov chain property of diffusion models to generate negative nodes in multiple levels of variable hardness and reconcile them for effective graph link prediction. We further demonstrate that DMNS follows the sub-linear positivity principle for robust negative sampling. Extensive experiments on several benchmark datasets demonstrate the effectiveness of DMNS.
翻訳日:2024-03-27 17:15:36 公開日:2024-03-25
# CausalWorld:知識伝達とカリキュラム学習によるロボット操作の強化

Exploring CausalWorld: Enhancing robotic manipulation via knowledge transfer and curriculum learning ( http://arxiv.org/abs/2403.17266v1 )

ライセンス: Link先を確認
Xinrui Wang, Yan Jin, (参考訳) 本研究では,指間の複雑な動きと協調を必要とする,学習に基づく三指ロボットアーム操作タスクについて検討する。 強化学習を利用することで、エージェントに熟練した操作に必要なスキルを習得するよう訓練する。 学習プロセスの効率性と有効性を高めるため,ソフトアクター・クリティック・アーキテクチャにおいて,微調整とカリキュラム学習という2つの知識伝達戦略を利用した。 微調整により、エージェントは訓練済みの知識を活用して、新しいタスクに適応することができる。 モデル転送、ポリシー転送、タスク間転送などの様々なバリエーションを実装し、評価した。 事前学習の必要をなくすために、カリキュラム学習は、高度なタスクをより単純で進歩的な段階に分解し、人間がどのように学習するかを反映する。 学習ステージ数,サブタスクのコンテキスト,遷移タイミングが重要な設計パラメータであることがわかった。 2つの学習戦略とそれに対応する効果の鍵となる要因を、文脈認識および文脈認識のシナリオで探索し、手法が最適な性能を示すシナリオを特定し、決定的な洞察を導き、学習に基づく幅広い工学的応用に寄与する。

This study explores a learning-based tri-finger robotic arm manipulating task, which requires complex movements and coordination among the fingers. By employing reinforcement learning, we train an agent to acquire the necessary skills for proficient manipulation. To enhance the efficiency and effectiveness of the learning process, two knowledge transfer strategies, fine-tuning and curriculum learning, were utilized within the soft actor-critic architecture. Fine-tuning allows the agent to leverage pre-trained knowledge and adapt it to new tasks. Several variations like model transfer, policy transfer, and across-task transfer were implemented and evaluated. To eliminate the need for pretraining, curriculum learning decomposes the advanced task into simpler, progressive stages, mirroring how humans learn. The number of learning stages, the context of the sub-tasks, and the transition timing were found to be the critical design parameters. The key factors of two learning strategies and corresponding effects were explored in context-aware and context-unaware scenarios, enabling us to identify the scenarios where the methods demonstrate optimal performance, derive conclusive insights, and contribute to a broader range of learning-based engineering applications.
翻訳日:2024-03-27 17:15:36 公開日:2024-03-25
# 普遍量子ニューラルネットワークによる想像時間進化の正確なブロック符号化

Exact block encoding of imaginary time evolution with universal quantum neural networks ( http://arxiv.org/abs/2403.17273v1 )

ライセンス: Link先を確認
Ermal Rrapaj, Evan Rule, (参考訳) 我々は、多体量子ビットハミルトニアンの正確な熱状態を表現できる量子ニューラルネットワークを生成するための構成的アプローチを開発する。 虚時プロパゲータのトロッター展開は、一元的に制限されたボルツマンマシンアーキテクチャを用いて、正確なブロック符号化によって実現される。 隠された層状ニューロン(副次量子ビット)へのマージナル化は、可視層に非単体的作用を生じさせる。 次に、隠れた層量子ビットが他の隠れた量子ビットと横に結合することを許すような、一元的なディープボルツマンマシンアーキテクチャを導入する。 我々は、この波動関数 ansatz が虚時プロパゲータの作用の下で閉じており、より一般的には、普遍的な量子ゲート演算の作用を表現することができることを証明した。 両アーキテクチャの係数の解析式を提供し,ネットワークパラメータの確率的最適化を伴わずに,熱状態の正確なネットワーク表現を可能にする。 大きな想像時間の限界において、アンザッツは系の基底状態を生成する。 キュービットの数は、固定された相互作用順序に対するシステムサイズと総想像時間とともに直線的に増加する。 どちらのネットワークも、補助量子ビットの中間回路測定によって量子ハードウェア上で容易に実装できる。 補助量子ビットが1つだけ測定されリセットされた場合、回路深さは、その幅が一定である間、想像時間とシステムサイズに線形にスケールする。 あるいは、システムサイズに線形に比例した複数の補助量子ビットを使用でき、回路深さは想像時間のみに線形に成長する。

We develop a constructive approach to generate quantum neural networks capable of representing the exact thermal states of all many-body qubit Hamiltonians. The Trotter expansion of the imaginary-time propagator is implemented through an exact block encoding by means of a unitary, restricted Boltzmann machine architecture. Marginalization over the hidden-layer neurons (auxiliary qubits) creates the non-unitary action on the visible layer. Then, we introduce a unitary deep Boltzmann machine architecture, in which the hidden-layer qubits are allowed to couple laterally to other hidden qubits. We prove that this wave function ansatz is closed under the action of the imaginary-time propagator and, more generally, can represent the action of a universal set of quantum gate operations. We provide analytic expressions for the coefficients for both architectures, thus enabling exact network representations of thermal states without stochastic optimization of the network parameters. In the limit of large imaginary time, the ansatz yields the ground state of the system. The number of qubits grows linearly with the system size and total imaginary time for a fixed interaction order. Both networks can be readily implemented on quantum hardware via mid-circuit measurements of auxiliary qubits. If only one auxiliary qubit is measured and reset, the circuit depth scales linearly with imaginary time and system size, while the width is constant. Alternatively, one can employ a number of auxiliary qubits linearly proportional to the system size, and circuit depth grows linearly with imaginary time only.
翻訳日:2024-03-27 17:15:36 公開日:2024-03-25
# 単一光子LiDARの分解能限界

Resolution Limit of Single-Photon LiDAR ( http://arxiv.org/abs/2403.17719v1 )

ライセンス: Link先を確認
Stanley H. Chan, Hashan K. Weerasooriya, Weijian Zhang, Pamela Abshire, Istvan Gyongy, Robert K. Henderson, (参考訳) 単光子光検出・ラングリング(LiDAR)システムは、空間分解能とセンシング速度を改善するための検出器の配列を備えていることが多い。 しかし、レーザー送信機によってシーン全体に生じる一定の量のフラックスが与えられると、単位空間により多くのピクセルを詰め込むと、SNR(Philipal-to-Noise Ratio)は減少する。 これにより、センサアレイの空間分解能と各画素で受信されるSNRとの間には、根本的なトレードオフが生じる。 この基本的な限界の理論的特徴を探求する。 光子到着統計を導出し、新しい近似手法を導入することにより、時間遅延の最大値推定器の平均正方形誤差(MSE)を導出する。 理論予測はシミュレーションや実データとよく一致している。

Single-photon Light Detection and Ranging (LiDAR) systems are often equipped with an array of detectors for improved spatial resolution and sensing speed. However, given a fixed amount of flux produced by the laser transmitter across the scene, the per-pixel Signal-to-Noise Ratio (SNR) will decrease when more pixels are packed in a unit space. This presents a fundamental trade-off between the spatial resolution of the sensor array and the SNR received at each pixel. Theoretical characterization of this fundamental limit is explored. By deriving the photon arrival statistics and introducing a series of new approximation techniques, the Mean Squared Error (MSE) of the maximum-likelihood estimator of the time delay is derived. The theoretical predictions align well with simulations and real data.
翻訳日:2024-03-27 15:08:05 公開日:2024-03-25
# 対話レコメンデーションのための生成ユーザシミュレータとしての大規模言語モデルの評価

Evaluating Large Language Models as Generative User Simulators for Conversational Recommendation ( http://arxiv.org/abs/2403.09738v4 )

ライセンス: Link先を確認
Se-eun Yoon, Zhankui He, Jessica Maria Echterhoff, Julian McAuley, (参考訳) 合成ユーザは,対話レコメンデーションシステムの評価において,実際のユーザにとって費用対効果の高いプロキシである。 大規模言語モデルは、人間の様態をシミュレートし、多様なユーザーを表わす能力の疑問を提起する。 本稿では,言語モデルが対話的推薦において人間の行動を正確にエミュレートできる程度を測定するための新しいプロトコルを提案する。 このプロトコルは5つのタスクから構成されており、それぞれのタスクは、合成ユーザが提示すべき重要な特性、すなわち、どのアイテムについて話すべきかの選択、バイナリの好みの表現、オープンな好みの表現、レコメンデーションの要求、フィードバックの付与である。 ベースラインシミュレータの評価を通じて、これらのタスクは人間の行動から言語モデルの逸脱を効果的に明らかにし、モデル選択と促進戦略による逸脱を減らす方法についての洞察を与える。

Synthetic users are cost-effective proxies for real users in the evaluation of conversational recommender systems. Large language models show promise in simulating human-like behavior, raising the question of their ability to represent a diverse population of users. We introduce a new protocol to measure the degree to which language models can accurately emulate human behavior in conversational recommendation. This protocol is comprised of five tasks, each designed to evaluate a key property that a synthetic user should exhibit: choosing which items to talk about, expressing binary preferences, expressing open-ended preferences, requesting recommendations, and giving feedback. Through evaluation of baseline simulators, we demonstrate these tasks effectively reveal deviations of language models from human behavior, and offer insights on how to reduce the deviations with model selection and prompting strategies.
翻訳日:2024-03-27 12:07:52 公開日:2024-03-25
# 第四次価値ニューラルネットワークと第四次バックプロパゲーションを用いた時系列圧縮

Time Series Compression using Quaternion Valued Neural Networks and Quaternion Backpropagation ( http://arxiv.org/abs/2403.11722v2 )

ライセンス: Link先を確認
Johannes Pöppelbaum, Andreas Schwung, (参考訳) 本稿では,長い時系列をデータセグメントに分割し,各チャンクの最小値,最大値,平均値,標準偏差を代表的特徴として抽出し,それを四元数にカプセル化し,四元数価値の時系列を生成する,新しい四元数時系列圧縮手法を提案する。 この時系列は、四元数重畳されたニューラルネットワーク層を用いて処理され、ハミルトン製品を用いてこれらの特徴間の関係を保存することを目的としている。 この四元数ニューラルネットワークをトレーニングするためには、四元数空間における有効積と連鎖規則に必要となるGHR法を用いて四元数バックプロパゲーションを導出する。 さらに,得られた更新規則と自動微分との関係について検討した。 提案手法をテネシー・イーストマン・データセットに適用し、圧縮されたデータを用いて断層分類を行う。 いずれの場合も、実際の値付きモデルと2つのベースラインモデルを上回るパフォーマンスを実現しました。 さらに,SimCLR-TSが設定した分類基準を81.43%から83.90%に改善することができた。

We propose a novel quaternionic time-series compression methodology where we divide a long time-series into segments of data, extract the min, max, mean and standard deviation of these chunks as representative features and encapsulate them in a quaternion, yielding a quaternion valued time-series. This time-series is processed using quaternion valued neural network layers, where we aim to preserve the relation between these features through the usage of the Hamilton product. To train this quaternion neural network, we derive quaternion backpropagation employing the GHR calculus, which is required for a valid product and chain rule in quaternion space. Furthermore, we investigate the connection between the derived update rules and automatic differentiation. We apply our proposed compression method on the Tennessee Eastman Dataset, where we perform fault classification using the compressed data in two settings: a fully supervised one and in a semi supervised, contrastive learning setting. Both times, we were able to outperform real valued counterparts as well as two baseline models: one with the uncompressed time-series as the input and the other with a regular downsampling using the mean. Further, we could improve the classification benchmark set by SimCLR-TS from 81.43% to 83.90%.
翻訳日:2024-03-27 10:04:45 公開日:2024-03-25
# 協調訓練による前処理防衛の白箱ロバスト性向上

Improving White-box Robustness of Pre-processing Defenses via Joint Adversarial Training ( http://arxiv.org/abs/2106.05453v2 )

ライセンス: Link先を確認
Dawei Zhou, Nannan Wang, Xinbo Gao, Bo Han, Jun Yu, Xiaoyu Wang, Tongliang Liu, (参考訳) ディープニューラルネットワーク(DNN)は敵の雑音に弱い。 入力前処理方式は拡張性が高く,DNNの保護に大きな可能性を示す。 しかし, 前処理法は, ホワイトボックス設定における対象モデルの対角的ロバスト性を改善するよりも, 防御性が低下するロバスト性劣化効果に悩まされる可能性がある。 この負の効果の潜在的な原因は、敵の訓練例が静的であり、前処理モデルとは独立していることである。 この問題を解決するために,本研究では,全モデルに対して製作された全対角的実例の影響について検討し,防衛の堅牢性に肯定的な影響を与えることを確認した。 さらに,前処理法における逆行訓練例の変更は,ロバストネス劣化効果を完全に緩和するものではないことがわかった。 これは、事前処理されたモデルが無視されるという敵意的なリスクのためであり、これはロバストネス劣化効果の別の原因である。 以上の分析から,JATP(Joint Adversarial Training Based Pre-processing)防衛法を提案する。 具体的には、特徴空間で見られる全対角的例を用いて、前処理モデルに対する特徴類似性に基づく対角的リスクを定式化する。 標準的な逆数トレーニングとは異なり、前処理モデルのみを更新するので、クロスモデル転送性を改善するためにピクセルワイズロスを導入する必要がある。 そして、この全体的なリスクを最小限に抑えるために、前処理モデルで共同で敵の訓練を行う。 実験結果から,本手法は従来の最先端手法と比較して,異なる対象モデル間のロバストネス劣化効果を効果的に軽減できることが示された。

Deep neural networks (DNNs) are vulnerable to adversarial noise. A range of adversarial defense techniques have been proposed to mitigate the interference of adversarial noise, among which the input pre-processing methods are scalable and show great potential to safeguard DNNs. However, pre-processing methods may suffer from the robustness degradation effect, in which the defense reduces rather than improving the adversarial robustness of a target model in a white-box setting. A potential cause of this negative effect is that adversarial training examples are static and independent to the pre-processing model. To solve this problem, we investigate the influence of full adversarial examples which are crafted against the full model, and find they indeed have a positive impact on the robustness of defenses. Furthermore, we find that simply changing the adversarial training examples in pre-processing methods does not completely alleviate the robustness degradation effect. This is due to the adversarial risk of the pre-processed model being neglected, which is another cause of the robustness degradation effect. Motivated by above analyses, we propose a method called Joint Adversarial Training based Pre-processing (JATP) defense. Specifically, we formulate a feature similarity based adversarial risk for the pre-processing model by using full adversarial examples found in a feature space. Unlike standard adversarial training, we only update the pre-processing model, which prompts us to introduce a pixel-wise loss to improve its cross-model transferability. We then conduct a joint adversarial training on the pre-processing model to minimize this overall risk. Empirical results show that our method could effectively mitigate the robustness degradation effect across different target models in comparison to previous state-of-the-art approaches.
翻訳日:2024-03-27 06:12:57 公開日:2024-03-25
# EVOTER: 透明な説明可能なルールセットの進化

EVOTER: Evolution of Transparent Explainable Rule-sets ( http://arxiv.org/abs/2204.10438v4 )

ライセンス: Link先を確認
Hormoz Shahrzad, Babak Hodjat, Risto Miikkulainen, (参考訳) ほとんどのAIシステムは、与えられた入力に対して適切な出力を生成するブラックボックスである。 しかし、いくつかのドメインは、これらのアプローチで直接満足できない説明可能性と信頼性の要求を持っている。 そのため、トレーニング後にブラックボックスモデルを解釈するために様々な方法が開発されている。 本稿では,まずモデルが透明で説明しやすいアプローチを提唱する。 このアプローチ、EVOTERは単純な論理式に基づいてルールセットを進化させる。 この手法は、いくつかの予測/分類と処方/政治検索ドメインにおいて、代理なしで評価される。 ブラックボックスモデルと同様に機能する有意義なルールセットを発見することが示されている。 ルールはドメインに関する洞察を与え、データに隠されたバイアスを明示する。 また、直接編集してバイアスを取り除き、制約を加えることもできる。 EVOTERは将来、現実世界のアプリケーションのための信頼できるAIシステムを構築するための有望な基盤となる。

Most AI systems are black boxes generating reasonable outputs for given inputs. Some domains, however, have explainability and trustworthiness requirements that cannot be directly met by these approaches. Various methods have therefore been developed to interpret black-box models after training. This paper advocates an alternative approach where the models are transparent and explainable to begin with. This approach, EVOTER, evolves rule-sets based on simple logical expressions. The approach is evaluated in several prediction/classification and prescription/policy search domains with and without a surrogate. It is shown to discover meaningful rule sets that perform similarly to black-box models. The rules can provide insight into the domain, and make biases hidden in the data explicit. It may also be possible to edit them directly to remove biases and add constraints. EVOTER thus forms a promising foundation for building trustworthy AI systems for real-world applications in the future.
翻訳日:2024-03-27 06:12:57 公開日:2024-03-25
# 脳波を用いた脳電位予測のための畳み込みスパイクニューラルネットワーク

Convolutional Spiking Neural Networks for Detecting Anticipatory Brain Potentials Using Electroencephalogram ( http://arxiv.org/abs/2208.06900v3 )

ライセンス: Link先を確認
Nathan Lutes, Venkata Sriram Siddhardh Nadendla, K. Krishnamurthy, (参考訳) スパイキングニューラルネットワーク(SNN)は、生物学的システムにおけるシナプス接続を模倣し、スパイクトレインを生成するため注目されている。 近年,畳み込みネットワークの特徴抽出能力とSNNの計算効率を組み合わせた畳み込み層が導入された。 本稿では,脳波を用いた脳波を用いた脳波による脳波計測において,脳波による脳波の予測が脳波に与える影響について検討した。 被験者は都市環境を模擬したテストベッド上で遠隔操作車を操作する実験を行った。 参加者は、脳波を用いて測定された予測電位を引き出すために、音声カウントダウンを介して入ってくるブレーキイベントに警告された。 CSNNのパフォーマンスは、標準的なCNN、EEGNet、および10倍のクロスバリデーションによる3つのグラフニューラルネットワークと比較された。 CSNNは他の全てのニューラルネットワークより優れており、予測精度は99.06パーセント、真の正率は98.50%、真の負率は99.20%、F1スコアは0.98である。 CSNNの性能は、SCPを局在させる脳波チャネルのサブセットを用いたアブレーション研究において、CNNと同等であった。 CSNNの分類性能は、浮動小数点脳波データをデルタ変調によりスパイク列車に変換してシナプス接続を模倣した場合にわずかに低下した。

Spiking neural networks (SNNs) are receiving increased attention because they mimic synaptic connections in biological systems and produce spike trains, which can be approximated by binary values for computational efficiency. Recently, the addition of convolutional layers to combine the feature extraction power of convolutional networks with the computational efficiency of SNNs has been introduced. This paper studies the feasibility of using a convolutional spiking neural network (CSNN) to detect anticipatory slow cortical potentials (SCPs) related to braking intention in human participants using an electroencephalogram (EEG). Data was collected during an experiment wherein participants operated a remote-controlled vehicle on a testbed designed to simulate an urban environment. Participants were alerted to an incoming braking event via an audio countdown to elicit anticipatory potentials that were measured using an EEG. The CSNN's performance was compared to a standard CNN, EEGNet and three graph neural networks via 10-fold cross-validation. The CSNN outperformed all the other neural networks, and had a predictive accuracy of 99.06 percent with a true positive rate of 98.50 percent, a true negative rate of 99.20 percent and an F1-score of 0.98. Performance of the CSNN was comparable to the CNN in an ablation study using a subset of EEG channels that localized SCPs. Classification performance of the CSNN degraded only slightly when the floating-point EEG data were converted into spike trains via delta modulation to mimic synaptic connections.
翻訳日:2024-03-27 06:02:58 公開日:2024-03-25
# Masked Vector Quantization

Masked Vector Quantization ( http://arxiv.org/abs/2301.06626v2 )

ライセンス: Link先を確認
David D. Nguyen, David Leibowitz, Surya Nepal, Salil S. Kanhere, (参考訳) 離散潜在表現を持つ生成モデルは、最近、複雑な高次元データ分布を学習する印象的な能力を示した。 しかしながら、それらのパフォーマンスはインスタンス当たりのトークンの長いシーケンスと多数のコードブックエントリに依存しており、結果として長いサンプリング時間と相当な計算がカテゴリの後方に適合する。 これらの問題に対処するために,MH-Dropout(MH-Dropout)と呼ばれる確率的勝者獲得学習システムを用いて,マスク構成を学習することにより,各コードベクトルの表現能力を高めるMasked Vector Quantization(MVQ)フレームワークを提案する。 ImageNet 64$\times$64では、MVQは既存のベクトル量子化アーキテクチャのFIDをインスタンス当たり2トークンで最大6,8\%、5トークンで最大5,7\%削減する。 これらの改善は、コードブックのエントリが減少し、推論中にトークンサンプリングのスピードアップを7ドル99セントで行えるようになった。 付加的な利点として、より小さな潜在空間がMVQに導かれ、複数の多重を滑らかに結合できる伝達可能な視覚表現が特定される。

Generative models with discrete latent representations have recently demonstrated an impressive ability to learn complex high-dimensional data distributions. However, their performance relies on a long sequence of tokens per instance and a large number of codebook entries, resulting in long sampling times and considerable computation to fit the categorical posterior. To address these issues, we propose the Masked Vector Quantization (MVQ) framework which increases the representational capacity of each code vector by learning mask configurations via a stochastic winner-takes-all training regime called Multiple Hypothese Dropout (MH-Dropout). On ImageNet 64$\times$64, MVQ reduces FID in existing vector quantization architectures by up to $68\%$ at 2 tokens per instance and $57\%$ at 5 tokens. These improvements widen as codebook entries is reduced and allows for $7\textit{--}45\times$ speed-up in token sampling during inference. As an additional benefit, we find that smaller latent spaces lead to MVQ identifying transferable visual representations where multiple can be smoothly combined.
翻訳日:2024-03-27 04:08:18 公開日:2024-03-25
# 中間時間量子コンピュータにおけるユニタリの線形結合の実装

Implementing any Linear Combination of Unitaries on Intermediate-term Quantum Computers ( http://arxiv.org/abs/2302.13555v3 )

ライセンス: Link先を確認
Shantanav Chakraborty, (参考訳) 多様なアプリケーションを持つ強力な量子アルゴリズムツールであるLCU(Linear Combination of Unitary)を実装するための3つの新しい手法を開発した。 標準的なLCU手順では、いくつかのアンシラ量子ビットと高度なマルチキュービット制御を必要とするが、我々の手法は量子リソースを著しく少なく消費する。 第1の手法(Single-Ancilla LCU)は、1つのアンシラ量子ビットしか必要とせず、マルチキュービット制御操作も必要とせず、LCUプロシージャによって作成された任意の量子状態に対して可観測物の期待値を推定する。 第2のアプローチ(Analog LCU)は、LCUの単純で物理的に動機づけられた連続時間アナログであり、ハイブリッド量子モードシステムに適合する。 第3の手法(アンシラフリーLCU)は、アンシラ量子ビットを全く必要とせず、あるサブ空間の量子状態(LCUプロシージャによって作成される)の射影に関心がある場合に有用である。 最初の2つの手法を適用して、ハミルトンシミュレーション、基底状態の準備と特性推定、量子線形システムなど、幅広い実用的な問題に対する新しい量子アルゴリズムを開発する。 興味深いことに、量子リソースの消費は少ないが、証明可能な量子優位性を維持している。 第3のテクニックは、離散的かつ連続的な量子ウォークと古典的なウォークを接続することを可能にする。 また、これら両方のフレームワークで最近開発された最適量子空間探索アルゴリズムを統一し、より少ないアンシラ量子ビットを必要とする新しいアルゴリズムの開発に繋がる。 全体として、我々の結果は極めて一般的であり、他の問題にも容易に適用できる。

We develop three new methods to implement any Linear Combination of Unitaries (LCU), a powerful quantum algorithmic tool with diverse applications. While the standard LCU procedure requires several ancilla qubits and sophisticated multi-qubit controlled operations, our methods consume significantly fewer quantum resources. The first method (Single-Ancilla LCU) estimates expectation values of observables with respect to any quantum state prepared by an LCU procedure while requiring only a single ancilla qubit, and no multi-qubit controlled operations. The second approach (Analog LCU) is a simple, physically motivated, continuous-time analogue of LCU, tailored to hybrid qubit-qumode systems. The third method (Ancilla-free LCU) requires no ancilla qubit at all and is useful when we are interested in the projection of a quantum state (prepared by the LCU procedure) in some subspace of interest. We apply the first two techniques to develop new quantum algorithms for a wide range of practical problems, ranging from Hamiltonian simulation, ground state preparation and property estimation, and quantum linear systems. Remarkably, despite consuming fewer quantum resources they retain a provable quantum advantage. The third technique allows us to connect discrete and continuous-time quantum walks with their classical counterparts. It also unifies the recently developed optimal quantum spatial search algorithms in both these frameworks, and leads to the development of new ones that require fewer ancilla qubits. Overall, our results are quite generic and can be readily applied to other problems, even beyond those considered here.
翻訳日:2024-03-27 04:08:18 公開日:2024-03-25
# グラフによる対実学習: サーベイ

Counterfactual Learning on Graphs: A Survey ( http://arxiv.org/abs/2304.01391v2 )

ライセンス: Link先を確認
Zhimeng Guo, Teng Xiao, Zongyu Wu, Charu Aggarwal, Hui Liu, Suhang Wang, (参考訳) グラフ構造化データは、ソーシャルネットワーク、分子グラフ、トランザクションネットワークなどの現実世界で広く利用されている。 グラフニューラルネットワーク(GNN)は、グラフ上の表現学習において大きな成功を収め、さまざまな下流タスクを容易にしている。 しかし、GNNには解釈可能性の欠如やデータのバイアスの受け継がれやすく、カジュアルな関係をモデル化できないといった欠点がいくつかある。 近年,グラフ上の反実的学習は,これらの欠点を緩和する有望な結果を示している。 グラフ上の反ファクトフェアネス、説明可能性、リンク予測など、様々な手法が提案されている。 本調査では,この有望な方向性の展開を促進するために,グラフ対実学習に関する論文を分類・包括的にレビューする。 既存の手法を4つのカテゴリに分けて検討した。 それぞれのカテゴリについて、バックグラウンドとモチベーションの例、既存の作品を要約する一般的なフレームワーク、そしてこれらの作品の詳細なレビューを提供する。 我々は,グラフ構造化データ,対実学習,実世界のアプリケーションとの交点における将来的な研究の方向性を指摘する。 今後の研究のために、リソースの総合的なビューを提供するために、オープンソース実装、パブリックデータセット、そして一般的に使用される評価指標のコレクションをコンパイルする。 この調査は、グラフの反事実学習カテゴリと現在のリソースの統一的な理解を構築するための 'one-stop-shop' として機能することを目的としている。 また、文書やリソースのリポジトリも維持しており、リポジトリ https://github.com/TimeLovercc/Awesome-Graph-Causal-Learning.orgの更新を続けます。

Graph-structured data are pervasive in the real-world such as social networks, molecular graphs and transaction networks. Graph neural networks (GNNs) have achieved great success in representation learning on graphs, facilitating various downstream tasks. However, GNNs have several drawbacks such as lacking interpretability, can easily inherit the bias of data and cannot model casual relations. Recently, counterfactual learning on graphs has shown promising results in alleviating these drawbacks. Various approaches have been proposed for counterfactual fairness, explainability, link prediction and other applications on graphs. To facilitate the development of this promising direction, in this survey, we categorize and comprehensively review papers on graph counterfactual learning. We divide existing methods into four categories based on problems studied. For each category, we provide background and motivating examples, a general framework summarizing existing works and a detailed review of these works. We point out promising future research directions at the intersection of graph-structured data, counterfactual learning, and real-world applications. To offer a comprehensive view of resources for future studies, we compile a collection of open-source implementations, public datasets, and commonly-used evaluation metrics. This survey aims to serve as a ``one-stop-shop'' for building a unified understanding of graph counterfactual learning categories and current resources. We also maintain a repository for papers and resources and will keep updating the repository https://github.com/TimeLovercc/Awesome-Graph-Causal-Learning.
翻訳日:2024-03-27 03:58:21 公開日:2024-03-25
# インスタンスアソシエーションの展開:オーディオ・ビジュアル・セグメンテーションの概観

Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation ( http://arxiv.org/abs/2304.02970v5 )

ライセンス: Link先を確認
Yuanhong Chen, Yuyuan Liu, Hu Wang, Fengbei Liu, Chong Wang, Helen Frazer, Gustavo Carneiro, (参考訳) 音声視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。 音声・視覚学習の有効性は、音と視覚オブジェクトの正確な相互アライメントの実現に大きく依存する。 健全な視覚学習には2つの重要な要素が必要である。 1)高品質な画素レベルのマルチクラスアノテート画像とオーディオファイルに関連付けられた課題データセット 2)音声情報とそれに対応する視覚オブジェクトとの強いつながりを確立できるモデル。 しかしながら、これらの要件は、偏りのあるオーディオ視覚データを含むトレーニングセットや、偏りのあるトレーニングセットをはるかに越えたモデルなど、現在の手法によって部分的に解決されているだけである。 本研究では,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための費用対効果の新たな手法を提案する。 また,音声・視覚指導型コントラスト学習のための新たな情報的サンプルマイニング手法を提案し,識別的コントラスト的サンプルを利用してモーダル間理解を実現する。 ベンチマークの有効性を示す実験結果を示す。 さらに,既存のAVSデータセットおよび新しいベンチマークを用いて行った実験により,本手法が最先端(SOTA)セグメンテーション精度を実現することを示す。

Audio-visual segmentation (AVS) is a challenging task that involves accurately segmenting sounding objects based on audio-visual cues. The effectiveness of audio-visual learning critically depends on achieving accurate cross-modal alignment between sound and visual objects. Successful audio-visual learning requires two essential components: 1) a challenging dataset with high-quality pixel-level multi-class annotated images associated with audio files, and 2) a model that can establish strong links between audio information and its corresponding visual object. However, these requirements are only partially addressed by current methods, with training sets containing biased audio-visual data, and models that generalise poorly beyond this biased training set. In this work, we propose a new cost-effective strategy to build challenging and relatively unbiased high-quality audio-visual segmentation benchmarks. We also propose a new informative sample mining method for audio-visual supervised contrastive learning to leverage discriminative contrastive samples to enforce cross-modal understanding. We show empirical results that demonstrate the effectiveness of our benchmark. Furthermore, experiments conducted on existing AVS datasets and on our new benchmark show that our method achieves state-of-the-art (SOTA) segmentation accuracy.
翻訳日:2024-03-27 03:58:21 公開日:2024-03-25
# CiPR: 一般化カテゴリー発見のためのクロスインスタンスポジティブな関係を持つ効率的なフレームワーク

CiPR: An Efficient Framework with Cross-instance Positive Relations for Generalized Category Discovery ( http://arxiv.org/abs/2304.06928v2 )

ライセンス: Link先を確認
Shaozhe Hao, Kai Han, Kwan-Yee K. Wong, (参考訳) 一般化カテゴリー発見(GCD)の課題に対処する。 GCDは、部分的にラベル付けされたデータセットを自動でクラスタリングするオープンワールドの問題について考察している。 本稿では,非競合データに対する未知のカテゴリ数を用いて,GCD問題に対処する。 本稿では,従来の手法では無視されていたコントラスト学習のための部分ラベル付きデータにおいて,クロスインスタンス陽性関係を利用して表現をブートストラップするフレームワークCiPRを提案する。 表現学習を容易にするための信頼性の高いクロスインスタンス関係を得るため,選択的近傍クラスタリング(SNC)と呼ばれる半教師付き階層クラスタリングアルゴリズムを導入し,選択的近傍クラスタリングによって構築されたグラフの連結成分から直接クラスタリング階層を生成する。 さらに、ラベル付きデータとラベル付きデータの両方のクラスタリングインデックスを考慮した共同参照スコアを用いて未知のクラス番号を推定する方法を提案し、与えられたクラス番号を持つ未ラベルインスタンスのラベル割り当てを可能にするようにSNCを拡張した。 我々は、パブリックな汎用画像認識データセットときめ細かいデータセットに挑戦するフレームワークを徹底的に評価し、新しい最先端技術を確立する。 コード:https://github.com/haoosz/CiPR

We tackle the issue of generalized category discovery (GCD). GCD considers the open-world problem of automatically clustering a partially labelled dataset, in which the unlabelled data may contain instances from both novel categories and labelled classes. In this paper, we address the GCD problem with an unknown category number for the unlabelled data. We propose a framework, named CiPR, to bootstrap the representation by exploiting Cross-instance Positive Relations in the partially labelled data for contrastive learning, which have been neglected in existing methods. To obtain reliable cross-instance relations to facilitate representation learning, we introduce a semi-supervised hierarchical clustering algorithm, named selective neighbor clustering (SNC), which can produce a clustering hierarchy directly from the connected components of a graph constructed from selective neighbors. We further present a method to estimate the unknown class number using SNC with a joint reference score that considers clustering indexes of both labelled and unlabelled data, and extend SNC to allow label assignment for the unlabelled instances with a given class number. We thoroughly evaluate our framework on public generic image recognition datasets and challenging fine-grained datasets, and establish a new state-of-the-art. Code: https://github.com/haoosz/CiPR
翻訳日:2024-03-27 03:58:21 公開日:2024-03-25
# ガウス混合ブロックモデルにおけるスペクトルクラスタリング

Spectral clustering in the Gaussian mixture block model ( http://arxiv.org/abs/2305.00979v2 )

ライセンス: Link先を確認
Shuangping Li, Tselil Schramm, (参考訳) ガウス混合ブロックモデルは、現代のネットワークをモデル化しようとするグラフ上の分布である: そのようなモデルからグラフを生成するために、各頂点 $i$ と遅延特徴ベクトル $u_i \in \mathbb{R}^d$ をガウスの混合からサンプリングし、特徴ベクトルが十分に類似している場合にのみ edge $(i,j)$ を加える。 ガウス混合の異なるコンポーネントは、機能よりも異なる分布を持つ異なるタイプのノードが存在するという事実を表している。 これらのネットワークに関連する自然なアルゴリズムタスクは、埋め込み(潜在特徴ベクトルの復元)とクラスタリング(混合成分によるノードのグループ化)である。 本稿では、高次元ガウス混合ブロックモデルからサンプリングされたクラスタリングと埋め込みグラフの研究を開始し、ネットワークの$n \to \infty$として潜在特徴ベクトルの次元を$d\to \infty$とする。 この高次元設定は、遅延特徴空間を高次元と考える現代のネットワークの文脈において最も適している。 2成分球状ガウス混合の場合の標準スペクトルクラスタリングおよびそのようなグラフの埋め込みアルゴリズムの性能を分析し、これらのモデルにクラスタリングと埋め込みを行うための情報計算環境をスケッチし始める。

Gaussian mixture block models are distributions over graphs that strive to model modern networks: to generate a graph from such a model, we associate each vertex $i$ with a latent feature vector $u_i \in \mathbb{R}^d$ sampled from a mixture of Gaussians, and we add edge $(i,j)$ if and only if the feature vectors are sufficiently similar, in that $\langle u_i,u_j \rangle \ge \tau$ for a pre-specified threshold $\tau$. The different components of the Gaussian mixture represent the fact that there may be different types of nodes with different distributions over features -- for example, in a social network each component represents the different attributes of a distinct community. Natural algorithmic tasks associated with these networks are embedding (recovering the latent feature vectors) and clustering (grouping nodes by their mixture component). In this paper we initiate the study of clustering and embedding graphs sampled from high-dimensional Gaussian mixture block models, where the dimension of the latent feature vectors $d\to \infty$ as the size of the network $n \to \infty$. This high-dimensional setting is most appropriate in the context of modern networks, in which we think of the latent feature space as being high-dimensional. We analyze the performance of canonical spectral clustering and embedding algorithms for such graphs in the case of 2-component spherical Gaussian mixtures, and begin to sketch out the information-computation landscape for clustering and embedding in these models.
翻訳日:2024-03-27 03:48:07 公開日:2024-03-25
# Geometric Prior Based Deep Human Point Cloud Geometry Compression

Geometric Prior Based Deep Human Point Cloud Geometry Compression ( http://arxiv.org/abs/2305.01309v2 )

ライセンス: Link先を確認
Xinju Wu, Pingping Zhang, Meng Wang, Peilin Chen, Shiqi Wang, Sam Kwong, (参考訳) デジタルアバターの出現は、現実的で複雑な詳細を持つ人点雲の需要を劇的に増加させてきた。 このようなデータの圧縮は、数百万のポイントからなる圧倒的なデータ量で困難になる。 ここでは、点雲の幾何学的冗長性除去において、人間の幾何学的先行性を活用し、圧縮性能を大幅に向上させる。 より具体的には、前者は幾何初期化として位相的制約を提供し、数ビットでしか表現できないコンパクトなパラメータセットによる適応調整を可能にする。 したがって、幾何学的先行と構造的偏差の組合せとして、高分解能な人点雲を考えることができる。 前者はまず整列点雲で導出することができ、その後、特徴の差を圧縮してコンパクトな潜伏符号とする。 提案フレームワークは,既存の学習ベースポイントクラウド圧縮手法を用いて,プレイ・アンド・プラグ方式で動作可能である。 大規模な実験結果から,本手法は品質を劣化させることなく圧縮性能を著しく向上させ,様々なアプリケーションでその可能性を実証した。

The emergence of digital avatars has raised an exponential increase in the demand for human point clouds with realistic and intricate details. The compression of such data becomes challenging with overwhelming data amounts comprising millions of points. Herein, we leverage the human geometric prior in geometry redundancy removal of point clouds, greatly promoting the compression performance. More specifically, the prior provides topological constraints as geometry initialization, allowing adaptive adjustments with a compact parameter set that could be represented with only a few bits. Therefore, we can envisage high-resolution human point clouds as a combination of geometric priors and structural deviations. The priors could first be derived with an aligned point cloud, and subsequently the difference of features is compressed into a compact latent code. The proposed framework can operate in a play-and-plug fashion with existing learning based point cloud compression methods. Extensive experimental results show that our approach significantly improves the compression performance without deteriorating the quality, demonstrating its promise in a variety of applications.
翻訳日:2024-03-27 03:48:07 公開日:2024-03-25
# 英語音声合成のためのフロントエンド統合フレームワーク

A unified front-end framework for English text-to-speech synthesis ( http://arxiv.org/abs/2305.10666v3 )

ライセンス: Link先を確認
Zelin Ying, Chen Li, Yu Dong, Qiuqiang Kong, Qiao Tian, Yuanyuan Huo, Yuxuan Wang, (参考訳) フロントエンドは、英語のテキスト音声合成システム(TTS)の重要な構成要素であり、韻律や音素などの音声を合成するために、テキスト音声合成モデルに不可欠な言語的特徴を抽出する役割を担っている。 英語のTTSフロントエンドは、典型的にはテキスト正規化(TN)モジュール、韻律語韻律句(PWPP)モジュール、グラフ音素対音素(G2P)モジュールからなる。 しかし、現在のTTSフロントエンドの研究は、個々のモジュールにのみ焦点をあてており、それぞれのモジュール間の相互依存を無視し、各モジュールに対して準最適性能をもたらす。 そこで本稿では、英語のTSフロントエンドモジュール間の依存関係をキャプチャする統合フロントエンドフレームワークを提案する。 実験により,提案手法は全モジュールのSOTA性能を向上することを示した。

The front-end is a critical component of English text-to-speech (TTS) systems, responsible for extracting linguistic features that are essential for a text-to-speech model to synthesize speech, such as prosodies and phonemes. The English TTS front-end typically consists of a text normalization (TN) module, a prosody word prosody phrase (PWPP) module, and a grapheme-to-phoneme (G2P) module. However, current research on the English TTS front-end focuses solely on individual modules, neglecting the interdependence between them and resulting in sub-optimal performance for each module. Therefore, this paper proposes a unified front-end framework that captures the dependencies among the English TTS front-end modules. Extensive experiments have demonstrated that the proposed method achieves state-of-the-art (SOTA) performance in all modules.
翻訳日:2024-03-27 03:48:07 公開日:2024-03-25
# 知識工学プライマー

A Knowledge Engineering Primer ( http://arxiv.org/abs/2305.17196v2 )

ライセンス: Link先を確認
Agnieszka Ławrynowicz, (参考訳) このプライマーの目的は、知識工学の主題を簡潔で合成的な方法で導入し、その領域に関する読者の直感を発達させることである。

The aim of this primer is to introduce the subject of knowledge engineering in a concise but synthetic way to develop the reader's intuition about the area.
翻訳日:2024-03-27 03:48:07 公開日:2024-03-25
# Dial-MAE:検索型対話システムのためのテキスト・マスク付き自動エンコーダ

Dial-MAE: ConTextual Masked Auto-Encoder for Retrieval-based Dialogue Systems ( http://arxiv.org/abs/2306.04357v4 )

ライセンス: Link先を確認
Zhenpeng Su, Xing Wu, Wei Zhou, Guangyuan Ma, Songlin Hu, (参考訳) 対話応答の選択は、所定のユーザとシステム発話履歴に基づいて、複数の候補から適切な応答を選択することを目的としている。 既存のほとんどの作品は、主にクロスエンコーダ用に調整されたポストトレーニングと微調整に焦点を当てている。 しかし,対話応答選択における高密度エンコーダに適したポストトレーニング手法は存在しない。 我々は,高密度対話システム(BERTなど)をベースとした現在の言語モデルを高密度エンコーダとして使用する場合,対話コンテキストと応答を個別に符号化し,両表現の整合化に苦慮する。 そこで我々は,対話応答選択における高密度エンコーダに適した,単純かつ効果的なポストトレーニング手法であるDial-MAE(Dialogue Contextual Masking Auto-Encoder)を提案する。 Dial-MAEは非対称エンコーダデコーダアーキテクチャを用いて、対話のセマンティクスを高密度ベクトルに圧縮し、対話コンテキストの特徴と応答の整合性を改善する。 実験の結果,Dial-MAEは高い有効性を示し,評価された2つのベンチマークで最先端の性能を実現することができた。

Dialogue response selection aims to select an appropriate response from several candidates based on a given user and system utterance history. Most existing works primarily focus on post-training and fine-tuning tailored for cross-encoders. However, there are no post-training methods tailored for dense encoders in dialogue response selection. We argue that when the current language model, based on dense dialogue systems (such as BERT), is employed as a dense encoder, it separately encodes dialogue context and response, leading to a struggle to achieve the alignment of both representations. Thus, we propose Dial-MAE (Dialogue Contextual Masking Auto-Encoder), a straightforward yet effective post-training technique tailored for dense encoders in dialogue response selection. Dial-MAE uses an asymmetric encoder-decoder architecture to compress the dialogue semantics into dense vectors, which achieves better alignment between the features of the dialogue context and response. Our experiments have demonstrated that Dial-MAE is highly effective, achieving state-of-the-art performance on two commonly evaluated benchmarks.
翻訳日:2024-03-27 03:38:04 公開日:2024-03-25
# コミュニティ検出攻撃に対する協調学習型レコメンダシステムのレジリエンスについて

On the resilience of Collaborative Learning-based Recommender Systems Against Community Detection Attack ( http://arxiv.org/abs/2306.08929v2 )

ライセンス: Link先を確認
Yacine Belal, Sonia Ben Mokhtar, Mohamed Maouche, Anthony Simonet-Boulogne, (参考訳) 協調学習に基づく推薦システムは、フェデレートラーニング(FL)やゴシップラーニング(GL)といった協調学習技術の成功にともなって登場した。 これらのシステムでは、ユーザはデバイス上で消費されたアイテムの履歴を維持しながらレコメンデーションシステムのトレーニングに参加します。 これらのソリューションは、参加者のプライバシーを一見して守ることに魅力があるように思えるが、最近の研究で、協調学習はさまざまなプライバシー攻撃に対して脆弱であることが判明した。 本稿では,コミュニティ検出攻撃(CDA)と呼ばれる新たなプライバシ攻撃に対する協調学習に基づく推薦システムのレジリエンスについて検討する。 この攻撃により、敵は選択したアイテム(例えば、特定のポイントに興味のあるユーザーを識別する)に基づいて、コミュニティメンバーを識別することができる。 2つの最先端レコメンデーションモデルを用いた3つの実際のレコメンデーションデータセットの実験を通じて、FLベースのレコメンデーションシステムの感度と、2種類のゴシップ学習ベースのレコメンデーションシステムのCDAに対する感度を評価する。 その結果、すべてのモデルとデータセットにおいて、FL設定はGossip設定よりもCDAに対して脆弱であることがわかった。 さらに、より敏感なモデルパラメータのサブセットを共有することで、ディファレンシャルプライバシ (DP) と \emph{Share less} ポリシーの2つのオフ・ザ・シェルフ緩和戦略を評価する。 この結果は、特にFedRecsにおいて、emph{Share less}戦略に対するより好ましいプライバシーユーティリティトレードオフを示している。

Collaborative-learning-based recommender systems emerged following the success of collaborative learning techniques such as Federated Learning (FL) and Gossip Learning (GL). In these systems, users participate in the training of a recommender system while maintaining their history of consumed items on their devices. While these solutions seemed appealing for preserving the privacy of the participants at first glance, recent studies have revealed that collaborative learning can be vulnerable to various privacy attacks. In this paper, we study the resilience of collaborative learning-based recommender systems against a novel privacy attack called Community Detection Attack (CDA). This attack enables an adversary to identify community members based on a chosen set of items (eg., identifying users interested in specific points-of-interest). Through experiments on three real recommendation datasets using two state-of-the-art recommendation models, we evaluate the sensitivity of an FL-based recommender system as well as two flavors of Gossip Learning-based recommender systems to CDA. The results show that across all models and datasets, the FL setting is more vulnerable to CDA compared to Gossip settings. Furthermore, we assess two off-the-shelf mitigation strategies, namely differential privacy (DP) and a \emph{Share less} policy, which consists of sharing a subset of less sensitive model parameters. The findings indicate a more favorable privacy-utility trade-off for the \emph{Share less} strategy, particularly in FedRecs.
翻訳日:2024-03-27 03:38:04 公開日:2024-03-25
# 共有するかどうか: 差別化されたNLPシステムに機密データを渡すことを受け入れるリスクは何か?

To share or not to share: What risks would laypeople accept to give sensitive data to differentially-private NLP systems? ( http://arxiv.org/abs/2307.06708v2 )

ライセンス: Link先を確認
Christopher Weiss, Frauke Kreuter, Ivan Habernal, (参考訳) NLPコミュニティは、プライバシ保護モデルトレーニングやデータ共有のゴーツーフレームワークとして、中央微分プライバシーを採用してきたが、主要なパラメータの選択と解釈は、プライバシ保護の強みを支配するプライバシー予算$\varepsilon$である。 我々は、$\varepsilon$の値を決定することは、研究者やシステム開発者の手にあるだけでなく、潜在的に機密性の高いデータを共有している実際の人々も考慮しなければならない、と論じています。 言い換えれば、あなたのインスタントメッセージを$\varepsilon$10で共有していただけますか? 本研究では,プライバシ保護の状況に関して不確実な意思決定状況における人々の行動を研究するために,行動実験(311名)を設計,実施,実施することで,この研究ギャップに対処する。 リスク認識を2つの現実的なNLPシナリオで分割し、ヴィグネットの行動研究を使用することで、どんな値が$\varepsilon$閾値になるかを決定するのに役立ちます。

Although the NLP community has adopted central differential privacy as a go-to framework for privacy-preserving model training or data sharing, the choice and interpretation of the key parameter, privacy budget $\varepsilon$ that governs the strength of privacy protection, remains largely arbitrary. We argue that determining the $\varepsilon$ value should not be solely in the hands of researchers or system developers, but must also take into account the actual people who share their potentially sensitive data. In other words: Would you share your instant messages for $\varepsilon$ of 10? We address this research gap by designing, implementing, and conducting a behavioral experiment (311 lay participants) to study the behavior of people in uncertain decision-making situations with respect to privacy-threatening situations. Framing the risk perception in terms of two realistic NLP scenarios and using a vignette behavioral study help us determine what $\varepsilon$ thresholds would lead lay people to be willing to share sensitive textual data - to our knowledge, the first study of its kind.
翻訳日:2024-03-27 03:38:04 公開日:2024-03-25
# 事前訓練GCNを用いたボットネット検出のための深部溶融流とトポロジー特性

Deep fused flow and topology features for botnet detection basing on pretrained GCN ( http://arxiv.org/abs/2307.10583v4 )

ライセンス: Link先を確認
Meng Xiaoyuan, Lang bo, Yanxi Liu, Yuhao Yan, (参考訳) 今日では、ボットネットはサイバーセキュリティに対する大きな脅威の1つになっている。 ボットネットの特徴は主にボットネットワークの行動と通信関係に反映される。 既存のボットネット検出方法はフロー機能やトポロジ機能を個別に使用しており、他のタイプの機能を見落としている。 これはモデルパフォーマンスに影響する。 本稿では,グラフ畳み込みネットワーク(GCN)を用いて,フロー特徴とトポロジー特徴を深く融合させるボットネット検出モデルを提案する。 ネットワークトラフィックから通信グラフを構築し,フロー特徴を持つノードを表現する。 既存のパブリックトラフィックフローデータセットの不均衡のため、これらのデータセット上でGCNモデルをトレーニングすることは不可能である。 したがって、バランスの取れた公開通信グラフデータセットを用いてGCNモデルを事前訓練し、トポロジの特徴を特定する能力を保証する。 次に、事前訓練されたGCNへのフロー特徴を持つ通信グラフをフィードする。 最後の隠れ層からの出力は、フローとトポロジーの特徴の融合として扱われる。 さらに、GCNネットワーク内のレイヤ数を調整することで、C2とP2Pの両方の構造下でボットネットを効果的に検出できる。 ISCX2014データセットで検証された我々の手法は、C2ボットネットでは92.90%、F1スコアでは92.76%、P2Pボットネットでは94.66%、F1スコアでは92.35%である。 これらの結果は,本手法の有効性を実証するだけでなく,現在主流となっている検出モデルの性能も向上させる。

Nowadays, botnets have become one of the major threats to cyber security. The characteristics of botnets are mainly reflected in bots network behavior and their intercommunication relationships. Existing botnet detection methods use flow features or topology features individually, which overlook the other type of feature. This affects model performance. In this paper, we propose a botnet detection model which uses graph convolutional network (GCN) to deeply fuse flow features and topology features for the first time. We construct communication graphs from network traffic and represent nodes with flow features. Due to the imbalance of existing public traffic flow datasets, it is impossible to train a GCN model on these datasets. Therefore, we use a balanced public communication graph dataset to pretrain a GCN model, thereby guaranteeing its capacity for identify topology features. We then feed the communication graph with flow features into the pretrained GCN. The output from the last hidden layer is treated as the fusion of flow and topology features. Additionally, by adjusting the number of layers in the GCN network, the model can effectively detect botnets under both C2 and P2P structures. Validated on the public ISCX2014 dataset, our approach achieves a remarkable recall rate 92.90% and F1-score 92.76% for C2 botnets, alongside recall rate 94.66% and F1-score of 92.35% for P2P botnets. These results not only demonstrate the effectiveness of our method, but also outperform the performance of the currently leading detection models.
翻訳日:2024-03-27 03:28:06 公開日:2024-03-25
# 自己監督型画像デノイングのパワーを解き放つ:総合的なレビュー

Unleashing the Power of Self-Supervised Image Denoising: A Comprehensive Review ( http://arxiv.org/abs/2308.00247v4 )

ライセンス: Link先を確認
Dan Zhang, Fangfang Zhou, Felix Albu, Yuanzhou Wei, Xiao Yang, Yuan Gu, Qiang Li, (参考訳) ディープラーニングの出現は、画像装飾技術に革命的変革をもたらした。 しかし、現実のシナリオにおける教師付き手法のためのノイズクリーンペアの獲得という永続的な課題は、より実践的な自己監督型イメージデノイングの探索を必要としている。 本稿では、この課題に対処するための効果的な解決策を提供する自己教師付き画像認識手法に焦点を当てる。 総合的なレビューでは、自己監督型画像認識アプローチの最新の進歩を網羅的に分析し、それらを一般的な方法、ブラインドスポットネットワーク(BSN)ベースの方法、トランスフォーマーベースの方法の3つの異なるクラスに分類する。 各クラスに対して、それらの実践的応用とともに簡潔な理論解析を提供する。 これらの手法の有効性を評価するため,古典的アルゴリズムをベンチマークとして,様々なデータセットに対して定量的および定性的な実験結果を示す。 さらに,これらの手法の限界について批判的に議論し,今後の研究に期待できる方向性を提案する。 自己監督型イメージデノベーションの最近の展開を概観することにより、このレビューはこの分野の研究者や実践者にとって貴重な情報源となり、この新興領域の理解を深め、さらなる進歩を促している。

The advent of deep learning has brought a revolutionary transformation to image denoising techniques. However, the persistent challenge of acquiring noise-clean pairs for supervised methods in real-world scenarios remains formidable, necessitating the exploration of more practical self-supervised image denoising. This paper focuses on self-supervised image denoising methods that offer effective solutions to address this challenge. Our comprehensive review thoroughly analyzes the latest advancements in self-supervised image denoising approaches, categorizing them into three distinct classes: General methods, Blind Spot Network (BSN)-based methods, and Transformer-based methods. For each class, we provide a concise theoretical analysis along with their practical applications. To assess the effectiveness of these methods, we present both quantitative and qualitative experimental results on various datasets, utilizing classical algorithms as benchmarks. Additionally, we critically discuss the current limitations of these methods and propose promising directions for future research. By offering a detailed overview of recent developments in self-supervised image denoising, this review serves as an invaluable resource for researchers and practitioners in the field, facilitating a deeper understanding of this emerging domain and inspiring further advancements.
翻訳日:2024-03-27 03:28:06 公開日:2024-03-25
# 盲点の解き方:自律運転システムにおける公正性の批判的検証

Unveiling the Blind Spots: A Critical Examination of Fairness in Autonomous Driving Systems ( http://arxiv.org/abs/2308.02935v2 )

ライセンス: Link先を確認
Xinyue Li, Zhenpeng Chen, Jie M. Zhang, Federica Sarro, Ying Zhang, Xuanzhe Liu, (参考訳) 自律運転システムは、インテリジェントな車両のためのWeb of Thingsのスペクトルを拡張し、Webエコシステムの重要なコンポーネントとなった。 従来のWebベースのアプリケーションと同様に、公正性は、特に歩行者検知器の状況において、自律運転システムの高品質を保証するために不可欠な側面である。 しかし、現在のDeep Learning(DL)に基づく歩行者検知器の公平性に関する総合的な評価の文献は欠落している。 このギャップを埋めるために、大規模な実世界のデータセット上で、人口集団間で広く調査されているDLに基づく8つの歩行者検出器を評価した。 その結果、16,070の性別ラベル、20,115の年齢ラベル、3,513の肌色ラベルを持つ8,311の画像が得られた。 以上の結果から, 年齢にかかわる有意な公平性が示唆された。 未発見の成人の比率は、子供に比べて20.14%低い。 さらに,歩行者検知器の公平性に様々な運転シナリオがどう影響するかを考察する。 このバイアスは、低明度と低コントラストに対して、子供や女性にとってさらに悪化する可能性がある。

Autonomous driving systems have extended the spectrum of Web of Things for intelligent vehicles and have become an important component of the Web ecosystem. Similar to traditional Web-based applications, fairness is an essential aspect for ensuring the high quality of autonomous driving systems, particularly in the context of pedestrian detectors within them. However, there is an absence in the literature of a comprehensive assessment of the fairness of current Deep Learning (DL)-based pedestrian detectors. To fill the gap, we evaluate eight widely-explored DL-based pedestrian detectors across demographic groups on large-scale real-world datasets. To enable a thorough fairness evaluation, we provide extensive annotations for the datasets, resulting in 8,311 images with 16,070 gender labels, 20,115 age labels, and 3,513 skin tone labels. Our findings reveal significant fairness issues related to age. The undetected proportions for adults are 20.14% lower compared to children. Furthermore, we explore how various driving scenarios affect the fairness of pedestrian detectors. We find that the bias may exacerbate for children and females towards low brightness and low contrast.
翻訳日:2024-03-27 03:28:06 公開日:2024-03-25
# 複数の階層構造を利用した風力予測精度の向上

Improving the forecast accuracy of wind power by leveraging multiple hierarchical structure ( http://arxiv.org/abs/2308.03472v2 )

ライセンス: Link先を確認
Lucas English, Mahdi Abolghasemi, (参考訳) 再生可能エネルギー生成は、地球規模の脱炭素化において最も重要である。 再生可能エネルギー、特に風力エネルギーの予測は、気象条件に依存する風力エネルギーの発生に固有の不確実性のために困難である。 和解による階層予測の最近の進歩は,短期的な風力エネルギー予測の質を著しく向上させた。 本研究では,風力発電所におけるタービンの断面的・時間的階層構造を活用し,その統合的断面的・時間的次元が,風力発電所における予測精度にどのように価値をもたらすかをさらに調査する。 その結果,複数の時間的アグリゲーションにおいて,個別の横断的アグリゲーションよりも時間的アグリゲーションの方が優れていることがわかった。 さらに、時間的相互調整による機械学習に基づく予測は、粗い時間的粒度において高い精度を示し、短期的な風速予測への採用を促す可能性がある。 実験的に,様々な予測地平線とレベルにわたって,高周波風速データを予測するための最良の手法について,意思決定者に洞察を提供する。

Renewable energy generation is of utmost importance for global decarbonization. Forecasting renewable energies, particularly wind energy, is challenging due to the inherent uncertainty in wind energy generation, which depends on weather conditions. Recent advances in hierarchical forecasting through reconciliation have demonstrated a significant increase in the quality of wind energy forecasts for short-term periods. We leverage the cross-sectional and temporal hierarchical structure of turbines in wind farms and build cross-temporal hierarchies to further investigate how integrated cross-sectional and temporal dimensions can add value to forecast accuracy in wind farms. We found that cross-temporal reconciliation was superior to individual cross-sectional reconciliation at multiple temporal aggregations. Additionally, machine learning based forecasts that were cross-temporally reconciled demonstrated high accuracy at coarser temporal granularities, which may encourage adoption for short-term wind forecasts. Empirically, we provide insights for decision-makers on the best methods for forecasting high-frequency wind data across different forecasting horizons and levels.
翻訳日:2024-03-27 03:28:06 公開日:2024-03-25
# テキストと画像の人物再識別のための雑音対応学習

Noisy-Correspondence Learning for Text-to-Image Person Re-identification ( http://arxiv.org/abs/2308.09911v2 )

ライセンス: Link先を確認
Yang Qin, Yingke Chen, Dezhong Peng, Xi Peng, Joey Tianyi Zhou, Peng Hu, (参考訳) テキスト・ツー・イメージ・パーソン・リアイデンティティ(TIReID)は、テキスト・クエリーに基づいて対象者を検索することを目的として、モダル・コミュニティにおいて魅力的なトピックである。 多くのTIReID手法が提案され、有望な性能を達成したが、実世界のシナリオでは必ずしもそうではないため、トレーニング画像とテキストのペアが正しく一致していると暗黙的に仮定している。 実際には、画像とテキストのペアは、画像の品質の低さとアノテーションの誤りのため、必然的に非相関性または偽相関性、すなわちノイズ対応(NC)が存在する。 この問題に対処するために,NCでも頑健な視覚関係を学習できる新しいロバストデュアル・エンベディング法(RDE)を提案する。 具体的には、RDEは2つの主要コンポーネントから構成される。 1) 2重埋め込みモジュールの二重きめ細かな決定を活用してクリーンなトレーニングデータのコンセンサスセットを得る信頼性コンセンサスディビジョン(CCD)モジュールにより、モデルが正確で信頼性の高い視覚的セマンティックアソシエーションを学習できるようにする。 2) トリプルトアライメント損失(TAL)は, 従来のトリプルトランキングの損失を最強の負の試料で緩和し, 全負の試料の対数指数上限に緩和する。 我々は、CUHK-PEDES、ICFG-PEDES、RSTPReIDの3つの公開ベンチマークにおいて、RDEの性能と堅牢性を評価するために広範な実験を行った。 提案手法は,3つのデータセットの合成ノイズ対応と非合成ノイズ対応を両立させる。 コードはhttps://github.com/QinYang79/RDEで入手できる。

Text-to-image person re-identification (TIReID) is a compelling topic in the cross-modal community, which aims to retrieve the target person based on a textual query. Although numerous TIReID methods have been proposed and achieved promising performance, they implicitly assume the training image-text pairs are correctly aligned, which is not always the case in real-world scenarios. In practice, the image-text pairs inevitably exist under-correlated or even false-correlated, a.k.a noisy correspondence (NC), due to the low quality of the images and annotation errors. To address this problem, we propose a novel Robust Dual Embedding method (RDE) that can learn robust visual-semantic associations even with NC. Specifically, RDE consists of two main components: 1) A Confident Consensus Division (CCD) module that leverages the dual-grained decisions of dual embedding modules to obtain a consensus set of clean training data, which enables the model to learn correct and reliable visual-semantic associations. 2) A Triplet Alignment Loss (TAL) relaxes the conventional Triplet Ranking loss with the hardest negative samples to a log-exponential upper bound over all negative ones, thus preventing the model collapse under NC and can also focus on hard-negative samples for promising performance. We conduct extensive experiments on three public benchmarks, namely CUHK-PEDES, ICFG-PEDES, and RSTPReID, to evaluate the performance and robustness of our RDE. Our method achieves state-of-the-art results both with and without synthetic noisy correspondences on all three datasets. Code is available at https://github.com/QinYang79/RDE.
翻訳日:2024-03-27 03:28:06 公開日:2024-03-25
# ブロックシャッフルと回転による対向移動性の向上

Boosting Adversarial Transferability by Block Shuffle and Rotation ( http://arxiv.org/abs/2308.10299v3 )

ライセンス: Link先を確認
Kunyu Wang, Xuanran He, Wenxuan Wang, Xiaosen Wang, (参考訳) 敵対的な例は、知覚できない摂動を伴うディープニューラルネットワークを誤解させ、ディープラーニングに重大な脅威をもたらした。 重要な側面は転送可能性であり、これは他のモデルを欺く能力を参照し、ブラックボックス設定での攻撃を可能にする。 転送可能性を高めるために様々な方法が提案されているが、ホワイトボックス攻撃に比べて性能は低い。 本研究では,従来の入力変換に基づく攻撃が主流の転送ベース攻撃の1つであり,様々なモデルに対するアテンション・ヒートマップが異なる結果となり,転送可能性の制限が生じることを観察する。 また、本画像の本質的な関係を断ち切ることで、原画像の注目熱マップが破壊されることも見いだされる。 そこで本研究では,ブロックシャッフル・アンド・ローテーション(BSR)と呼ばれる新しい入力変換に基づく攻撃を提案する。 具体的には、BSRは入力画像を複数のブロックに分割し、次にランダムにシャッフルし、これらのブロックを回転させ、勾配計算のための新しい画像群を構築する。 ImageNetデータセットの実証的な評価により、BSRはシングルモデルとアンサンブルモデル設定の下で既存の入力変換ベースの方法よりもはるかに優れた転送性が得られることが示された。 現在の入力変換法とBSRを組み合わせることで、転送性が向上し、最先端の手法よりも大幅に向上する。 コードはhttps://github.com/Trustworthy-AI-Group/BSRで入手できる。

Adversarial examples mislead deep neural networks with imperceptible perturbations and have brought significant threats to deep learning. An important aspect is their transferability, which refers to their ability to deceive other models, thus enabling attacks in the black-box setting. Though various methods have been proposed to boost transferability, the performance still falls short compared with white-box attacks. In this work, we observe that existing input transformation based attacks, one of the mainstream transfer-based attacks, result in different attention heatmaps on various models, which might limit the transferability. We also find that breaking the intrinsic relation of the image can disrupt the attention heatmap of the original image. Based on this finding, we propose a novel input transformation based attack called block shuffle and rotation (BSR). Specifically, BSR splits the input image into several blocks, then randomly shuffles and rotates these blocks to construct a set of new images for gradient calculation. Empirical evaluations on the ImageNet dataset demonstrate that BSR could achieve significantly better transferability than the existing input transformation based methods under single-model and ensemble-model settings. Combining BSR with the current input transformation method can further improve the transferability, which significantly outperforms the state-of-the-art methods. Code is available at https://github.com/Trustworthy-AI-Group/BSR
翻訳日:2024-03-27 03:28:06 公開日:2024-03-25
# 大規模言語モデルに基づく自律エージェントに関する調査

A Survey on Large Language Model based Autonomous Agents ( http://arxiv.org/abs/2308.11432v4 )

ライセンス: Link先を確認
Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang, Xu Chen, Yankai Lin, Wayne Xin Zhao, Zhewei Wei, Ji-Rong Wen, (参考訳) 自律的なエージェントは、長い間、学術と産業の両方で顕著な研究の焦点であった。 この分野での以前の研究は、しばしば孤立した環境の中で限られた知識を持つ訓練エージェントに焦点を当てており、それは人間の学習プロセスと大きく異なるため、エージェントが人間のような決定を下すのを困難にしている。 近年,膨大な量のWeb知識の獲得により,人間レベルの知能を実現する上で,大きな言語モデル(LLM)が顕著な可能性を示している。 LLMをベースとした自律型エージェントの研究が急増した。 本稿では、これらの研究を総合的に調査し、LLMに基づく自律エージェントの分野を総合的な視点から体系的にレビューする。 より具体的には、LLMに基づく自律エージェントの構築について論じ、前回の作業の大部分を包含する統一的なフレームワークを提案する。 次に、社会科学、自然科学、工学の分野におけるLLMベースの自律エージェントの多様な応用について概観する。 最後に,LLMをベースとした自律エージェントの評価手法について検討する。 本研究は,本分野における課題と今後の方向性についても述べる。 このフィールドを追跡し、調査を継続的に更新するために、私たちはhttps://github.com/Paitesanshi/LLM-Agent-Survey.comで関連するリファレンスのリポジトリを管理します。

Autonomous agents have long been a prominent research focus in both academic and industry communities. Previous research in this field often focuses on training agents with limited knowledge within isolated environments, which diverges significantly from human learning processes, and thus makes the agents hard to achieve human-like decisions. Recently, through the acquisition of vast amounts of web knowledge, large language models (LLMs) have demonstrated remarkable potential in achieving human-level intelligence. This has sparked an upsurge in studies investigating LLM-based autonomous agents. In this paper, we present a comprehensive survey of these studies, delivering a systematic review of the field of LLM-based autonomous agents from a holistic perspective. More specifically, we first discuss the construction of LLM-based autonomous agents, for which we propose a unified framework that encompasses a majority of the previous work. Then, we present a comprehensive overview of the diverse applications of LLM-based autonomous agents in the fields of social science, natural science, and engineering. Finally, we delve into the evaluation strategies commonly used for LLM-based autonomous agents. Based on the previous studies, we also present several challenges and future directions in this field. To keep track of this field and continuously update our survey, we maintain a repository of relevant references at https://github.com/Paitesanshi/LLM-Agent-Survey.
翻訳日:2024-03-27 03:28:06 公開日:2024-03-25
# ビザンチン・ロバスト・フェデレーション学習におけるハマーの最小化アプローチ

A Huber Loss Minimization Approach to Byzantine Robust Federated Learning ( http://arxiv.org/abs/2308.12581v2 )

ライセンス: Link先を確認
Puning Zhao, Fei Yu, Zhiguo Wan, (参考訳) フェデレートされた学習システムは、敵対的な攻撃を受けやすい。 これに対抗するために,ハマー損失最小化に基づく新しいアグリゲータを導入し,包括的な理論的解析を行う。 独立で同一に分散された仮定(すなわちd)の下では、我々のアプローチは既存の方法と比較していくつかの利点がある。 まず、攻撃されたクライアントの比率を表す$\epsilon$に最適に依存する。 第二に、我々のアプローチは$\epsilon$の正確な知識を必要としない。 第3に、異なるクライアントが不平等なデータサイズを持つことができる。 次に、クライアントがわずかに異なる分布を持つような非i-i-dデータを含むように分析を拡張します。

Federated learning systems are susceptible to adversarial attacks. To combat this, we introduce a novel aggregator based on Huber loss minimization, and provide a comprehensive theoretical analysis. Under independent and identically distributed (i.i.d) assumption, our approach has several advantages compared to existing methods. Firstly, it has optimal dependence on $\epsilon$, which stands for the ratio of attacked clients. Secondly, our approach does not need precise knowledge of $\epsilon$. Thirdly, it allows different clients to have unequal data sizes. We then broaden our analysis to include non-i.i.d data, such that clients have slightly different distributions.
翻訳日:2024-03-27 03:28:06 公開日:2024-03-25
# 感性自然言語の解説

Situated Natural Language Explanations ( http://arxiv.org/abs/2308.14115v2 )

ライセンス: Link先を確認
Zining Zhu, Haoming Jiang, Jingfeng Yang, Sreyashi Nag, Chao Zhang, Jie Huang, Yifan Gao, Frank Rudzicz, Bing Yin, (参考訳) 自然言語は人間に決定を説明する最もアクセスしやすいツールであり、大きな事前訓練された言語モデル(PLM)は、一貫性のある自然言語の説明(NLE)を生成する印象的な能力を示している。 既存のNLE研究の観点は、聴衆を考慮に入れていない。 NLEは高いテキスト品質を持つことができるが、観客のニーズや嗜好に対応できないかもしれない。 この制限に対処するために、別の視点である「textit{situated} NLE」を提案する。 評価面では,自動評価スコアを設定した。 これらのスコアは、語彙的、意味的、実践的なカテゴリにおけるNLEの特性を記述する。 生成側では,3つの迅速な技術技術を特定し,その適用性を評価する。 Situated NLEは視点を提供し、説明の生成と評価に関するさらなる研究を促進する。

Natural language is among the most accessible tools for explaining decisions to humans, and large pretrained language models (PLMs) have demonstrated impressive abilities to generate coherent natural language explanations (NLE). The existing NLE research perspectives do not take the audience into account. An NLE can have high textual quality, but it might not accommodate audiences' needs and preference. To address this limitation, we propose an alternative perspective, \textit{situated} NLE. On the evaluation side, we set up automated evaluation scores. These scores describe the properties of NLEs in lexical, semantic, and pragmatic categories. On the generation side, we identify three prompt engineering techniques and assess their applicability on the situations. Situated NLE provides a perspective and facilitates further research on the generation and evaluation of explanations.
翻訳日:2024-03-27 03:17:47 公開日:2024-03-25
# BigVSAN: Slicing Adversarial NetworkによるGANベースのニューラルヴォコーダの強化

BigVSAN: Enhancing GAN-based Neural Vocoders with Slicing Adversarial Network ( http://arxiv.org/abs/2309.02836v2 )

ライセンス: Link先を確認
Takashi Shibuya, Yuhta Takida, Yuki Mitsufuji, (参考訳) 高忠実度音声波形をリアルタイムより高速に合成できるGANベースのボコーダの研究が盛んに行われている。 しかし、ほとんどのGANは、特徴空間における実データと偽データとを識別する最適なプロジェクションを得ることができないことが報告されている。 本報告では, 画像生成作業において, 最適投影を見出すことができる改良型GANトレーニングフレームワークであるスライシング・ディバイサル・ネットワーク(SAN)が有効であることが実証されている。 本稿では,VocodeタスクにおけるSANの有効性について検討する。 そこで本研究では,ほとんどのGANベースのボコーダが採用している最小二乗GANを,損失関数がSANの要求を満たすように修正する手法を提案する。 実験により,SANは,BigVGANを含むGANベースのボコーダの性能を小さな修正で向上させることができることを示した。 私たちのコードはhttps://github.com/sony/bigvsan.comで公開されています。

Generative adversarial network (GAN)-based vocoders have been intensively studied because they can synthesize high-fidelity audio waveforms faster than real-time. However, it has been reported that most GANs fail to obtain the optimal projection for discriminating between real and fake data in the feature space. In the literature, it has been demonstrated that slicing adversarial network (SAN), an improved GAN training framework that can find the optimal projection, is effective in the image generation task. In this paper, we investigate the effectiveness of SAN in the vocoding task. For this purpose, we propose a scheme to modify least-squares GAN, which most GAN-based vocoders adopt, so that their loss functions satisfy the requirements of SAN. Through our experiments, we demonstrate that SAN can improve the performance of GAN-based vocoders, including BigVGAN, with small modifications. Our code is available at https://github.com/sony/bigvsan.
翻訳日:2024-03-27 03:17:47 公開日:2024-03-25
# ゼロ次元超ラジカル量子相転移の有効場理論と有限温度特性

Effective Field Theories and Finite-temperature Properties of Zero-dimensional Superradiant Quantum Phase Transitions ( http://arxiv.org/abs/2309.06738v2 )

ライセンス: Link先を確認
Zi-Yong Ge, Heng Fan, Franco Nori, (参考訳) ゼロ次元超放射型量子相転移の存在は、従来の統計物理学と矛盾しているように見える。 この研究は、この明らかな矛盾を明らかにしている。 我々は、光-物質相互作用系の対応する有効場の理論と有限温度特性を実証し、この零次元量子相転移がどのように起こるかを示す。 我々はまず、超ラジカル量子相転移をホストする最小モデルであるRabiモデルに焦点を当てる。 経路積分法により、光子自由度の想像的時間的作用を導出する。 また, 動的臨界指数を温度と光子周波数のリスケーリングとして定義し, 有効作用の次元解析を行う。 動的臨界指数は、ラビモデルの有効理論が自由スカラー場であり、真の二階量子相転移が現れることを示している。 これらの結果は,次数パラメータの仮想時間相関関数の数値シミュレーションにより検証される。 さらに、この手法をディックモデルに一般化する。 この結果から, ゼロ次元超ラジアント量子相転移を従来の統計物理学と整合させ, 有効場理論の観点から理解する道を開いた。

The existence of zero-dimensional superradiant quantum phase transitions seems inconsistent with conventional statistical physics. This work clarifies this apparent inconsistency. We demonstrate the corresponding effective field theories and finite-temperature properties of light-matter interacting systems, and show how this zero-dimensional quantum phase transition occurs. We first focus on the Rabi model, which is a minimum model that hosts a superradiant quantum phase transition. With the path integral method, we derive the imaginary-time action of the photon degrees of freedom. We also define a dynamical critical exponent as the rescaling between the temperature and the photon frequency, and perform dimensional analysis to the effective action. The dynamical critical exponent shows that the effective theory of the Rabi model is a free scalar field, where a true second-order quantum phase transition emerges. These results are also verified by numerical simulations of imaginary-time correlation functions of the order parameter. Furthermore, we also generalize this method to the Dicke model. Our results make the zero-dimensional superradiant quantum phase transition compatible with conventional statistical physics, and pave the way to understand it in the perspective of effective field theories.
翻訳日:2024-03-27 03:17:47 公開日:2024-03-25
# HealthFC:Evidence-based Medical Fact-Checkingによるヘルスクレームの検証

HealthFC: Verifying Health Claims with Evidence-Based Medical Fact-Checking ( http://arxiv.org/abs/2309.08503v2 )

ライセンス: Link先を確認
Juraj Vladika, Phillip Schneider, Florian Matthes, (参考訳) デジタル時代には、インターネット上で健康アドバイスを求めることが一般的になっている。 同時に、オンライン医療コンテンツの信頼性を決定することはますます困難になっている。 Fact-checkingは、信頼できる知識源からの証拠を用いて、事実的主張の正確性を評価するアプローチとして登場した。 本稿では,この課題に対する自然言語処理(NLP)の自動化を支援するために,新しいデータセットHealthFCを提案する。 ドイツ語と英語の健康に関する750の主張からなり、医学の専門家による正確さのラベルが付けられ、体系的なレビューや臨床試験の証拠が裏付けられている。 データセットの分析を行い、その特性と課題を強調します。 データセットは、エビデンス検索、クレーム検証、説明生成など、自動化された事実チェックに関連するNLPタスクに使用することができる。 テスト目的のために、異なるアプローチに基づくベースラインシステムを提供し、その性能を調べ、その結果について議論する。 データセットは、将来の使用の可能性が高い、挑戦的なテストベッドであることを示す。

In the digital age, seeking health advice on the Internet has become a common practice. At the same time, determining the trustworthiness of online medical content is increasingly challenging. Fact-checking has emerged as an approach to assess the veracity of factual claims using evidence from credible knowledge sources. To help advance automated Natural Language Processing (NLP) solutions for this task, in this paper we introduce a novel dataset HealthFC. It consists of 750 health-related claims in German and English, labeled for veracity by medical experts and backed with evidence from systematic reviews and clinical trials. We provide an analysis of the dataset, highlighting its characteristics and challenges. The dataset can be used for NLP tasks related to automated fact-checking, such as evidence retrieval, claim verification, or explanation generation. For testing purposes, we provide baseline systems based on different approaches, examine their performance, and discuss the findings. We show that the dataset is a challenging test bed with a high potential for future use.
翻訳日:2024-03-27 03:07:37 公開日:2024-03-25
# プロンプトチューニングにおけるスキルニューロンとロバストネスの関係について

On the Relationship between Skill Neurons and Robustness in Prompt Tuning ( http://arxiv.org/abs/2309.12263v2 )

ライセンス: Link先を確認
Leon Ackermann, Xenia Ohmer, (参考訳) Prompt Tuningは、事前訓練された大規模言語モデル(PLM)のパラメータ効率の高い微調整法として人気がある。 RoBERTaの実験に基づき、Prompt Tuningはトランスフォーマーのフィードフォワードネットワーク内の特定のニューロンを活性化することが示唆されている。 本稿では、RoBERTaとT5を用いて、これらの「スキルニューロン」に関連して、Prompt Tuningのロバスト性について検討する。 特定のタスクに調整されたプロンプトは、同じタイプのタスクに転送可能であるが、敵データに対してあまり堅牢ではないことを示す。 RoBERTaで調整されたプロンプトは、敵データで出力以下のパフォーマンスを示すが、T5で調整されたプロンプトはわずかに頑丈であり、3つのケースのうち2つでオーバーチャンス性能を維持する。 同時に、RoBERTaにスキルニューロンが存在することの発見を再現し、さらにT5にもスキルニューロンが存在することを示す。 興味深いことに、非逆境データ上で決定されるT5のスキルニューロンも、RoBERTaではそうではない逆境データ上で最も予測可能なニューロンである。 我々は,高次対向ロバスト性は,モデルが関連するスキルニューロンを敵データ上で一貫して活性化する能力に関係していると結論づける。

Prompt Tuning is a popular parameter-efficient finetuning method for pre-trained large language models (PLMs). Based on experiments with RoBERTa, it has been suggested that Prompt Tuning activates specific neurons in the transformer's feed-forward networks, that are highly predictive and selective for the given task. In this paper, we study the robustness of Prompt Tuning in relation to these "skill neurons", using RoBERTa and T5. We show that prompts tuned for a specific task are transferable to tasks of the same type but are not very robust to adversarial data. While prompts tuned for RoBERTa yield below-chance performance on adversarial data, prompts tuned for T5 are slightly more robust and retain above-chance performance in two out of three cases. At the same time, we replicate the finding that skill neurons exist in RoBERTa and further show that skill neurons also exist in T5. Interestingly, the skill neurons of T5 determined on non-adversarial data are also among the most predictive neurons on the adversarial data, which is not the case for RoBERTa. We conclude that higher adversarial robustness may be related to a model's ability to consistently activate the relevant skill neurons on adversarial data.
翻訳日:2024-03-27 03:07:37 公開日:2024-03-25
# LLMによるテーブル型推論能力の有効蒸留

Effective Distillation of Table-based Reasoning Ability from LLMs ( http://arxiv.org/abs/2309.13182v2 )

ライセンス: Link先を確認
Bohao Yang, Chen Tang, Kun Zhao, Chenghao Xiao, Chenghua Lin, (参考訳) 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。 しかし、その膨大なパラメータサイズと計算能力に対する非常に高い要求は、その実践的な展開に挑戦する。 近年の研究では、LLMの特定の機能、例えば数値的推論は蒸留によってより小さなモデルに移行できることが明らかになっている。 LLMをテーブルベースの推論に活用する可能性を探る研究もある。 しかし、科学的なテーブル・ツー・テクスチャ生成タスクに特化している小さなモデルでは、テーブル推論スキルに焦点を当てる以前の研究は行われていない。 本稿では, LLMをより小型なモデルに蒸留することを目的とした, テーブル型推論蒸留法を提案する。 実験の結果, 蒸留データを用いた2億2000万のパラメータモデル(Flan-T5-base)が, 従来の微調整ベースラインよりも大幅に改善されているだけでなく, 科学表-テキスト生成データセット上での特定のLCMを超えていることがわかった。 私たちのコードはhttps://github.com/Bernard-Yang/DistillTableCoT.comで利用可能です。

Large Language Models (LLMs) have demonstrated remarkable performance across a wide range of natural language processing tasks. However, their enormous parameter size and extremely high requirements for compute power pose challenges for their practical deployment. Recent research has revealed that specific capabilities of LLMs, such as numerical reasoning, can be transferred to smaller models through distillation. Some studies explore the potential of leveraging LLMs to perform table-based reasoning. However, there has been no prior work focusing on table reasoning skills in smaller models specifically tailored for scientific table-to-text generation tasks. In this paper, we propose a novel table-based reasoning distillation approach, with the aim of distilling LLMs into tailored smaller models. Our experimental results have shown that a 220 million parameter model (Flan-T5-base) fine-tuned using distilled data, not only achieves a significant improvement compared to traditionally fine-tuned baselines, but also surpasses specific LLMs on a scientific table-to-text generation dataset. Our code is available at https://github.com/Bernard-Yang/DistillTableCoT.
翻訳日:2024-03-27 03:07:37 公開日:2024-03-25
# 有界離散時系列における概周期性の普遍性

Universality of almost periodicity in bounded discrete time series ( http://arxiv.org/abs/2310.00290v5 )

ライセンス: Link先を確認
Chikara Nakayama, Tsuyoshi Yoneda, (参考訳) 任意の有界離散時系列を考える。 その統計的特徴から、フーリエ変換を使わずに、対応する時系列を適切に特徴づける概周期関数を求める。

We consider arbitrary bounded discrete time series. From its statistical feature, without any use of the Fourier transform, we find an almost periodic function which suitably characterizes the corresponding time series.
翻訳日:2024-03-27 02:57:27 公開日:2024-03-25
# SEA: 意識マスクを推定したスパースリニア注意

SEA: Sparse Linear Attention with Estimated Attention Mask ( http://arxiv.org/abs/2310.01777v2 )

ライセンス: Link先を確認
Heejun Lee, Jina Kim, Jeffrey Willette, Sung Ju Hwang, (参考訳) 近年のトランスフォーマーアーキテクチャは、自然言語理解のように、逐次的要素間のペアワイズ関係のモデリングを必要とするタスクにおいて、ブレークスルーを導いている。 しかし、長い連続性は注意操作の二次的な複雑さのために問題を引き起こす。 従来の研究は、注意行列をスパース化または線形に近似することで複雑さを低下させることを目的としていた。 しかし、これらの手法は、教師の注意マトリックスから直接知識を抽出することはできず、しばしばスクラッチから完全に再訓練する必要がある。 さらに、従来のスパースと線形アプローチは、完全な注意行列を生成できない場合、解釈可能性を失う。 これらの課題に対処するため,提案するSEA: 推定アテンションマスクを用いた疎線形アテンションを提案する。 SEAは、カーネルベースの線形注意による線形複雑度でアテンション行列を推定し、その後、トップk選択によるスパースアテンション行列を生成して、スパースアテンション演算を行う。 言語モデリングタスク(Wikitext2)では、以前の線形およびスパースなアテンションメソッドは、二次的なOPT-1.3Bベースラインよりも約2倍悪いパープレキシティスコアを示し、SEAはOPT-1.3Bの約半分のメモリを使用してOPT-1.3Bよりも優れたパープレキシティを達成し、解釈可能なアテンションマトリックスを提供する。 メモリの少ないリソース制限のデバイスで大規模なトランスフォーマーを動作させることで、我々の作業に大きな実践的影響を与えるだろうと考えています。

The transformer architecture has driven breakthroughs in recent years on tasks which require modeling pairwise relationships between sequential elements, as is the case in natural language understanding. However, long seqeuences pose a problem due to the quadratic complexity of the attention operation. Previous research has aimed to lower the complexity by sparsifying or linearly approximating the attention matrix. Yet, these approaches cannot straightforwardly distill knowledge from a teacher's attention matrix and often require complete retraining from scratch. Furthermore, previous sparse and linear approaches lose interpretability if they cannot produce full attention matrices. To address these challenges, we propose SEA: Sparse linear attention with an Estimated Attention mask. SEA estimates the attention matrix with linear complexity via kernel-based linear attention, then subsequently creates a sparse attention matrix with a top-k selection to perform a sparse attention operation. For language modeling tasks (Wikitext2), previous linear and sparse attention methods show roughly two-fold worse perplexity scores over the quadratic OPT-1.3B baseline, while SEA achieves better perplexity than OPT-1.3B, using roughly half the memory of OPT-1.3B, providing interpretable attention matrix. We believe that our work will have a large practical impact, as it opens the possibility of running large transformers on resource-limited devices with less memory.
翻訳日:2024-03-27 02:57:27 公開日:2024-03-25
# 監視量子ビットにおける局在、フラクタル性、エルゴード性

Localization, fractality, and ergodicity in a monitored qubit ( http://arxiv.org/abs/2310.01997v4 )

ライセンス: Link先を確認
Paul Pöpperl, Igor V. Gornyi, David B. Saakian, Oleg M. Yevtushenko, (参考訳) 反復的アンシラ測定を対象とする1つの2段階系(量子ビット)の統計特性について検討した。 このセットアップは、システムのユニタリダイナミクスと量子測定によって導入された非ユニタリ確率の間の複雑な相互作用を探索するための基本的な最小限のモデルであり、これは測定誘起相転移の現象の中心である。 この「トイモデル」は、量子ビットの量子状態の分布関数を長時間の極限で表す、驚くほどリッチなダイナミクスを持つことを示した。 我々はアンダーソン局在の現象と魅力的な類似点を発見したが、それは異なる基礎的なメカニズムによって支配されている。 具体的には、モニターされた量子ビットの状態分布関数は、ブロッホ球面上の単一の角度でパラメータ化され、アンダーソン転移の理論に精通した様々な種類の振舞いを示し、完全な局在化からほぼ均一な非局在化にまたがり、2つの極限の間にフラクタリティが生じる。 各種特殊ケースの解析解と2つの相補的な数値的アプローチを組み合わせることにより、モデルの「位相図」を記述した構造を包括的に理解する。 我々は、初期状態の分類と定量化を行い、監視された量子ビットの2つの異なる位相:エルゴディックと非エルゴディックを同定する。 さらに,状態分布関数がデルタピークから構成される非エルゴード位相内の真の局所化位相を,拡張分布を特徴とする非局在化位相とは対照的に同定する。 監視量子ビットにおけるこれらの位相の同定と遷移の実証が主な発見である。

We study the statistical properties of a single two-level system (qubit) subject to repetitive ancilla-based measurements. This setup is a fundamental minimal model for exploring the intricate interplay between the unitary dynamics of the system and the nonunitary stochasticity introduced by quantum measurements, which is central to the phenomenon of measurement-induced phase transitions. We demonstrate that this "toy model" harbors remarkably rich dynamics, manifesting in the distribution function of the qubit's quantum states in the long-time limit. We uncover a compelling analogy with the phenomenon of Anderson localization, albeit governed by distinct underlying mechanisms. Specifically, the state distribution function of the monitored qubit, parameterized by a single angle on the Bloch sphere, exhibits diverse types of behavior familiar from the theory of Anderson transitions, spanning from complete localization to almost uniform delocalization, with fractality occurring between the two limits. By combining analytical solutions for various special cases with two complementary numerical approaches, we achieve a comprehensive understanding of the structure delineating the "phase diagram" of the model. We categorize and quantify the emergent regimes and identify two distinct phases of the monitored qubit: ergodic and nonergodic. Furthermore, we identify a genuinely localized phase within the nonergodic phase, where the state distribution functions consist of delta peaks, as opposed to the delocalized phase characterized by extended distributions. Identification of these phases and demonstration of transitions between them in a monitored qubit are our main findings.
翻訳日:2024-03-27 02:57:27 公開日:2024-03-25
# HiFi-123:高精細画像から3Dコンテンツ生成へ

HiFi-123: Towards High-fidelity One Image to 3D Content Generation ( http://arxiv.org/abs/2310.06744v2 )

ライセンス: Link先を確認
Wangbo Yu, Li Yuan, Yan-Pei Cao, Xiangjun Gao, Xiaoyu Li, Wenbo Hu, Long Quan, Ying Shan, Yonghong Tian, (参考訳) 拡散モデルの最近の進歩により、単一の画像から3次元生成が可能になった。 しかし、現在の手法は、ぼやけたテクスチャや参照画像からの逸脱を伴って、新しいビューの最適化結果を生成することが多く、実用的利用を制限している。 本稿では,高忠実かつ多視点で一貫した3次元生成が可能なHiFi-123を提案する。 まず,拡散型ゼロショットノベルビュー合成法の忠実度を大幅に向上させるRGNV(Reference-Guided Novel View Enhancement)手法を提案する。 第二に、RGNVに乗じて、新しいRGSD(Reference-Guided State Distillation)の損失を示す。 最適化に基づくイメージ・ツー・3Dパイプラインに組み込むと、3D生成の品質が大幅に向上し、最先端の性能が達成される。 包括的評価は,既存手法に対するアプローチの有効性を質的,定量的に示すものである。 ビデオはプロジェクトページで見ることができる。

Recent advances in diffusion models have enabled 3D generation from a single image. However, current methods often produce suboptimal results for novel views, with blurred textures and deviations from the reference image, limiting their practical applications. In this paper, we introduce HiFi-123, a method designed for high-fidelity and multi-view consistent 3D generation. Our contributions are twofold: First, we propose a Reference-Guided Novel View Enhancement (RGNV) technique that significantly improves the fidelity of diffusion-based zero-shot novel view synthesis methods. Second, capitalizing on the RGNV, we present a novel Reference-Guided State Distillation (RGSD) loss. When incorporated into the optimization-based image-to-3D pipeline, our method significantly improves 3D generation quality, achieving state-of-the-art performance. Comprehensive evaluations demonstrate the effectiveness of our approach over existing methods, both qualitatively and quantitatively. Video results are available on the project page.
翻訳日:2024-03-27 02:57:27 公開日:2024-03-25
# ブロックチェーン・フェデレーション学習における分散化の意義--モデル安定性と不整合の影響を評価する

The Implications of Decentralization in Blockchained Federated Learning: Evaluating the Impact of Model Staleness and Inconsistencies ( http://arxiv.org/abs/2310.07471v2 )

ライセンス: Link先を確認
Francesc Wilhelmi, Nima Afraz, Elia Guerra, Paolo Dini, (参考訳) Blockchainは、次世代アプリケーションで協調的なインテリジェンスを実現する上で重要な特性である、さらなる分散化、セキュリティ、不変性、信頼を提供することにより、フェデレーションドラーニング(FL)のような分散機械学習(ML)アプローチを強化することを約束する。 それでも、ピアツーピア(P2P)ブロックチェーンノードの本質的な分散運用は、FLの非チャーテッドな設定につながる。 本稿では,FLのオーケストレーションをブロックチェーンなどの民主的環境にアウトソーシングすることの実際的意義について検討する。 特に、ブロックチェーンのModus Operandiが支持する安定性と不整合のモデル化が、FLデバイスが非同期に保持するトレーニング手順に与える影響に焦点を当てる。 シミュレーションを用いて、よく知られたMNISTデータセットとCIFAR-10データセットに2つの異なるMLモデル(低レベルから高レベルまで)を適用することにより、ブロックチェーンFL動作を評価し、ソリューションの正確性とタイムラインに焦点を当てる。 その結果,モデル不整合がモデルの精度に及ぼす影響(予測精度が最大で35%低下する)が明らかとなり,基盤となるFLアプリケーションの特性に基づいて,ブロックチェーンシステムを適切に設計することの重要性が浮き彫りになった。

Blockchain promises to enhance distributed machine learning (ML) approaches such as federated learning (FL) by providing further decentralization, security, immutability, and trust, which are key properties for enabling collaborative intelligence in next-generation applications. Nonetheless, the intrinsic decentralized operation of peer-to-peer (P2P) blockchain nodes leads to an uncharted setting for FL, whereby the concepts of FL round and global model become meaningless, as devices' synchronization is lost without the figure of a central orchestrating server. In this paper, we study the practical implications of outsourcing the orchestration of FL to a democratic setting such as in a blockchain. In particular, we focus on the effects that model staleness and inconsistencies, endorsed by blockchains' modus operandi, have on the training procedure held by FL devices asynchronously. Using simulation, we evaluate the blockchained FL operation by applying two different ML models (ranging from low to high complexity) on the well-known MNIST and CIFAR-10 datasets, respectively, and focus on the accuracy and timeliness of the solutions. Our results show the high impact of model inconsistencies on the accuracy of the models (up to a ~35% decrease in prediction accuracy), which underscores the importance of properly designing blockchain systems based on the characteristics of the underlying FL application.
翻訳日:2024-03-27 02:57:27 公開日:2024-03-25
# 自己相似力学のためのデータ駆動モデリング

Data driven modeling for self-similar dynamics ( http://arxiv.org/abs/2310.08282v3 )

ライセンス: Link先を確認
Ruyi Tao, Ningning Tao, Yi-zhuang You, Jiang Zhang, (参考訳) 複雑なシステムのマルチスケールモデリングは、その複雑さを理解するのに不可欠である。 データ駆動型マルチスケールモデリングは、複雑なシステムに関わる課題に取り組むための有望なアプローチとして登場した。 一方、自己相似性は複雑なシステムで一般的であり、大規模な複雑なシステムを低コストでモデル化できることを示唆している。 本稿では,自己相似性を事前知識として組み込んだマルチスケールニューラルネットワークフレームワークを導入し,自己相似力学系のモデリングを容易にする。 決定論的ダイナミクスの場合、我々のフレームワークは力学が自己相似かどうかを識別できる。 不確実な力学では、どのパラメータ集合が自己相似性に近いかを比較し、決定することができる。 このフレームワークは、任意のスケールでモデリングするために、動的にスケール不変のカーネルを抽出することができる。 さらに,本手法は自己相似システムにおける電力法指数を同定することができる。 イジング模型の予備実験では、理論的な期待と一致した臨界指数が得られ、非平衡系の臨界相転移に対処するための貴重な洞察を与えた。

Multiscale modeling of complex systems is crucial for understanding their intricacies. Data-driven multiscale modeling has emerged as a promising approach to tackle challenges associated with complex systems. On the other hand, self-similarity is prevalent in complex systems, hinting that large-scale complex systems can be modeled at a reduced cost. In this paper, we introduce a multiscale neural network framework that incorporates self-similarity as prior knowledge, facilitating the modeling of self-similar dynamical systems. For deterministic dynamics, our framework can discern whether the dynamics are self-similar. For uncertain dynamics, it can compare and determine which parameter set is closer to self-similarity. The framework allows us to extract scale-invariant kernels from the dynamics for modeling at any scale. Moreover, our method can identify the power law exponents in self-similar systems. Preliminary tests on the Ising model yielded critical exponents consistent with theoretical expectations, providing valuable insights for addressing critical phase transitions in non-equilibrium systems.
翻訳日:2024-03-27 02:57:27 公開日:2024-03-25
# PhyloGFN : 生成フローネットワークを用いた系統解析

PhyloGFN: Phylogenetic inference with generative flow networks ( http://arxiv.org/abs/2310.08774v2 )

ライセンス: Link先を確認
Mingyang Zhou, Zichao Yan, Elliot Layne, Nikolay Malkin, Dinghuai Zhang, Moksh Jain, Mathieu Blanchette, Yoshua Bengio, (参考訳) フィロジェネティクス(英: Phylogenetics)は、生物学的実体間の進化的関係を研究する計算生物学の分野である。 その長い歴史と多くの応用にもかかわらず、配列データからの系統樹の推測は依然として困難であり、木の空間の複雑さは、現在の組合せ的および確率論的手法に重大な障害をもたらす。 本稿では,系統学における2つの中核的問題に対処するために,生成フローネットワーク(GFlowNets)の枠組みを採用する。 GFlowNetsは複雑な組合せ構造をサンプリングするのに適しているため、ツリートポロジと進化距離の多モード後部分布から探索とサンプリングを行うには自然な選択である。 我々は, 実際のベンチマークデータセット上で, 様々な, 高品質な進化仮説を生成できることを実証した。 PhyloGFNは、限界推定における先行研究と競合し、最先端の変分推定法よりも目標分布によく適合する。 私たちのコードはhttps://github.com/zmy1116/phylogfn.comで公開されています。

Phylogenetics is a branch of computational biology that studies the evolutionary relationships among biological entities. Its long history and numerous applications notwithstanding, inference of phylogenetic trees from sequence data remains challenging: the high complexity of tree space poses a significant obstacle for the current combinatorial and probabilistic techniques. In this paper, we adopt the framework of generative flow networks (GFlowNets) to tackle two core problems in phylogenetics: parsimony-based and Bayesian phylogenetic inference. Because GFlowNets are well-suited for sampling complex combinatorial structures, they are a natural choice for exploring and sampling from the multimodal posterior distribution over tree topologies and evolutionary distances. We demonstrate that our amortized posterior sampler, PhyloGFN, produces diverse and high-quality evolutionary hypotheses on real benchmark datasets. PhyloGFN is competitive with prior works in marginal likelihood estimation and achieves a closer fit to the target distribution than state-of-the-art variational inference methods. Our code is available at https://github.com/zmy1116/phylogfn.
翻訳日:2024-03-27 02:45:56 公開日:2024-03-25
# 量子エラー補正シンドローム測定による量子コンピュータの誤差構造の調査

Quantum computer error structure probed by quantum error correction syndrome measurements ( http://arxiv.org/abs/2310.12448v2 )

ライセンス: Link先を確認
Spiro Gicev, Lloyd C. L. Hollenberg, Muhammad Usman, (参考訳) 量子デバイスは、フォールトトレランスに必要な品質とスケールに急速に接近するので、量子エラー補正の研究を支える単純化されたエラーモデルの妥当性を実験的に評価する必要がある。 本研究では,IBM超伝導量子コンピュータ装置の性能評価を行い,回路サイズを最大23キュービットに向上させる重六角形符号症候群の測定を行った。 誤差モデルパラメータの解析関数を用いて、偏極雑音と偏波雑音の存在下での回路演算子変化率統計をモデル化した。 16回の繰り返し症候群測定サイクルから得られたデータは、一様偏極ノイズモデルと矛盾し、代わりにバイアスと不均一ノイズモデルを好むことが判明した。 時空間相関は, 検出事象に有意な時間相関が認められた。 これらの結果は、量子誤り訂正回路のノイズに存在するような非自明な構造を強調し、演算子測定統計によって明らかにされ、適応するためのノイズ調整符号とデコーダの開発を支援する。

With quantum devices rapidly approaching qualities and scales needed for fault tolerance, the validity of simplified error models underpinning the study of quantum error correction needs to be experimentally evaluated. In this work, we have assessed the performance of IBM superconducting quantum computer devices implementing heavy-hexagon code syndrome measurements with increasing circuit sizes up to 23 qubits, against the error assumptions underpinning code threshold calculations. Circuit operator change rate statistics in the presence of depolarizing and biased noise were modelled using analytic functions of error model parameters. Data from 16 repeated syndrome measurement cycles was found to be inconsistent with a uniform depolarizing noise model, favouring instead biased and inhomogeneous noise models. Spatial-temporal correlations investigated via $Z$ stabilizer measurements revealed significant temporal correlation in detection events. These results highlight the non-trivial structure which may be present in the noise of quantum error correction circuits, revealed by operator measurement statistics, and support the development of noise-tailored codes and decoders to adapt.
翻訳日:2024-03-27 02:45:56 公開日:2024-03-25
# HallusionBench:大規模視覚言語モデルにおける言語幻覚と視覚錯覚の高度な診断スイート

HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models ( http://arxiv.org/abs/2310.14566v5 )

ライセンス: Link先を確認
Tianrui Guan, Fuxiao Liu, Xiyang Wu, Ruiqi Xian, Zongxia Li, Xiaoyu Liu, Xijun Wang, Lichang Chen, Furong Huang, Yaser Yacoob, Dinesh Manocha, Tianyi Zhou, (参考訳) 本稿では,画像コンテキスト推論評価のための総合ベンチマークであるHalusionBenchを紹介する。 このベンチマークは、GPT-4V(Vision)、Gemini Pro Vision、Claude 3、LLaVA-1.5といった先進的な視覚言語モデル(LVLM)に対して、曖昧な理解と視覚データの解釈を強調することで、大きな課題を提示している。 このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。 我々は,これらの視覚的質問に対して,制御群を確立するための新しい構造を導入する。 この構造により、モデルの応答傾向、論理的整合性、および様々な障害モードの定量的解析を行うことができる。 HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。 特に、他の評価モデルは全て16%未満の精度を達成する。 さらに,本分析では,言語幻覚や視覚錯覚など,観察された障害モードだけでなく,これらの落とし穴の理解を深めている。 HallusionBench内の包括的ケーススタディは、LVLMにおける幻覚と幻覚の課題に光を当てた。 これらの知見に基づいて,今後の改善の道筋を提案する。 ベンチマークとコードベースはhttps://github.com/tianyi-lab/HallusionBench.orgからアクセスすることができる。

We introduce HallusionBench, a comprehensive benchmark designed for the evaluation of image-context reasoning. This benchmark presents significant challenges to advanced large visual-language models (LVLMs), such as GPT-4V(Vision), Gemini Pro Vision, Claude 3, and LLaVA-1.5, by emphasizing nuanced understanding and interpretation of visual data. The benchmark comprises 346 images paired with 1129 questions, all meticulously crafted by human experts. We introduce a novel structure for these visual questions designed to establish control groups. This structure enables us to conduct a quantitative analysis of the models' response tendencies, logical consistency, and various failure modes. In our evaluation on HallusionBench, we benchmarked 15 different models, highlighting a 31.42% question-pair accuracy achieved by the state-of-the-art GPT-4V. Notably, all other evaluated models achieve accuracy below 16%. Moreover, our analysis not only highlights the observed failure modes, including language hallucination and visual illusion, but also deepens an understanding of these pitfalls. Our comprehensive case studies within HallusionBench shed light on the challenges of hallucination and illusion in LVLMs. Based on these insights, we suggest potential pathways for their future improvement. The benchmark and codebase can be accessed at https://github.com/tianyi-lab/HallusionBench.
翻訳日:2024-03-27 02:45:56 公開日:2024-03-25
# BatteryML:バッテリ劣化による機械学習のためのオープンソースプラットフォーム

BatteryML:An Open-source platform for Machine Learning on Battery Degradation ( http://arxiv.org/abs/2310.14714v4 )

ライセンス: Link先を確認
Han Zhang, Xiaofan Gui, Shun Zheng, Ziheng Lu, Yuqi Li, Jiang Bian, (参考訳) バッテリーの劣化は、エネルギーストレージ領域における重要な関心事であり、機械学習が先進的な洞察とソリューションを促進する強力なツールとして台頭している。 しかし、この電気化学科学と機械学習の交わりは複雑な問題を引き起こす。 機械学習の専門家は、バッテリサイエンスの複雑さに悩まされることが多いが、バッテリ研究者は、特定のデータセットに合わせて複雑なモデルを適用する際のハードルに直面している。 これ以外にも、データフォーマットと評価ベンチマークを含む、バッテリ劣化モデリングのための凝集度の高い標準は、目立って欠落している。 これらの障害を認識し、データ前処理、機能抽出、そして従来のモデルと最先端モデルの両方の実装を統一するように設計された、ワンステップ、オールエンコンパス、オープンソースプラットフォームであるBatteryMLを紹介します。 この合理化されたアプローチは、研究アプリケーションの実用性と効率を高めることを約束する。 BatteryMLはこの空白を埋めようとしている。さまざまな専門分野の専門家が協力して貢献できる環境を育み、バッテリリサーチの全体的な理解と進歩を高める。プロジェクトのコードはGitHubでhttps://github.com/microsoft/BatteryMLで公開されている。

Battery degradation remains a pivotal concern in the energy storage domain, with machine learning emerging as a potent tool to drive forward insights and solutions. However, this intersection of electrochemical science and machine learning poses complex challenges. Machine learning experts often grapple with the intricacies of battery science, while battery researchers face hurdles in adapting intricate models tailored to specific datasets. Beyond this, a cohesive standard for battery degradation modeling, inclusive of data formats and evaluative benchmarks, is conspicuously absent. Recognizing these impediments, we present BatteryML - a one-step, all-encompass, and open-source platform designed to unify data preprocessing, feature extraction, and the implementation of both traditional and state-of-the-art models. This streamlined approach promises to enhance the practicality and efficiency of research applications. BatteryML seeks to fill this void, fostering an environment where experts from diverse specializations can collaboratively contribute, thus elevating the collective understanding and advancement of battery research.The code for our project is publicly available on GitHub at https://github.com/microsoft/BatteryML.
翻訳日:2024-03-27 02:45:56 公開日:2024-03-25
# 宇宙論における絡み合い

Entanglement in Cosmology ( http://arxiv.org/abs/2310.17208v3 )

ライセンス: Link先を確認
Konstantinos Boutivas, Dimitrios Katsinis, Georgios Pastras, Nikolaos Tetradis, (参考訳) 膨張期とその後の放射線支配の期間を通じて,Bunch-Davies真空から始まる球状領域内の無質量場の絡み合いエントロピーの進化を計算した。 直接観測できるモードの絡み合いに焦点を合わせるため,最後のモードの波長によって設定された紫外線遮断をインフレーションの終了時に地平線から放出する。 インフレーション時の各モードの圧縮状態への遷移と、エンタングルメントエントロピーを高めるために放射線支配が設定されたときに余分なスキーズが生じる。 放射線支配時代への移行の直後、体積項は、圧縮状態にある系に共通するように、後期のエントロピーへの主要な寄与となる。 我々はエントロピーの大きさを推定し、インフレーション中に地平線から出るモードの量子から古典への遷移の光における解釈について議論する。 我々の結果は、インフレーション中にテンソルモードから生じる重力波のような弱い相互作用する場の量子的性質が、今日の宇宙で検出できる可能性を高める。 一方、地平線以外の自由度を知らない観測者はエントロピーを熱と解釈する。 この観点からすると、インフレーション後の再加熱は量子的絡み合いの結果である。

We compute the evolution of the entanglement entropy for a massless field within a spherical region throughout the inflationary period and the subsequent era of radiation domination, starting from the Bunch-Davies vacuum. In order to focus on the entanglement of modes that are directly accessible to observations, we impose an ultraviolet cutoff set by the wavelength of the last mode that exited the horizon at the end of inflation. The transition of each mode towards a squeezed state upon horizon exit during inflation and the additional squeezing when radiation domination sets in enhance the entanglement entropy. Shortly after the transition to the radiation-dominated era, a volume term develops and becomes the leading contribution to the entropy at late times, as is common for systems lying in squeezed states. We estimate the magnitude of the entropy and discuss its interpretation in the light of the quantum to classical transition for modes exiting the horizon during inflation. Our results raise the possibility that the quantum nature of weakly interacting fields, such as gravitational waves resulting from tensor modes during inflation, may be detectable in today's universe. On the other hand, an observer with no knowledge of the degrees of freedom beyond the horizon would interpret the entropy as thermal. From this point of view, the reheating after inflation would be a result of quantum entanglement.
翻訳日:2024-03-27 02:35:50 公開日:2024-03-25
# MiLe Loss: 生成言語モデルにおける学習困難のバイアスを緩和する新たな損失

MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models ( http://arxiv.org/abs/2310.19531v6 )

ライセンス: Link先を確認
Zhenpeng Su, Xing Wu, Xue Bai, Zijia Lin, Hui Chen, Guiguang Ding, Wei Zhou, Songlin Hu, (参考訳) 生成言語モデルは、通常、前のものから次のトークン(サブワード/ワード/フレーズ)を予測することによって、大きなテキストコーパスで事前訓練される。 最近の研究は、下流タスクにおける大規模な生成言語モデルの印象的な性能を実証している。 しかし、既存の生成言語モデルは、訓練中にテキストコーパスに固有の課題、すなわち頻繁なトークンと頻繁なトークンの不均衡を無視している。 これは、言語モデルが一般的で簡単に学習できるトークンに支配され、希少で難解なトークンを見落としてしまう可能性がある。 そこで本稿では,トークンによる学習難易度を緩和するMiLe Loss関数を提案する。 学習中は、語彙上の予測確率分布の情報エントロピーに基づいて、学習難度を動的に評価することができる。 そして、トレーニング損失を適応的にスケールし、学習が難しいトークンにもっと集中するようにモデルを導こうとします。 Pileデータセットでは、468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。 実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。

Generative language models are usually pretrained on large text corpus via predicting the next token (i.e., sub-word/word/phrase) given the previous ones. Recent works have demonstrated the impressive performance of large generative language models on downstream tasks. However, existing generative language models generally neglect an inherent challenge in text corpus during training, i.e., the imbalance between frequent tokens and infrequent ones. It can lead a language model to be dominated by common and easy-to-learn tokens, thereby overlooking the infrequent and difficult-to-learn ones. To alleviate that, we propose a MiLe Loss function for mitigating the bias of learning difficulties with tokens. During training, it can dynamically assess the learning difficulty of a to-be-learned token, according to the information entropy of the corresponding predicted probability distribution over the vocabulary. Then it scales the training loss adaptively, trying to lead the model to focus more on the difficult-to-learn tokens. On the Pile dataset, we train generative language models at different scales of 468M, 1.2B, and 6.7B parameters. Experiments reveal that models incorporating the proposed MiLe Loss can gain consistent performance improvement on downstream benchmarks.
翻訳日:2024-03-27 02:35:50 公開日:2024-03-25
# 強化学習による因果質問の回答

Causal Question Answering with Reinforcement Learning ( http://arxiv.org/abs/2311.02760v2 )

ライセンス: Link先を確認
Lukas Blübaum, Stefan Heindorf, (参考訳) 因果質問は、異なる事象や現象の間の因果関係について問う。 仮想アシスタントや検索エンジンなど、さまざまなユースケースにおいて重要である。 しかし、因果質問応答に対する現在の多くのアプローチでは、その答えの説明や証拠は提供できない。 そこで本研究では,名詞句間の因果関係の大規模データセットである因果関係グラフを用いて因果関係の解を求める。 近年,リンク予測やファクトチェックといった知識グラフタスクへの強化学習の応用に着想を得て,因果質問応答のための因果グラフへの強化学習の適用について検討した。 本稿では,因果的疑問に答えるために,グラフを探索するアクタ・クリティカル・エージェントを提案する。 我々はエージェントを教師付き学習手順でブートストラップし、大きなアクションスペースとスパース報酬を扱う。 評価の結果,各質問に30個未満のノードを訪問することで,探索空間を突破し,二分的因果質問に答えることに成功した。 アブレーション研究は、我々の指導的学習戦略が、我々の強化学習エージェントが改善する強力な基盤となることを示唆している。 エージェントが返した経路は、原因が効果をもたらすメカニズムを説明します。 さらに、パス上の各エッジに対して、私たちの因果グラフはパスの検証を容易にするための元のソースを提供します。

Causal questions inquire about causal relationships between different events or phenomena. They are important for a variety of use cases, including virtual assistants and search engines. However, many current approaches to causal question answering cannot provide explanations or evidence for their answers. Hence, in this paper, we aim to answer causal questions with a causality graph, a large-scale dataset of causal relations between noun phrases along with the relations' provenance data. Inspired by recent, successful applications of reinforcement learning to knowledge graph tasks, such as link prediction and fact-checking, we explore the application of reinforcement learning on a causality graph for causal question answering. We introduce an Actor-Critic-based agent which learns to search through the graph to answer causal questions. We bootstrap the agent with a supervised learning procedure to deal with large action spaces and sparse rewards. Our evaluation shows that the agent successfully prunes the search space to answer binary causal questions by visiting less than 30 nodes per question compared to over 3,000 nodes by a naive breadth-first search. Our ablation study indicates that our supervised learning strategy provides a strong foundation upon which our reinforcement learning agent improves. The paths returned by our agent explain the mechanisms by which a cause produces an effect. Moreover, for each edge on a path, our causality graph provides its original source allowing for easy verification of paths.
翻訳日:2024-03-27 02:35:50 公開日:2024-03-25
# 大規模言語モデルにおける信頼度推定と校正に関する調査

A Survey of Confidence Estimation and Calibration in Large Language Models ( http://arxiv.org/abs/2311.08298v2 )

ライセンス: Link先を確認
Jiahui Geng, Fengyu Cai, Yuxia Wang, Heinz Koeppl, Preslav Nakov, Iryna Gurevych, (参考訳) 大規模言語モデル(LLM)は、様々な領域において幅広いタスクにまたがる顕著な機能を示している。 印象的なパフォーマンスにもかかわらず、彼らは世代内の事実上の誤りのために信頼できない。 信頼度を評価し、異なるタスクで調整することで、リスクを軽減し、LLMがより良い世代を創出できるようになります。 この問題に対処するための最近の研究が数多く行われているが、それを整理し、学んだ主な教訓を概観する包括的概要は存在していない。 本調査は,このギャップを埋めることを目的としている。 特に、課題の概要を概説し、最近のLCMの信頼性評価と校正の技術的進歩について概説する。 さらにそれらの応用について議論し、今後の作業に向けて有望な方向性を提案する。

Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks in various domains. Despite their impressive performance, they can be unreliable due to factual errors in their generations. Assessing their confidence and calibrating them across different tasks can help mitigate risks and enable LLMs to produce better generations. There has been a lot of recent research aiming to address this, but there has been no comprehensive overview to organize it and outline the main lessons learned. The present survey aims to bridge this gap. In particular, we outline the challenges and we summarize recent technical advancements for LLM confidence estimation and calibration. We further discuss their applications and suggest promising directions for future work.
翻訳日:2024-03-27 02:25:46 公開日:2024-03-25
# HalluciDoctor:ビジュアルインストラクションデータにおける幻覚毒性の軽減

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data ( http://arxiv.org/abs/2311.13614v2 )

ライセンス: Link先を確認
Qifan Yu, Juncheng Li, Longhui Wei, Liang Pang, Wentao Ye, Bosheng Qin, Siliang Tang, Qi Tian, Yueting Zhuang, (参考訳) マルチモーダル大規模言語モデル (MLLM) は, 各種マルチモーダル理解・生成タスクにおいて, 機械による命令追従データに基づいて, 顕著な性能を示した。 しかし、MLLMの幻覚出力に繋がる機械生成データに固有の幻覚は未発見のままである。 本研究の目的は、様々な幻覚(対象、関係、属性幻覚)を調査し、大規模な機械による視覚的指示データセットにおける幻覚の毒性を軽減することである。 事実の誤りを識別する人間の能力に基づいて,クロスチェックパラダイムに基づく新たな幻覚検出・除去フレームワークであるHaluciDoctorを提案する。 トレーニングデータの幻覚を自動的に識別し、排除するために、私たちのフレームワークを使用します。 興味深いことに、HaluciDoctorはまた、長い尾の物体の共起から生じる急激な相関が幻覚に寄与することを示している。 そこで本研究では,MLLMの幻覚に対する抵抗性を高めるために,データ分散のバランスをとるために,対実的な視覚的拡張を実行する。 幻覚評価ベンチマークに関する総合的な実験により,LLaVAと比較して44.6%の幻覚を緩和し,競争性能を維持した。 この論文のデータとコードは公開されています。 https://github.com/Yuqifan1117/HalluciDoctor}

Multi-modal Large Language Models (MLLMs) tuned on machine-generated instruction-following data have demonstrated remarkable performance in various multi-modal understanding and generation tasks. However, the hallucinations inherent in machine-generated data, which could lead to hallucinatory outputs in MLLMs, remain under-explored. This work aims to investigate various hallucinations (i.e., object, relation, attribute hallucinations) and mitigate those hallucinatory toxicities in large-scale machine-generated visual instruction datasets. Drawing on the human ability to identify factual errors, we present a novel hallucination detection and elimination framework, HalluciDoctor, based on the cross-checking paradigm. We use our framework to identify and eliminate hallucinations in the training data automatically. Interestingly, HalluciDoctor also indicates that spurious correlations arising from long-tail object co-occurrences contribute to hallucinations. Based on that, we execute counterfactual visual instruction expansion to balance data distribution, thereby enhancing MLLMs' resistance to hallucinations. Comprehensive experiments on hallucination evaluation benchmarks show that our method successfully mitigates 44.6% hallucinations relatively and maintains competitive performance compared to LLaVA. The data and code for this paper are publicly available. \url{https://github.com/Yuqifan1117/HalluciDoctor}.
翻訳日:2024-03-27 02:25:46 公開日:2024-03-25
# Word4Per:ゼロショット構成の人物検索

Word4Per: Zero-shot Composed Person Retrieval ( http://arxiv.org/abs/2311.16515v2 )

ライセンス: Link先を確認
Delong Liu, Haiwen Li, Zhicheng Zhao, Fei Su, Yuan Dong, (参考訳) 特定の人物の検索には大きな社会的利益とセキュリティ上の価値があり、視覚情報とテキスト情報の組み合わせが伴うことが多い。 従来の人物検索手法は、画像ベースでもテキストベースでも、どちらのタイプの情報も効果的に活用できないため、精度が低下する。 本稿では,対象人物検索に画像情報とテキスト情報を併用するCPR(Composted Person Retrieval)を提案する。 しかし、教師付きCPRは、現在利用可能なリソースはないが、非常にコストのかかる手動のアノテーションデータセットを必要とする。 この問題を緩和するために、我々はまずZero-shot Composed Person Retrieval (ZS-CPR)を導入します。 第2に、ZS-CPRモデルを学習するために、軽量テキスト変換ネットワーク(TINet)と微調整コントラスト言語-画像事前学習(CLIP)ネットワークに基づくテキストベースの人物検索モデルをCPRデータを活用することなく学習する2段階学習フレームワーク、Word4Perを提案する。 第3に、提案したWord4Perフレームワークのパフォーマンスを評価するベンチマークとして、微妙に注釈付けされたイメージテキスト構成者検索(ITCPR)データセットが構築されている。 Rank-1 と mAP を併用した大規模な実験では、Word4Per が ZS-CPR タスクに有効であることを示し、比較手法を 10 % 以上上回った。 コードとTCPRデータセットはhttps://github.com/Delong-liu-bupt/Word4Perで公開される。

Searching for specific person has great social benefits and security value, and it often involves a combination of visual and textual information. Conventional person retrieval methods, whether image-based or text-based, usually fall short in effectively harnessing both types of information, leading to the loss of accuracy. In this paper, a whole new task called Composed Person Retrieval (CPR) is proposed to jointly utilize both image and text information for target person retrieval. However, the supervised CPR requires very costly manual annotation dataset, while there are currently no available resources. To mitigate this issue, we firstly introduce the Zero-shot Composed Person Retrieval (ZS-CPR), which leverages existing domain-related data to resolve the CPR problem without expensive annotations. Secondly, to learn ZS-CPR model, we propose a two-stage learning framework, Word4Per, where a lightweight Textual Inversion Network (TINet) and a text-based person retrieval model based on fine-tuned Contrastive Language-Image Pre-training (CLIP) network are learned without utilizing any CPR data. Thirdly, a finely annotated Image-Text Composed Person Retrieval (ITCPR) dataset is built as the benchmark to assess the performance of the proposed Word4Per framework. Extensive experiments under both Rank-1 and mAP demonstrate the effectiveness of Word4Per for the ZS-CPR task, surpassing the comparative methods by over 10\%. The code and ITCPR dataset will be publicly available at https://github.com/Delong-liu-bupt/Word4Per.
翻訳日:2024-03-27 02:25:46 公開日:2024-03-25
# 右から左に示す:幾何学的意味的対応を識別する

Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence ( http://arxiv.org/abs/2311.17034v2 )

ライセンス: Link先を確認
Junyi Zhang, Charles Herrmann, Junhwa Hur, Eric Chen, Varun Jampani, Deqing Sun, Ming-Hsuan Yang, (参考訳) 事前訓練された大規模な視覚モデルでは意味的対応が期待できるが、それらの特徴は多くの場合、インスタンスの幾何や向きを理解するのに苦労する。 本稿では,意味的対応のための幾何学的認識の重要性を明らかにし,単純な後処理による基礎モデルの特徴の制限を明らかにする。 この情報を活用することで、ゼロショットと教師付きの両方の設定において、単純だが効果的なソリューションで意味対応性能を著しく向上できることを示す。 また、既存の動物ポーズ推定データセットから構築された意味対応のための新しい挑戦的ベンチマークを構築した。 提案手法は,SPair-71kデータセット上で65.4(ゼロショット)と85.6(教師)のPCK@0.10スコアを達成し,それぞれ5.5p,11.0pの絶対ゲインを達成した。 私たちのコードとデータセットは、https://telling-left-from-right.github.io/で公開されています。

While pre-trained large-scale vision models have shown significant promise for semantic correspondence, their features often struggle to grasp the geometry and orientation of instances. This paper identifies the importance of being geometry-aware for semantic correspondence and reveals a limitation of the features of current foundation models under simple post-processing. We show that incorporating this information can markedly enhance semantic correspondence performance with simple but effective solutions in both zero-shot and supervised settings. We also construct a new challenging benchmark for semantic correspondence built from an existing animal pose estimation dataset, for both pre-training validating models. Our method achieves a PCK@0.10 score of 65.4 (zero-shot) and 85.6 (supervised) on the challenging SPair-71k dataset, outperforming the state of the art by 5.5p and 11.0p absolute gains, respectively. Our code and datasets are publicly available at: https://telling-left-from-right.github.io/.
翻訳日:2024-03-27 02:25:46 公開日:2024-03-25
# 視覚障害者のデータにおけるCLIPの性能格差について

Explaining CLIP's performance disparities on data from blind/low vision users ( http://arxiv.org/abs/2311.17315v3 )

ライセンス: Link先を確認
Daniela Massiceti, Camilla Longden, Agnieszka Słowik, Samuel Wills, Martin Grayson, Cecily Morrison, (参考訳) 大型マルチモーダルモデル(LMM)は、視覚障害者(BLV)の視覚支援の新たな時代を後押しする可能性を秘めている。 しかし、これらのモデルはBLVユーザーが取得したデータに基づいて体系的に評価されていない。 私たちはCLIP(LMM)を実証的に評価することでこの問題に対処する。 ゼロショット分類タスクにおいて25のCLIP変種をテストしたところ、Webcrawled画像よりもBLVユーザが取得した画像の平均値よりも15パーセント低い精度であることが判明した。 この相違は、CLIPの感性から生じる。 1) 画像の内容(例えば、障害対象だけでなく、他の対象も認識していないもの) 2 画質(例えば、照明の変動に頑丈でないもの)、及び 3)テキストの内容(例えば、触覚形容詞や視覚的形容詞で記述された物体を認識しない) 我々は、LAION-400M、LAION-2B、DataComp-1Bの3つの一般的な事前学習データセットのテキスト分析を行い、障害内容がほとんど言及されていないことを示す。 次に、CLIPによって支えられている3つの下流モデル(OWL-ViT、CLIPSeg、DALL-E2)にパフォーマンス格差がどのように拡張されているかを示す3つの例を紹介します。 5つのイメージしか持たない数ショットの学習は、いくつかのシナリオにおいて、CLIPのBLVユーザに対するサービス品質の格差を軽減することができる。

Large multi-modal models (LMMs) hold the potential to usher in a new era of automated visual assistance for people who are blind or low vision (BLV). Yet, these models have not been systematically evaluated on data captured by BLV users. We address this by empirically assessing CLIP, a widely-used LMM likely to underpin many assistive technologies. Testing 25 CLIP variants in a zero-shot classification task, we find that their accuracy is 15 percentage points lower on average for images captured by BLV users than web-crawled images. This disparity stems from CLIP's sensitivities to 1) image content (e.g. not recognizing disability objects as well as other objects); 2) image quality (e.g. not being robust to lighting variation); and 3) text content (e.g. not recognizing objects described by tactile adjectives as well as visual ones). We delve deeper with a textual analysis of three common pre-training datasets: LAION-400M, LAION-2B and DataComp-1B, showing that disability content is rarely mentioned. We then provide three examples that illustrate how the performance disparities extend to three downstream models underpinned by CLIP: OWL-ViT, CLIPSeg and DALL-E2. We find that few-shot learning with as few as 5 images can mitigate CLIP's quality-of-service disparities for BLV users in some scenarios, which we discuss alongside a set of other possible mitigations.
翻訳日:2024-03-27 02:25:46 公開日:2024-03-25
# W-HMR:Weak-supervised Camera Calibration and Orientation Correctionを用いた世界空間でのヒューマンメッシュリカバリ

W-HMR: Human Mesh Recovery in World Space with Weak-supervised Camera Calibration and Orientation Correction ( http://arxiv.org/abs/2311.17460v3 )

ライセンス: Link先を確認
Wei Yao, Hongwen Zhang, Yunlian Sun, Jinhui Tang, (参考訳) 長期にわたり、モノクロ画像から3次元の人体を再構築する際に、ほとんどの方法は、カメラの影響を最小限に抑えてタスクを単純化することを選んだ。 粗い焦点長設定を用いることで、再構成体は歪んだ画像とうまく一致しない。 カメラの回転を無視すると、世界空間で非現実的な再構築されたボディポーズにつながる。 したがって、既存のメソッドのアプリケーションシナリオは、制御された環境に限られる。 複雑で多様な眼内画像に直面すると、彼らは世界空間における正確で合理的な再構築を達成するのに苦労する。 以上の課題に対処するため,W-HMRを提案する。W-HMRは,大域的な身体回復をカメラキャリブレーション,局所的な身体回復,大域的な身体配向補正に分解する。 身体の歪みを補正し,焦点距離ラベルへの依存をなくし,メッシュ・イメージアライメントの微細化を実現するための,第1の弱教師付きカメラキャリブレーション法を設計する。 本研究では,再建された人体が世界空間で正常に保たれるような新しい配向補正モジュールを提案する。 身体の向きと身体の姿勢を分離することにより、カメラ座標の精度と世界座標の妥当性を同時に考慮し、応用範囲を広げることができる。 その結果、W-HMRは二元座標系、特に困難な場面において高品質な再構成を実現する。 コードとデモはプロジェクトページ https://yw0208.github.io/w-hmr/ で公開されている。

For a long time, in reconstructing 3D human bodies from monocular images, most methods opted to simplify the task by minimizing the influence of the camera. Using a coarse focal length setting results in the reconstructed bodies not aligning well with distorted images. Ignoring camera rotation leads to an unrealistic reconstructed body pose in world space. Consequently, the application scenarios of existing methods are confined to controlled environments. When confronted with complex and diverse in-the-wild images, they struggle to achieve accurate and reasonable reconstruction in world space. To address the above issues, we propose W-HMR, which decouples global body recovery into camera calibration, local body recovery, and global body orientation correction. We design the first weak-supervised camera calibration method for body distortion, eliminating dependence on focal length labels and achieving finer mesh-image alignment. We propose a novel orientation correction module to allow the reconstructed human body to remain normal in world space. Decoupling body orientation and body pose enables our model to consider the accuracy in camera coordinate and the reasonableness in world coordinate simultaneously, expanding the range of applications. As a result, W-HMR achieves high-quality reconstruction in dual coordinate systems, particularly in challenging scenes. Codes and demos have been released on the project page https://yw0208.github.io/w-hmr/.
翻訳日:2024-03-27 02:15:55 公開日:2024-03-25
# MMA拡散:拡散モデルに対するマルチモーダル攻撃

MMA-Diffusion: MultiModal Attack on Diffusion Models ( http://arxiv.org/abs/2311.17516v3 )

ライセンス: Link先を確認
Yijun Yang, Ruiyuan Gao, Xiaosen Wang, Tsung-Yi Ho, Nan Xu, Qiang Xu, (参考訳) 近年,テキスト・ツー・イメージ(T2I)モデルは顕著な進歩を遂げ,広く普及している。 しかし、この進歩は、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する際の、潜在的な誤用に対する不注意な道を開いた。 MMA-Diffusionは,オープンソースモデルと商用オンラインサービスの両方において,現在の防御対策を効果的に回避し,T2Iモデルのセキュリティに対する顕著かつ現実的な脅威を示すフレームワークである。 従来のアプローチとは異なり、MMA-Diffusionはテキストモードとビジュアルモードの両方を利用して、プロンプトフィルタやポストホックセーフティチェッカーのようなセーフガードを回避し、既存の防御機構の脆弱性を暴露し、強調する。

In recent years, Text-to-Image (T2I) models have seen remarkable advancements, gaining widespread adoption. However, this progress has inadvertently opened avenues for potential misuse, particularly in generating inappropriate or Not-Safe-For-Work (NSFW) content. Our work introduces MMA-Diffusion, a framework that presents a significant and realistic threat to the security of T2I models by effectively circumventing current defensive measures in both open-source models and commercial online services. Unlike previous approaches, MMA-Diffusion leverages both textual and visual modalities to bypass safeguards like prompt filters and post-hoc safety checkers, thus exposing and highlighting the vulnerabilities in existing defense mechanisms.
翻訳日:2024-03-27 02:15:55 公開日:2024-03-25
# 圧縮型オートエンコーダを用いた変分ベイズ画像復元

Variational Bayes image restoration with compressive autoencoders ( http://arxiv.org/abs/2311.17744v2 )

ライセンス: Link先を確認
Maud Biquard, Marie Chabert, Thomas Oberlin, (参考訳) 逆問題の正規化は、計算イメージングにおいて最重要となる。 ニューラルネットワークが効率的な画像表現を学習する能力は、最近、強力なデータ駆動型正規化器の設計に活用されている。 最先端のプラグ・アンド・プレイ法はニューラルデノイザによって提供される暗黙の正則化に依存しているが、代替ベイズ的手法では、生成モデルの潜在空間における最大Aポストエリオーリ(MAP)推定を明示的な正則化とみなす。 しかし、最先端の深層生成モデルは、デノイザーに比べて膨大な量のトレーニングデータを必要とする。 さらに、その複雑さは、潜在MAPの導出に関わる最適化を妨げている。 本研究では,まず圧縮型オートエンコーダを提案する。 これらのネットワークは、フレキシブルな潜在能力を持つ可変オートエンコーダと見なすことができ、最先端の生成モデルよりも小さく、訓練が容易である。 第2の貢献として、変分推論の枠組み内で潜時推定を行う変分ベイズ潜時推定(VBLE)アルゴリズムを導入する。 変分後部の単純かつ効率的なパラメータ化により、VBLEは高速かつ容易に(近似的に)後方サンプリングを行うことができる。 画像データセット BSD と FFHQ の実験結果から、VBLE は最先端のプラグ・アンド・プレイ法と同等の性能を示し、既存の過去のサンプリング手法よりも高速に不確実性を定量化できることがわかった。

Regularization of inverse problems is of paramount importance in computational imaging. The ability of neural networks to learn efficient image representations has been recently exploited to design powerful data-driven regularizers. While state-of-the-art plug-and-play methods rely on an implicit regularization provided by neural denoisers, alternative Bayesian approaches consider Maximum A Posteriori (MAP) estimation in the latent space of a generative model, thus with an explicit regularization. However, state-of-the-art deep generative models require a huge amount of training data compared to denoisers. Besides, their complexity hampers the optimization involved in latent MAP derivation. In this work, we first propose to use compressive autoencoders instead. These networks, which can be seen as variational autoencoders with a flexible latent prior, are smaller and easier to train than state-of-the-art generative models. As a second contribution, we introduce the Variational Bayes Latent Estimation (VBLE) algorithm, which performs latent estimation within the framework of variational inference. Thanks to a simple yet efficient parameterization of the variational posterior, VBLE allows for fast and easy (approximate) posterior sampling. Experimental results on image datasets BSD and FFHQ demonstrate that VBLE reaches similar performance than state-of-the-art plug-and-play methods, while being able to quantify uncertainties faster than other existing posterior sampling techniques.
翻訳日:2024-03-27 02:15:55 公開日:2024-03-25
# ハイパースペクトル3次元イメージングのための分散構造光

Dispersed Structured Light for Hyperspectral 3D Imaging ( http://arxiv.org/abs/2311.18287v2 )

ライセンス: Link先を確認
Suhyun Shin, Seokjun Choi, Felix Heide, Seung-Hwan Baek, (参考訳) ハイパースペクトル3Dイメージングは、シーンの深さ情報とスペクトル情報の両方を取得することを目的としている。 しかし、既存の手法は、スペクトルと深さの精度において、違法に高価でかさばるか、妥協している。 本研究では,高スペクトル3次元イメージングのための低コストでコンパクトな方法である分散構造光(DSL)について述べる。 DSLは、プロジェクターの前面にサブミリ厚の回折格子膜を配置することにより、従来のプロジェクターカメラシステムを変更する。 格子は、光波長に基づいて構造光を分散する。 分散構造光を利用するために,分散プロジェクション画像形成モデルと画素ごとのハイパースペクトル3D再構成法を考案した。 我々は、コンパクトな実験プロトタイプをインスタンス化して、DSLを検証する。 DSLは、18.8nmのフル幅半最大(FWHM)のスペクトル精度と1mmの深さ誤差を達成する。 実測3次元イメージングにおいて,DSLが先行研究より優れていることを示す。 DSLは、コンピュータビジョンやグラフィック、文化遺産、地質学、生物学など、さまざまなアプリケーションドメインに対して、正確で実用的なハイパースペクトルの3Dイメージングを約束します。

Hyperspectral 3D imaging aims to acquire both depth and spectral information of a scene. However, existing methods are either prohibitively expensive and bulky or compromise on spectral and depth accuracy. In this work, we present Dispersed Structured Light (DSL), a cost-effective and compact method for accurate hyperspectral 3D imaging. DSL modifies a traditional projector-camera system by placing a sub-millimeter thick diffraction grating film front of the projector. The grating disperses structured light based on light wavelength. To utilize the dispersed structured light, we devise a model for dispersive projection image formation and a per-pixel hyperspectral 3D reconstruction method. We validate DSL by instantiating a compact experimental prototype. DSL achieves spectral accuracy of 18.8nm full-width half-maximum (FWHM) and depth error of 1mm. We demonstrate that DSL outperforms prior work on practical hyperspectral 3D imaging. DSL promises accurate and practical hyperspectral 3D imaging for diverse application domains, including computer vision and graphics, cultural heritage, geology, and biology.
翻訳日:2024-03-27 02:15:55 公開日:2024-03-25
# 白い非ガウス浴と相互作用する量子系のダイナミクス:ポアソンノイズマスター方程式

Dynamics of a quantum system interacting with white non-Gaussian baths: Poisson noise master equation ( http://arxiv.org/abs/2312.00376v3 )

ライセンス: Link先を確認
Ken Funo, Akihito Ishizaki, (参考訳) 量子システムは、その周囲の自由度に必然的にオープンである。 したがって、開量子系の理論は、興味ある量子系のゆらぎ、散逸、および非コヒーレンスを理解するために重要である。 通常、浴槽は調和振動子のアンサンブルとしてモデル化され、量子系への浴槽の影響のガウス統計を導出する。 しかし、風呂が二状態系、スピン、または無調波発振器から構成される現象もあり、ガウスの非ガウス的な性質が重要となる。 しかしながら、そのような非ガウス浴の影響下で量子系を記述する理論的枠組みは十分に確立されていない。 ここでは,浴槽のポアソンノイズ特性に影響を受ける量子散逸系を記述する理論を,L\'evi-It\^o分解定理は,ポアソンノイズがガウス特性以外の任意の白色雑音を記述する上で基本的なものであると主張する。 我々は、散逸性量子系の一貫した記述を可能にする量子バスモデルを導入する。 得られたマスター方程式は、ホワイトノイズ状態における非ガウス浴効果を明らかにし、一般的な浴の影響下でのオープン量子力学を記述するための重要なステップを提供する。

Quantum systems are unavoidably open to their surrounding degrees of freedom. The theory of open quantum systems is thus crucial to understanding the fluctuations, dissipation, and decoherence of a quantum system of interest. Typically, the bath is modeled as an ensemble of harmonic oscillators, which yields Gaussian statistics of the bath influence on the quantum systems. However, there are also phenomena in which the bath consists of two-state systems, spins, or anharmonic oscillators; therefore, the non-Gaussian properties of the bath become important. Nevertheless, a theoretical framework to describe quantum systems under the influence of such non-Gaussian baths is not well established. Here, we develop a theory to describe quantum dissipative systems affected by Poisson noise properties of the bath, because the L\'evi-It\^o decomposition theorem asserts that Poisson noise is fundamental in describing arbitrary white noise beyond Gaussian properties. We introduce a quantum bath model that allows for the consistent description of dissipative quantum systems. The obtained master equation reveals non-Gaussian bath effects in the white noise regime, and provides an essential step toward describing open quantum dynamics under the influence of generic baths.
翻訳日:2024-03-27 02:15:55 公開日:2024-03-25
# 微分可能点ベース逆レンダリング

Differentiable Point-based Inverse Rendering ( http://arxiv.org/abs/2312.02480v2 )

ライセンス: Link先を確認
Hoon-Gyu Chung, Seokjun Choi, Seung-Hwan Baek, (参考訳) 本研究では,多彩な照明下で撮像された画像の形状と空間的変化を推定する解析バイシンセシス法DPIRを提案する。 この目的のために、我々はポイントベースレンダリングを採用し、ボリュームレンダリングの典型である1線あたりの複数のサンプリングの必要性を排除し、逆レンダリングの速度を大幅に向上させる。 この考え方を実現するために,幾何のハイブリッド点体積表現と反射率の正規化基底-BRDF表現を考案した。 ハイブリッド幾何表現は、SDFベースの表現に固有の幾何学的詳細と安定性を維持しつつ、点ベースのスプラッティングによる高速レンダリングを可能にする。 正規化ベース-BRDFは、限られた光視角のサンプルから生じる逆レンダリングの不備を緩和する。 また,点ベースシャドウマップレンダリングを用いた効率的なシャドウ検出手法を提案する。 DPIRは, 再現精度, 計算効率, メモリフットプリントにおいて, 先行作業よりも優れていたことを示す。 さらに、明示的な点ベース表現とレンダリングにより、直感的な幾何学と反射率の編集が可能となる。

We present differentiable point-based inverse rendering, DPIR, an analysis-by-synthesis method that processes images captured under diverse illuminations to estimate shape and spatially-varying BRDF. To this end, we adopt point-based rendering, eliminating the need for multiple samplings per ray, typical of volumetric rendering, thus significantly enhancing the speed of inverse rendering. To realize this idea, we devise a hybrid point-volumetric representation for geometry and a regularized basis-BRDF representation for reflectance. The hybrid geometric representation enables fast rendering through point-based splatting while retaining the geometric details and stability inherent to SDF-based representations. The regularized basis-BRDF mitigates the ill-posedness of inverse rendering stemming from limited light-view angular samples. We also propose an efficient shadow detection method using point-based shadow map rendering. Our extensive evaluations demonstrate that DPIR outperforms prior works in terms of reconstruction accuracy, computational efficiency, and memory footprint. Furthermore, our explicit point-based representation and rendering enables intuitive geometry and reflectance editing.
翻訳日:2024-03-27 02:15:55 公開日:2024-03-25
# I-PHYRE:インタラクティブ物理推論

I-PHYRE: Interactive Physical Reasoning ( http://arxiv.org/abs/2312.03009v2 )

ライセンス: Link先を確認
Shiqian Li, Kewen Wu, Chi Zhang, Yixin Zhu, (参考訳) 現在の評価プロトコルは、静止シーンにおける身体的推論を主に評価し、動的事象と相互作用するエージェントの能力を評価するギャップを生じさせる。 現代の手法では、エージェントは初期シーンの設定を変更して結果を見ることができるが、リアルタイムでイベントと対話する能力は欠如している。 この問題に対処するため,エージェントが直感的な身体的推論,多段階計画,インサイト介入を同時に実施するためのフレームワークであるI-PHYREを紹介した。 ここでは、直感的な物理的推論は、複雑な問題に対処する物理の素早い近似的な理解を意味し、多段階は、I-PHYREにおける広範囲なシーケンス計画の必要性を示し、それぞれの介入がその後の選択を著しく変更可能であること、その場では、微妙なタイミング偏差がタスクの失敗をもたらすシーン内での時間的オブジェクト操作の必要性を示唆している。 エージェントの学習を精査し、対話的な物理的推論の基本原理を一般化し、代表的シナリオとの相互作用を通じて学習を促進するために、4つのゲーム分割を定式化する。 本研究は,I-PHYREにおける監視・強化エージェントのゼロショット一般化能力について,3つの計画戦略について検討する。 これらの結果は、既存の学習アルゴリズムと人間のパフォーマンスとの間に顕著なギャップを浮き彫りにしており、対話的な身体的推論能力を持つエージェントを強化するために、さらなる研究が不可欠であることを強調している。 環境とベースラインは公開されます。

Current evaluation protocols predominantly assess physical reasoning in stationary scenes, creating a gap in evaluating agents' abilities to interact with dynamic events. While contemporary methods allow agents to modify initial scene configurations and observe consequences, they lack the capability to interact with events in real time. To address this, we introduce I-PHYRE, a framework that challenges agents to simultaneously exhibit intuitive physical reasoning, multi-step planning, and in-situ intervention. Here, intuitive physical reasoning refers to a quick, approximate understanding of physics to address complex problems; multi-step denotes the need for extensive sequence planning in I-PHYRE, considering each intervention can significantly alter subsequent choices; and in-situ implies the necessity for timely object manipulation within a scene, where minor timing deviations can result in task failure. We formulate four game splits to scrutinize agents' learning and generalization of essential principles of interactive physical reasoning, fostering learning through interaction with representative scenarios. Our exploration involves three planning strategies and examines several supervised and reinforcement agents' zero-shot generalization proficiency on I-PHYRE. The outcomes highlight a notable gap between existing learning algorithms and human performance, emphasizing the imperative for more research in enhancing agents with interactive physical reasoning capabilities. The environment and baselines will be made publicly available.
翻訳日:2024-03-27 02:15:55 公開日:2024-03-25
# ニューラル積分方程式のスペクトル法

Spectral methods for Neural Integral Equations ( http://arxiv.org/abs/2312.05654v3 )

ライセンス: Link先を確認
Emanuele Zappala, (参考訳) ニューラル積分方程式(Neural integral equation)は、積分方程式の理論に基づく深層学習モデルである。 このアプローチは、機械学習において積分作用素の非局所的性質を活用することができるが、計算コストが高い。 本稿では,スペクトル領域の演算子を学習し,計算コストの低減と補間精度の向上を実現するための,スペクトル法に基づくニューラル積分方程式の枠組みを提案する。 提案手法の特性について検討し, モデルの近似能力と数値解への収束性について, 様々な理論的保証を示す。 得られたモデルの有効性を示す数値実験を行う。

Neural integral equations are deep learning models based on the theory of integral equations, where the model consists of an integral operator and the corresponding equation (of the second kind) which is learned through an optimization procedure. This approach allows to leverage the nonlocal properties of integral operators in machine learning, but it is computationally expensive. In this article, we introduce a framework for neural integral equations based on spectral methods that allows us to learn an operator in the spectral domain, resulting in a cheaper computational cost, as well as in high interpolation accuracy. We study the properties of our methods and show various theoretical guarantees regarding the approximation capabilities of the model, and convergence to solutions of the numerical methods. We provide numerical experiments to demonstrate the practical effectiveness of the resulting model.
翻訳日:2024-03-27 02:05:37 公開日:2024-03-25
# 正確に解ける相対論的量子オットーエンジン

An exactly solvable relativistic quantum Otto engine ( http://arxiv.org/abs/2312.06452v2 )

ライセンス: Link先を確認
Nikos K. Kollas, Dimitris Moustos, (参考訳) 我々は、即時相互作用の下で無質量スカラー場と相互作用する、正確に解けるUnruh-DeWitt検出器モデルの数学を再検討し、相対論的量子オットー熱エンジンを構築する。 熱力学サイクルが閉まる条件を導出することにより, 加工媒体が熱浴中を一定の相対論的速度で移動するとき, 機械から抽出できる作業量に及ぼす運動の影響を調べた。 熱湯の速さには劣化効果があるが, 冷湯の場合, 真の増強効果があることが示されている。 検出器の逆周波数および2つの瞬間的相互作用の時間的分離のための特定の値とをカップリングするためには、検出器を冷却するために---速度と抽出された作業の間の非モノトニックな依存---が存在しており、テーブルトップ実験における熱力学プロセスの強化に対する相対論的効果を利用するという興味深い可能性が高まっている。

We revisit the mathematics of exactly solvable Unruh-DeWitt detector models, interacting with massless scalar fields under instantaneous interactions, to construct a relativistic quantum Otto heat engine. By deriving the conditions under which the thermodynamic cycle is closed we study the effects of motion on the amount of work that can be extracted from the machine when the working medium is moving at a constant relativistic velocity through the heat baths. While there is a degrading effect with respect to speed in the hot bath, we demonstrate that in the case of the cold bath, genuine enhancing effects are sometimes present. For couplings the same order as the inverse frequency of the detector and a specific value for the temporal separation between the two instantaneous interactions--needed in order to be possible to cool the detector--a non-monotonic dependence between speed and extracted work exists raising the intriguing possibility of exploiting relativistic effects for the enhancement of thermodynamic processes in tabletop experiments.
翻訳日:2024-03-27 02:05:37 公開日:2024-03-25
# エコー状態ネットワークを用いたマルチエージェント強化学習とその歩行者動態への応用

Multi-agent reinforcement learning using echo-state network and its application to pedestrian dynamics ( http://arxiv.org/abs/2312.11834v2 )

ライセンス: Link先を確認
Hisato Komatsu, (参考訳) 近年,マルチエージェント強化学習(MARL)を用いた歩行者のシミュレーションが研究されている。 本研究は, グリッドワールド環境における道路を考察し, エコー状態ネットワークと最小二乗ポリシー反復法を用いて歩行者をMARLエージェントとして実装した。 この環境下では、これらのエージェントが他のエージェントを避けて前進することを学ぶ能力について検討した。 具体的には,狭い直進経路と広い遠回り経路の選択と,廊下における双方向歩行者流の2つのタスクについて検討した。 シミュレーションの結果, エージェントの密度がそれほど高くなかった場合, 学習は成功した。

In recent years, simulations of pedestrians using the multi-agent reinforcement learning (MARL) have been studied. This study considered the roads on a grid-world environment, and implemented pedestrians as MARL agents using an echo-state network and the least squares policy iteration method. Under this environment, the ability of these agents to learn to move forward by avoiding other agents was investigated. Specifically, we considered two types of tasks: the choice between a narrow direct route and a broad detour, and the bidirectional pedestrian flow in a corridor. The simulations results indicated that the learning was successful when the density of the agents was not that high.
翻訳日:2024-03-27 02:05:37 公開日:2024-03-25
# 長めのビデオ理解のためのテキストコンディション型リサンプラー

Text-Conditioned Resampler For Long Form Video Understanding ( http://arxiv.org/abs/2312.11897v2 )

ライセンス: Link先を確認
Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari, (参考訳) 本稿では,学習済みで凍結したビジュアルエンコーダと大規模言語モデル(LLM)を用いて,タスクの長いビデオシーケンスを処理するテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。 TCRはテキスト条件が与えられたビデオから関連する視覚的特徴をローカライズし、LLMに提供してテキスト応答を生成する。 軽量な設計とクロスアテンションの使用により、TCRは100フレーム以上の処理を、平易な注意と最適化された実装なしで行うことができる。 以下に貢献する。 i) 学習済みの視覚・言語モデルをブリッジする訓練手法とともに,タスクで条件付き長大な映像を処理できるトランスフォーマーベースのサンプリングアーキテクチャを設計する。 (ii)より長い映像知覚の恩恵を受ける可能性のあるタスクを識別し、 3)NextQA,EgoSchema,EGO4D-LTAの課題など,幅広い評価課題において有効性を実証的に検証した。

In this paper we present a text-conditioned video resampler (TCR) module that uses a pre-trained and frozen visual encoder and large language model (LLM) to process long video sequences for a task. TCR localises relevant visual features from the video given a text condition and provides them to a LLM to generate a text response. Due to its lightweight design and use of cross-attention, TCR can process more than 100 frames at a time with plain attention and without optimised implementations. We make the following contributions: (i) we design a transformer-based sampling architecture that can process long videos conditioned on a task, together with a training method that enables it to bridge pre-trained visual and language models; (ii) we identify tasks that could benefit from longer video perception; and (iii) we empirically validate its efficacy on a wide variety of evaluation tasks including NextQA, EgoSchema, and the EGO4D-LTA challenge.
翻訳日:2024-03-27 02:05:37 公開日:2024-03-25
# 画像セグメント参照のためのマスクグラウンド

Mask Grounding for Referring Image Segmentation ( http://arxiv.org/abs/2312.12198v2 )

ライセンス: Link先を確認
Yong Xien Chng, Henry Zheng, Yizeng Han, Xuchong Qiu, Gao Huang, (参考訳) Referring Image Segmentation (RIS)は、自由形式の言語表現で参照されるオブジェクトをセグメントするアルゴリズムを必要とする難しいタスクである。 近年の進歩にもかかわらず、ほとんどの最新技術(SOTA)手法は、画素やワードレベルでの言語と画像のモダリティの差がかなり大きい。 これらの方法が一般的である 1) 言語イメージアライメントと文レベルの言語機能に依存している。 2) きめ細かい視覚的接地のための明示的な訓練指導が欠如している。 その結果、視覚的特徴と言語的特徴との間のオブジェクトレベル対応が弱いことが判明した。 きちんとした特徴がなければ、事前の手法は、複数のオブジェクト間の関係について強い推論を必要とする複雑な表現を理解するのに苦労する。 この課題に対処するために,マスク付きテキストトークンと一致する視覚オブジェクトとの微妙な対応をモデルに明示的に教えることにより,言語機能内の視覚的接地を著しく改善する新しいマスク接地補助タスクを提案する。 Mask Groundingは、以前のRISメソッドで直接使用することができ、一貫して改善をもたらす。 さらに,モダリティギャップに直感的に対処するために,クロスモーダルアライメント損失と付随アライメントモジュールを設計する。 これらの追加機能は、Mask Groundingと相乗的に機能する。 これらの手法により、我々の総合的なアプローチは、3つの主要なベンチマーク(RefCOCO、RefCOCO+、G-Ref)で先行技術を大幅に上回るMask-grounded Network(Mask-grounded Network)で頂点に達し、RISアルゴリズムの現在の限界に対処する上で、我々の手法の有効性を示す。 私たちのコードと事前訓練されたウェイトがリリースされます。

Referring Image Segmentation (RIS) is a challenging task that requires an algorithm to segment objects referred by free-form language expressions. Despite significant progress in recent years, most state-of-the-art (SOTA) methods still suffer from considerable language-image modality gap at the pixel and word level. These methods generally 1) rely on sentence-level language features for language-image alignment and 2) lack explicit training supervision for fine-grained visual grounding. Consequently, they exhibit weak object-level correspondence between visual and language features. Without well-grounded features, prior methods struggle to understand complex expressions that require strong reasoning over relationships among multiple objects, especially when dealing with rarely used or ambiguous clauses. To tackle this challenge, we introduce a novel Mask Grounding auxiliary task that significantly improves visual grounding within language features, by explicitly teaching the model to learn fine-grained correspondence between masked textual tokens and their matching visual objects. Mask Grounding can be directly used on prior RIS methods and consistently bring improvements. Furthermore, to holistically address the modality gap, we also design a cross-modal alignment loss and an accompanying alignment module. These additions work synergistically with Mask Grounding. With all these techniques, our comprehensive approach culminates in MagNet (Mask-grounded Network), an architecture that significantly outperforms prior arts on three key benchmarks (RefCOCO, RefCOCO+ and G-Ref), demonstrating our method's effectiveness in addressing current limitations of RIS algorithms. Our code and pre-trained weights will be released.
翻訳日:2024-03-27 02:05:37 公開日:2024-03-25
# PIA: テキスト・ツー・イメージモデルにおけるプラグイン・アンド・プレイモジュールによるパーソナライズされた画像アニメーション

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models ( http://arxiv.org/abs/2312.13964v3 )

ライセンス: Link先を確認
Yiming Zhang, Zhening Xing, Yanhong Zeng, Youqing Fang, Kai Chen, (参考訳) パーソナライズされたテキスト・ツー・イメージ(T2I)モデルの最近の進歩は、コンテンツ作成に革命をもたらした。 有望な一方で、これらのパーソナライズされたイメージにテキストでリアルなモーションを加えることは、異なるスタイルの保存、高忠実さの詳細、テキストによるモーションコントロール性の実現において大きな課題となる。 本稿では,Personalized Image Animator,Personalized Image Animatorについて述べる。 これらの目標を達成するため、PIAは、よく訓練された時間的アライメント層を持つベースT2Iモデルを構築し、パーソナライズされたT2Iモデルをイメージアニメーションモデルにシームレスに変換することができる。 PIAのキーコンポーネントは、条件フレームとフレーム間の親和性を入力として利用する条件モジュールの導入であり、潜時空間における個々のフレーム合成のための親和性ヒントによって案内される外見情報を転送する。 このデザインは、外観関連画像アライメントの課題を軽減し、動き関連ガイダンスとの整合性により強く焦点を合わせることができる。

Recent advancements in personalized text-to-image (T2I) models have revolutionized content creation, empowering non-experts to generate stunning images with unique styles. While promising, adding realistic motions into these personalized images by text poses significant challenges in preserving distinct styles, high-fidelity details, and achieving motion controllability by text. In this paper, we present PIA, a Personalized Image Animator that excels in aligning with condition images, achieving motion controllability by text, and the compatibility with various personalized T2I models without specific tuning. To achieve these goals, PIA builds upon a base T2I model with well-trained temporal alignment layers, allowing for the seamless transformation of any personalized T2I model into an image animation model. A key component of PIA is the introduction of the condition module, which utilizes the condition frame and inter-frame affinity as input to transfer appearance information guided by the affinity hint for individual frame synthesis in the latent space. This design mitigates the challenges of appearance-related image alignment within and allows for a stronger focus on aligning with motion-related guidance.
翻訳日:2024-03-27 02:05:37 公開日:2024-03-25
# コンパタンスサンプリングによるリワード, 最大優先度最適化の選好

Preference as Reward, Maximum Preference Optimization with Importance Sampling ( http://arxiv.org/abs/2312.16430v5 )

ライセンス: Link先を確認
Zaifan Jiang, Xing Huang, Chao Wei, (参考訳) 優先度学習は、言語モデルを人間の価値と整合させるための重要な技術である。 Reinforcement Learning from Human Feedback (RLHF)は、優先学習を最適化するモデルベースのアルゴリズムである。 RLHFの処理は複雑で、時間がかかり、不安定である。 直接選好最適化(DPO)アルゴリズムは、外部のアルゴリズムを使用して生成ポリシーを直接最適化し、報酬モデルの必要性を排除する。 DPOはよりデータ効率が高く、安定している。 しかし、DPOは、選好データに過度に適合し、選好が決定論的である場合、KL正規化項を無視する欠点がある。 アイデンティティマッピング 優先度最適化(IPO)は、KL正規化を組み込むために、ルートフィンディングMSE損失を使用する。 しかし、DPOとIPOは、優先分布のサポートが基準分布と等しくないため、KL正規化項に適切に対応できない。 本稿では、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。 MPOは、非政治的なKL規則化用語を取り入れ、正規化を真に効果的にする。 MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。 さらに、MPOは報酬モデルと参照ポリシーの必要性を排除し、学習プロセスを簡素化し、メモリ使用量を減らす。

Preference learning is a key technology for aligning language models with human values. Reinforcement Learning from Human Feedback (RLHF) is a model-based algorithm to optimize preference learning, which first fits a reward model for preference scores and then optimizes the generating policy with an on-policy PPO algorithm to maximize the reward. The processing of RLHF is complex, time-consuming, and unstable. The Direct Preference Optimization (DPO) algorithm uses an off-policy algorithm to directly optimize the generating policy and eliminates the need for a reward model. DPO is more data-efficient and stable. However, DPO has a drawback of overfitting to the preference data and ignoring the KL-regularization term when the preference is deterministic. Identity mapping Preference Optimization(IPO) uses a root-finding MSE loss to incorporate KL-regularization. However, both DPO and IPO fail to properly address the KL-regularization term because the support of the preference distribution is not equal to the reference distribution. In this paper, we propose a simple and intuitive off-policy preference optimization algorithm from an importance sampling view, which we call Maximum Preference Optimization (MPO). MPO incorporates the off-policy KL-regularization term, making regularization truly effective. MPO achieves the best of both worlds by combining the objectives of RLHF and IPO while being an off-policy algorithm. Furthermore, MPO eliminates the need for a reward model and reference policy, simplifying the learning process and reducing memory usage.
翻訳日:2024-03-27 02:05:37 公開日:2024-03-25
# SVGDreamer:拡散モデルによるテキストガイドSVG生成

SVGDreamer: Text Guided SVG Generation with Diffusion Model ( http://arxiv.org/abs/2312.16476v4 )

ライセンス: Link先を確認
Ximing Xing, Haitao Zhou, Chuang Wang, Jing Zhang, Dong Xu, Qian Yu, (参考訳) 近年,テキスト誘導型スケーラブルベクターグラフィックス (SVG) 合成はイコノグラフィやスケッチなどの領域で有望であることが示されている。 しかし、既存のテキスト-SVG生成手法は編集性に欠け、視覚的品質と結果の多様性に苦慮している。 これらの制約に対処するために,SVGDreamer と呼ばれる新しいテキスト誘導ベクトルグラフィックス合成法を提案する。 SVGDreamerは、前景オブジェクトと背景への合成の分解を可能にする意味駆動画像ベクトル化(SIVE)プロセスを導入し、編集性を向上させる。 具体的には、SIVEプロセスは、注目に基づくプリミティブ制御と、個々の要素の効果的な制御と操作のためのアテンションマスク損失関数を導入している。 さらに, 形状過飽和, 色過飽和, 結果の多様性の制限, 既存のテキスト-SVG生成手法の収束の遅れといった課題に対処するためのベクトル化粒子を用いたスコア蒸留(VPSD)手法を提案する。 VPSDはSVGを制御点と色の分布としてモデル化し、過飽和と過飽和に対応する。 さらに、VPSDは報酬モデルを利用してベクトル粒子を再重み付けし、美的魅力を改善し、収束を加速する。 SVGDreamerの有効性を検証するために大規模な実験が行われ、編集性、視覚的品質、多様性の点でベースライン法よりも優れていることが示されている。 SVGDreamerのコードとデモはhttps://ximinng.github.io/SVGDreamer-project/にある。

Recently, text-guided scalable vector graphics (SVGs) synthesis has shown promise in domains such as iconography and sketch. However, existing text-to-SVG generation methods lack editability and struggle with visual quality and result diversity. To address these limitations, we propose a novel text-guided vector graphics synthesis method called SVGDreamer. SVGDreamer incorporates a semantic-driven image vectorization (SIVE) process that enables the decomposition of synthesis into foreground objects and background, thereby enhancing editability. Specifically, the SIVE process introduce attention-based primitive control and an attention-mask loss function for effective control and manipulation of individual elements. Additionally, we propose a Vectorized Particle-based Score Distillation (VPSD) approach to tackle the challenges of shape over-smoothing, color over-saturation, limited diversity in results, and slow convergence in existing text-to-SVG generation methods. VPSD models SVGs as distributions of control points and colors to counteract over-smoothing and over-saturation. Furthermore, VPSD leverages a reward model to reweight vector particles, which improves aesthetic appeal and accelerates convergence. Extensive experiments have been conducted to validate the effectiveness of SVGDreamer, demonstrating its superiority over baseline methods in terms of editability, visual quality, and diversity. The code and demo of SVGDreamer can be found at https://ximinng.github.io/SVGDreamer-project/
翻訳日:2024-03-27 01:55:44 公開日:2024-03-25
# EMAGE:表現型マスドオーディオジェスチャモデリングによる一元的音声合成を目指して

EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling ( http://arxiv.org/abs/2401.00374v3 )

ライセンス: Link先を確認
Haiyang Liu, Zihao Zhu, Giorgio Becherini, Yichen Peng, Mingyang Su, You Zhou, Xuefei Zhe, Naoya Iwamoto, Bo Zheng, Michael J. Black, (参考訳) 本研究では,顔,局所体,手,グローバルな動きを包含する,音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。 そこで我々はまずBEAT2(BEAT-SMPLX-FLAME)を導入した。 BEAT2はMoShed SMPLX本体をFLAMEヘッドパラメータと組み合わせ、頭部、首、指の動きのモデリングをさらに洗練し、コミュニティ標準化された高品質な3Dモーションキャプチャーデータセットを提供する。 EMAGEは、トレーニング中にマスクされたボディジェスチャの事前情報を活用し、推論性能を向上する。 Masked Audio Gesture Transformerが組み込まれており、オーディオとジェスチャーのヒントを効果的にエンコードする。 マスクされたジェスチャーから符号化された身体のヒントは、顔と身体の動きを生成するために別々に使用される。 さらに、EMAGEは音声のリズムと内容から音声特徴を適応的にマージし、4つの合成VQ-VAEを用いて結果の忠実度と多様性を高める。 実験により、EMAGEは最先端の性能を持つ全体的ジェスチャーを生成し、事前定義された空間的時間的ジェスチャー入力を受け入れ、完全な音声同期結果を生成する。 私たちのコードとデータセットはhttps://pantomatrix.github.io/EMAGE/で公開されています。

We propose EMAGE, a framework to generate full-body human gestures from audio and masked gestures, encompassing facial, local body, hands, and global movements. To achieve this, we first introduce BEAT2 (BEAT-SMPLX-FLAME), a new mesh-level holistic co-speech dataset. BEAT2 combines MoShed SMPLX body with FLAME head parameters and further refines the modeling of head, neck, and finger movements, offering a community-standardized, high-quality 3D motion captured dataset. EMAGE leverages masked body gesture priors during training to boost inference performance. It involves a Masked Audio Gesture Transformer, facilitating joint training on audio-to-gesture generation and masked gesture reconstruction to effectively encode audio and body gesture hints. Encoded body hints from masked gestures are then separately employed to generate facial and body movements. Moreover, EMAGE adaptively merges speech features from the audio's rhythm and content and utilizes four compositional VQ-VAEs to enhance the results' fidelity and diversity. Experiments demonstrate that EMAGE generates holistic gestures with state-of-the-art performance and is flexible in accepting predefined spatial-temporal gesture inputs, generating complete, audio-synchronized results. Our code and dataset are available at https://pantomatrix.github.io/EMAGE/
翻訳日:2024-03-27 01:55:44 公開日:2024-03-25
# テキストの長文生成を支援する推論時間トレーニング

With Greater Text Comes Greater Necessity: Inference-Time Training Helps Long Text Generation ( http://arxiv.org/abs/2401.11504v2 )

ライセンス: Link先を確認
Y. Wang, D. Ma, D. Cai, (参考訳) 非常に長い文脈で書かれた小説や談話レベルの翻訳のような長文生成は、現在の言語モデルに重大な課題をもたらす。 既存のメソッドは主に長さの外挿のような戦略を通じてモデルのコンテキストウィンドウを拡張することに重点を置いています。 しかし、これらのアプローチはトレーニングおよび/または推論フェーズの間、かなりのハードウェアリソースを必要とする。 提案手法であるTemp-Loraは代替概念を提案する。 すべてのコンテキスト情報を格納するためにKVキャッシュに頼る代わりに、この情報を一時的なLoraモジュールに直接埋め込む。 長いテキスト生成の過程で、このモジュールは、以前に生成されたテキストで徐々に訓練される。 このアプローチは文脈的知識を効率的に保存するだけでなく、モジュールが後世代で破棄されたことを前提に、モデルパラメータの永続的な変更を防ぎます。 PG19言語モデリングベンチマークとGuoFeng談話レベル翻訳ベンチマークの大規模な実験により、Temp-Loraの有効性が検証された。 私たちの結果はこう示しています。 1)Temp-LoraはPG19のサブセットで13.2%のパープレキシティ(PPL)が減少し、29.3%のPPLが減少し、GuoFengのサブセットでは113.2%のBLEUスコアが増加した。 2) Temp-Loraは、既存の長文生成方法と互換性があり、拡張されている。 3)Temp-Loraはコンテキストウィンドウを短くすることで計算コストを大幅に削減できる。 例えば、生成品質の適度な改善(PPLの3.8%の低下)を確実にすると同時に、51.5%のメモリ使用量の削減と、推論のレイテンシの60.0%の削減を可能にします。

Long text generation, such as novel writing and discourse-level translation with extremely long contexts, presents significant challenges to current language models. Existing methods mainly focus on extending the model's context window through strategies like length extrapolation. However, these approaches demand substantial hardware resources during the training and/or inference phases. Our proposed method, Temp-Lora, introduces an alternative concept. Instead of relying on the KV cache to store all context information, we embeds this information directly into a temporary Lora module. In the process of long text generation, this module is progressively trained with text generated previously. This approach not only efficiently preserves contextual knowledge but also prevents any permanent alteration to the model's parameters given that the module is discarded post-generation. Extensive experiments on the PG19 language modeling benchmark and the GuoFeng discourse-level translation benchmark validate the effectiveness of Temp-Lora. Our results show that: 1) Temp-Lora substantially enhances generation quality for long text, as indicated by a 13.2% decrease in perplexity (PPL) on a subset of PG19, and a 29.3% decrease in PPL along with a 113.2% increase in BLEU score on a subset of GuoFeng, 2) Temp-Lora is compatible with and enhances most existing long text generation methods, and 3) Temp-Lora can greatly reduce computational costs by shortening the context window. For example, we can ensure a moderate improvement in generation quality (a decrease of 3.8% in PPL) while enabling a 51.5% memory usage reduction and a 60.0% decrease in latency for inference.
翻訳日:2024-03-27 01:55:44 公開日:2024-03-25
# 高温電子とダークエキシトンは金属-有機光学マイクロキャビティの強結合条件を調節する

Hot electrons and dark excitons modulate strong-coupling conditions in metal-organic optical microcavities ( http://arxiv.org/abs/2401.14835v2 )

ライセンス: Link先を確認
Pavel V. Kolesnichenko, Manuel Hertzog, Felix Hainer, Oskar Kefer, Jana Zaumseil, Tiago Buckup, (参考訳) ポラリトンは、有機太陽電池、光論理ゲート、量子ビットなどの重要な応用に期待されている。 低Qマイクロキャビティでは、強いハイブリッド化光子とフレンケル励起子の分極性シグネチャが暗黒励起子とともに崩壊することが以前に見いだされた。 ダークエキシトンがエキシトン-光子結合の強さに影響を及ぼすかどうかについては、未解決の疑問が残る。 さらに、有機層におけるダークエキシトンと金属膜中のホット電子の極性反応への寄与は、完全には理解されていない。 ここでは, 有機および金属層上での偏光子の非局在化により, ダークエキシトンとホット電子の両方に敏感であることが確認された。 ダークエキシトンはエキシトン-光子結合の強さを変調する一方、ホットエレクトロンは極性反応に二温度ダイナミクスを印加する。 有機膜および金属フィルムは、エクシトン-ポラリトンの一過性ファノ様ゲインロススペクトルに寄与する。 これらの強結合力学に関するその他の力学的な知見は、非エルミート・ハミルトン力学の理論、軸分解光学シミュレーション、ポンプ-プローブスペクトルの大域的解析、統計的相関解析によって支持された。 開発手法は他のマイクロキャビティ構造にも適用できる。 本研究は, 光物理・光化学プロセスにおける光制御の究極的目的として, 有機および金属層における他の励起物質からの純極性効果を阻害するために重要である。

Polaritons are promising for important applications including organic solar cells, optical logic gates, and qubits. In low-Q microcavities, polaritonic signatures of strongly hybridized photons and Frenkel excitons were previously found to decay together with dark excitons. There remain unresolved questions regarding whether dark excitons affect the strength of exciton-photon coupling. Additionally, the contributions of dark excitons in organic layers and hot electrons in metal films to the polaritonic response are not fully understood. Here, we identified that due to delocalization of polaritons over organic and metal layers, they are sensitive to both dark excitons and hot electrons. Dark excitons modulate exciton-photon coupling strength, whereas hot-electrons imprint two-temperature dynamics onto the polaritonic response. Both organic and metal films contribute to transient Fano-like gain-loss spectra of exciton-polaritons. These and other mechanistic insights into the strong-coupling dynamics were supported by the theory of non-Hermitian Hamiltonian mechanics, axially-resolved optical simulations, global analysis of pump-probe spectra, and statistical correlation analysis. The developed methodology can be applied to other microcavity structures. Our findings are important for disentangling pure polaritonic effects from other excitations in organic and metal layers, with the ultimate aim of achieving photonic control over photophysical and photochemical processes.
翻訳日:2024-03-27 01:45:48 公開日:2024-03-25
# 多視点空間-時間関係変換器を用いた高精度3次元人物位置推定に向けて

Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers ( http://arxiv.org/abs/2401.16700v2 )

ライセンス: Link先を確認
Jianbin Jiao, Xina Cheng, Weijie Chen, Xiaoting Yin, Hao Shi, Kailun Yang, (参考訳) 3次元人間のポーズ推定は、深度情報と物理的構造を保持しながら、3次元空間における人間の関節点をキャプチャする。 これは、人間とコンピュータのインタラクション、シーン理解、リハビリテーショントレーニングなど、正確なポーズ情報を必要とするアプリケーションに必須である。 データ収集の課題により、3次元人間のポーズ推定の主流データセットは、主に実験室で収集された多視点ビデオデータで構成されており、画像フレームの内容に加えて、空間的・時間的相関情報も豊富である。 多視点ビデオデータセットから空間時間相関を捉えることができるトランスフォーマーの顕著な自己認識機構を考慮し,人間のポーズ検出のための多段階フレームワークを提案する。 まず、空間モジュールは、人物のポーズ特徴を画像内コンテンツで表現し、フレーム画像関連モジュールは、多視点画像間の時間的関係と3次元空間的位置関係の特徴を抽出する。 第2に、非人体部品からの干渉を排除し、演算資源を削減する自己注意機構を採用する。 提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。 実験結果から,本データセットの最先端性能が得られた。 ソースコードはhttps://github.com/WUJINHUAN/3D- Human-poseで入手できる。

3D human pose estimation captures the human joint points in three-dimensional space while keeping the depth information and physical structure. That is essential for applications that require precise pose information, such as human-computer interaction, scene understanding, and rehabilitation training. Due to the challenges in data collection, mainstream datasets of 3D human pose estimation are primarily composed of multi-view video data collected in laboratory environments, which contains rich spatial-temporal correlation information besides the image frame content. Given the remarkable self-attention mechanism of transformers, capable of capturing the spatial-temporal correlation from multi-view video datasets, we propose a multi-stage framework for 3D sequence-to-sequence (seq2seq) human pose detection. Firstly, the spatial module represents the human pose feature by intra-image content, while the frame-image relation module extracts temporal relationships and 3D spatial positional relationship features between the multi-perspective images. Secondly, the self-attention mechanism is adopted to eliminate the interference from non-human body parts and reduce computing resources. Our method is evaluated on Human3.6M, a popular 3D human pose detection dataset. Experimental results demonstrate that our approach achieves state-of-the-art performance on this dataset. The source code will be available at https://github.com/WUJINHUAN/3D-human-pose.
翻訳日:2024-03-27 01:45:48 公開日:2024-03-25
# LOCOST:長期文書要約のための状態空間モデル

LOCOST: State-Space Models for Long Document Abstractive Summarization ( http://arxiv.org/abs/2401.17919v3 )

ライセンス: Link先を確認
Florian Le Bronnec, Song Duong, Mathieu Ravaut, Alexandre Allauzen, Nancy F. Chen, Vincent Guigue, Alberto Lumbreras, Laure Soulier, Patrick Gallinari, (参考訳) 状態空間モデルは、長いシーケンスをエンコードし、長期的な依存関係をキャプチャするトランスフォーマーに代わる低複雑さである。 長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。 計算複雑性が$O(L \log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。 我々は,一連の長い文書要約タスクにおいて,そのモデルを評価した。 このモデルは、トレーニング中に最大50%のメモリを節約し、推論中に最大87%のメモリを節約しながら、同じサイズで最高のパフォーマンスのスパーストランスフォーマーに匹敵する93-96%のパフォーマンスレベルに達する。 さらに、LOCOSTは、推論時に600Kトークンを超える入力テキストを効果的に処理し、フルブックの要約に関する新しい最先端結果を設定し、長い入力処理のための新しい視点を開く。

State-space models are a low-complexity alternative to transformers for encoding long sequences and capturing long-term dependencies. We propose LOCOST: an encoder-decoder architecture based on state-space models for conditional text generation with long context inputs. With a computational complexity of $O(L \log L)$, this architecture can handle significantly longer sequences than state-of-the-art models that are based on sparse attention patterns. We evaluate our model on a series of long document abstractive summarization tasks. The model reaches a performance level that is 93-96% comparable to the top-performing sparse transformers of the same size while saving up to 50% memory during training and up to 87% during inference. Additionally, LOCOST effectively handles input texts exceeding 600K tokens at inference time, setting new state-of-the-art results on full-book summarization and opening new perspectives for long input processing.
翻訳日:2024-03-27 01:45:48 公開日:2024-03-25
# Sandra - 説明と状況に基づくニューロシンボリックな共振器

Sandra -- A Neuro-Symbolic Reasoner Based On Descriptions And Situations ( http://arxiv.org/abs/2402.00591v3 )

ライセンス: Link先を確認
Nicolas Lazzari, Stefano De Giorgis, Aldo Gangemi, Valentina Presutti, (参考訳) 本稿では,ベクトル表現と帰納的推論を組み合わせたニューロシンボリック推論器であるSandraについて述べる。 サンドラは、オントロジーによって制約されたベクトル空間を構築し、その上で推論を行う。 推論器の幾何学的性質は、ニューラルネットワークと組み合わせることを可能にし、そのギャップと記号的知識表現をブリッジする。 Sandraは、フレームセマンティクスの形式化であるDnSオントロジー設計パターンに基づいている。 一連の事実(状況)が与えられた場合、不完全な情報が存在する場合でも、可能なすべての視点(記述)を推測することができる。 DnSモデルに関して,本手法が正しいことを証明した。 我々は2つの異なるタスクとその標準ベンチマークで実験を行い、複雑さを増すことなく、サンドラを実証した。 (i)すべてのベースラインを上回る (二)分類過程における解釈可能性、及び (iii) 事前設計したベクトル空間の制御を可能にする。

This paper presents sandra, a neuro-symbolic reasoner combining vectorial representations with deductive reasoning. Sandra builds a vector space constrained by an ontology and performs reasoning over it. The geometric nature of the reasoner allows its combination with neural networks, bridging the gap with symbolic knowledge representations. Sandra is based on the Description and Situation (DnS) ontology design pattern, a formalization of frame semantics. Given a set of facts (a situation) it allows to infer all possible perspectives (descriptions) that can provide a plausible interpretation for it, even in presence of incomplete information. We prove that our method is correct with respect to the DnS model. We experiment with two different tasks and their standard benchmarks, demonstrating that, without increasing complexity, sandra (i) outperforms all the baselines (ii) provides interpretability in the classification process, and (iii) allows control over the vector space, which is designed a priori.
翻訳日:2024-03-27 01:45:48 公開日:2024-03-25
# Uni-RLHF:Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback

Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback ( http://arxiv.org/abs/2402.02423v2 )

ライセンス: Link先を確認
Yifu Yuan, Jianye Hao, Yi Ma, Zibin Dong, Hebin Liang, Jinyi Liu, Zhixin Feng, Kai Zhao, Yan Zheng, (参考訳) Reinforcement Learning with Human Feedback (RLHF) は、人選好の調整による手作業による報酬設計を必要とせず、タスクを実行する上で大きな注目を集めている。 様々な環境において,多様なフィードバックタイプや学習方法を検討することが重要である。 しかし、標準化されたアノテーションプラットフォームや広く使用されている統一ベンチマークがないため、RLHFの進歩を様々なフィードバックで定量化することは困難である。 このギャップを埋めるために、RLHFに適したシステム実装であるUni-RLHFを導入する。 実際の人間のフィードバックから完全なワークフローを提供することを目標とし、実践的な問題の進展を促進する。 Uni-RLHF には3つのパッケージがある。 1) ユニバーサルマルチフィードバックアノテーションプラットフォーム。 2)大規模クラウドソースフィードバックデータセット 3) モジュール型のオフラインRLHFベースライン実装。 Uni-RLHFは、様々なフィードバックタイプに適したユーザフレンドリーなアノテーションインターフェースを開発し、様々な主要なRL環境と互換性がある。 そして、クラウドソーシングされたアノテーションの体系的なパイプラインを構築し、30以上の一般的なタスクにまたがる1500万以上のステップからなる大規模なアノテートデータセットを作成しました。 大規模な実験を通じて、収集されたデータセットの結果は、よく設計された手作業による報酬と比較して、競争力のあるパフォーマンスを示している。 さまざまな設計選択を評価し、その強みと潜在的な改善領域について洞察を提供する。 リアルな人間のフィードバックに基づいて、より堅牢で信頼性の高いRLHFソリューションの開発を容易にするために、貴重なオープンソースプラットフォーム、データセット、ベースラインを構築したいと考えています。 ウェブサイトはhttps://uni-rlhf.github.io/.comで公開されている。

Reinforcement Learning with Human Feedback (RLHF) has received significant attention for performing tasks without the need for costly manual reward design by aligning human preferences. It is crucial to consider diverse human feedback types and various learning methods in different environments. However, quantifying progress in RLHF with diverse feedback is challenging due to the lack of standardized annotation platforms and widely used unified benchmarks. To bridge this gap, we introduce Uni-RLHF, a comprehensive system implementation tailored for RLHF. It aims to provide a complete workflow from real human feedback, fostering progress in the development of practical problems. Uni-RLHF contains three packages: 1) a universal multi-feedback annotation platform, 2) large-scale crowdsourced feedback datasets, and 3) modular offline RLHF baseline implementations. Uni-RLHF develops a user-friendly annotation interface tailored to various feedback types, compatible with a wide range of mainstream RL environments. We then establish a systematic pipeline of crowdsourced annotations, resulting in large-scale annotated datasets comprising more than 15 million steps across 30+ popular tasks. Through extensive experiments, the results in the collected datasets demonstrate competitive performance compared to those from well-designed manual rewards. We evaluate various design choices and offer insights into their strengths and potential areas of improvement. We wish to build valuable open-source platforms, datasets, and baselines to facilitate the development of more robust and reliable RLHF solutions based on realistic human feedback. The website is available at https://uni-rlhf.github.io/.
翻訳日:2024-03-27 01:35:51 公開日:2024-03-25
# JEANIE: 時間視点アライメントによる3次元骨格配列の類似度測定

Meet JEANIE: a Similarity Measure for 3D Skeleton Sequences via Temporal-Viewpoint Alignment ( http://arxiv.org/abs/2402.04599v2 )

ライセンス: Link先を確認
Lei Wang, Jun Liu, Liang Zheng, Tom Gedeon, Piotr Koniusz, (参考訳) ビデオシーケンスは、動作速度、時間的位置、ポーズの顕著なニュアンス変化(望ましくない効果)を示し、2つのフレームを比較したり、2つのシーケンスの類似性を評価する際に、時間的視点のずれを生じさせる。 そこで本研究では,シーケンス対に対する共用tEmporalとcAmera viewpoiNt alIgnmEnt(JEANIE)を提案する。 特に,カメラと被験者のポーズを3Dで容易に操作できる3Dスケルトン配列に着目した。 JEANIE on skeletal Few-shot Action Recognition (FSAR), which are matching well temporal block (temporal chunks that a sequence) of support-query sequence pairs ( factoring nuisance variations) due due due for limited sample of novel class。 クエリシーケンスが与えられた場合、複数のカメラ位置をシミュレートすることで、いくつかのビューを作成します。 サポートシーケンスについては、一般的な動的時間ワープ(DTW)のように、ビューシミュレートされたクエリシーケンスとマッチングする。 具体的には、各サポート時間ブロックは、クエリ時間ブロックと、同じまたは隣接する(次の)時間インデックスと、隣接するカメラビューとを一致させて、共同ローカル時間視点ワープを実現する。 JEANIEは、時間的視点のワープパターンが異なるマッチングパスの最小距離を選択し、時間的アライメントのみを実行するDTWよりも有利である。 JEANIEを距離測度とするシーケンスのクラスタリングに類似した教師なしFSARも提案する。 JEANIEは、NTU-60, NTU-120, Kinetics-skeleton and UWA3D Multiview Activity II on supervised and unsupervised FSAR, and their meta-learning inspired fusion。

Video sequences exhibit significant nuisance variations (undesired effects) of speed of actions, temporal locations, and subjects' poses, leading to temporal-viewpoint misalignment when comparing two sets of frames or evaluating the similarity of two sequences. Thus, we propose Joint tEmporal and cAmera viewpoiNt alIgnmEnt (JEANIE) for sequence pairs. In particular, we focus on 3D skeleton sequences whose camera and subjects' poses can be easily manipulated in 3D. We evaluate JEANIE on skeletal Few-shot Action Recognition (FSAR), where matching well temporal blocks (temporal chunks that make up a sequence) of support-query sequence pairs (by factoring out nuisance variations) is essential due to limited samples of novel classes. Given a query sequence, we create its several views by simulating several camera locations. For a support sequence, we match it with view-simulated query sequences, as in the popular Dynamic Time Warping (DTW). Specifically, each support temporal block can be matched to the query temporal block with the same or adjacent (next) temporal index, and adjacent camera views to achieve joint local temporal-viewpoint warping. JEANIE selects the smallest distance among matching paths with different temporal-viewpoint warping patterns, an advantage over DTW which only performs temporal alignment. We also propose an unsupervised FSAR akin to clustering of sequences with JEANIE as a distance measure. JEANIE achieves state-of-the-art results on NTU-60, NTU-120, Kinetics-skeleton and UWA3D Multiview Activity II on supervised and unsupervised FSAR, and their meta-learning inspired fusion.
翻訳日:2024-03-27 01:35:51 公開日:2024-03-25
# クロスモデル半教師付き学習に基づく道路検出のための知識蒸留

Knowledge Distillation for Road Detection based on cross-model Semi-Supervised Learning ( http://arxiv.org/abs/2402.05305v2 )

ライセンス: Link先を確認
Wanli Ma, Oktay Karakus, Paul L. Rosin, (参考訳) 知識蒸留の進歩は、より大きな教師モデルからより小さく効率的な学生モデルへの知識の移転を可能にする上で重要な役割を担い、特にオンラインおよびリソース制約の応用において有益である。 学生モデルの有効性は,教師から受けた蒸留知識の品質に大きく依存している。 乱れのないリモートセンシングデータのアクセシビリティを考えると、半教師付き学習はモデル性能を向上させるための一般的な戦略となっている。 しかし,機能抽出能力に限界があるため,より小さなモデルによる半教師付き学習にのみ依存することは不十分である。 この制限は、トレーニングデータを利用する能力を制限します。 この問題に対処するために,知識蒸留と半教師付き学習手法を組み合わせた統合的アプローチを提案する。 このハイブリッドアプローチは、大規模モデルの堅牢な機能を活用して、大規模で遅延のないデータを効果的に利用し、その後、リッチで有益な拡張機能を備えた小さな学生モデルを提供する。 半教師あり学習に基づく知識蒸留(SSLKD)アプローチは,従来の半教師あり学習法を超越した道路分割の適用において,学生モデルの性能が顕著に向上したことを示す。

The advancement of knowledge distillation has played a crucial role in enabling the transfer of knowledge from larger teacher models to smaller and more efficient student models, and is particularly beneficial for online and resource-constrained applications. The effectiveness of the student model heavily relies on the quality of the distilled knowledge received from the teacher. Given the accessibility of unlabelled remote sensing data, semi-supervised learning has become a prevalent strategy for enhancing model performance. However, relying solely on semi-supervised learning with smaller models may be insufficient due to their limited capacity for feature extraction. This limitation restricts their ability to exploit training data. To address this issue, we propose an integrated approach that combines knowledge distillation and semi-supervised learning methods. This hybrid approach leverages the robust capabilities of large models to effectively utilise large unlabelled data whilst subsequently providing the small student model with rich and informative features for enhancement. The proposed semi-supervised learning-based knowledge distillation (SSLKD) approach demonstrates a notable improvement in the performance of the student model, in the application of road segmentation, surpassing the effectiveness of traditional semi-supervised learning methods.
翻訳日:2024-03-27 01:35:51 公開日:2024-03-25
# BioNeRF:ビュー合成のための生体可塑性神経放射場

BioNeRF: Biologically Plausible Neural Radiance Fields for View Synthesis ( http://arxiv.org/abs/2402.07310v2 )

ライセンス: Link先を確認
Leandro A. Passos, Douglas Rodrigues, Danilo Jodas, Kelton A. P. Costa, Ahsan Adeel, João Paulo Papa, (参考訳) 本稿では,3次元表現のシーンをモデル化し,放射場を通して新たなビューを合成する生物可塑性アーキテクチャであるBioNeRFを提案する。 NeRFはシーンの3次元表現を保存するためにネットワークの重みに依存しているため、BioNeRFは複数のソースからの入力をメモリのような構造に融合させ、記憶能力を改善し、より本質的で関連性の高い情報を抽出する認知的なメカニズムを実装している。 BioNeRFはまた、文脈情報に関するピラミッド細胞で観察される振る舞いを模倣し、メモリがコンテキストとして提供され、続く2つのニューラルモデルの入力と組み合わせる。 実験の結果,BioNeRFは実世界の画像と合成データという2つのデータセットで人間の知覚を符号化する品質指標に関して,最先端の結果よりも優れていた。

This paper presents BioNeRF, a biologically plausible architecture that models scenes in a 3D representation and synthesizes new views through radiance fields. Since NeRF relies on the network weights to store the scene's 3-dimensional representation, BioNeRF implements a cognitive-inspired mechanism that fuses inputs from multiple sources into a memory-like structure, improving the storing capacity and extracting more intrinsic and correlated information. BioNeRF also mimics a behavior observed in pyramidal cells concerning contextual information, in which the memory is provided as the context and combined with the inputs of two subsequent neural models, one responsible for producing the volumetric densities and the other the colors used to render the scene. Experimental results show that BioNeRF outperforms state-of-the-art results concerning a quality measure that encodes human perception in two datasets: real-world images and synthetic data.
翻訳日:2024-03-27 01:35:51 公開日:2024-03-25
# 大規模言語モデルの敵対的能力を探る

Exploring the Adversarial Capabilities of Large Language Models ( http://arxiv.org/abs/2402.09132v3 )

ライセンス: Link先を確認
Lukas Struppek, Minh Hieu Le, Dominik Hintersdorf, Kristian Kersting, (参考訳) 大規模言語モデル(LLM)の普及は、言語生成能力の強大さにより、広く一般に関心を集め、産業と研究の両方に大きな可能性を秘めている。 以前の研究では、LLMのセキュリティとプライバシの問題を掘り下げたものの、これらのモデルが敵対行動を示す程度は、まだ明らかにされていない。 このギャップに対処するために、一般のLLMは、テキストサンプルを摂動して安全対策を騙す能力を持っているかどうか、いわゆる逆例(resp)について検討する。 攻撃。 より具体的には、LLMが本来、既存の安全レールを騙すために良質なサンプルから敵の例を作ることができるかどうかを考察する。 我々の実験は、ヘイトスピーチ検出に焦点をあて、LLMが敵の摂動を見つけることに成功し、ヘイトスピーチ検出システムを効果的に損なうことを示した。 本研究は, LLMに依存する半自律システムに重要な意味を持ち, 既存のシステムとの相互作用や安全性対策の潜在的な課題を浮き彫りにしている。

The proliferation of large language models (LLMs) has sparked widespread and general interest due to their strong language generation capabilities, offering great potential for both industry and research. While previous research delved into the security and privacy issues of LLMs, the extent to which these models can exhibit adversarial behavior remains largely unexplored. Addressing this gap, we investigate whether common publicly available LLMs have inherent capabilities to perturb text samples to fool safety measures, so-called adversarial examples resp.~attacks. More specifically, we investigate whether LLMs are inherently able to craft adversarial examples out of benign samples to fool existing safe rails. Our experiments, which focus on hate speech detection, reveal that LLMs succeed in finding adversarial perturbations, effectively undermining hate speech detection systems. Our findings carry significant implications for (semi-)autonomous systems relying on LLMs, highlighting potential challenges in their interaction with existing systems and safety measures.
翻訳日:2024-03-27 01:35:51 公開日:2024-03-25
# OpenFMNav: Vision-Language Foundation Modelsによるオープンセットゼロショットオブジェクトナビゲーションを目指す

OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models ( http://arxiv.org/abs/2402.10670v2 )

ライセンス: Link先を確認
Yuxuan Kuang, Hai Lin, Meng Jiang, (参考訳) オブジェクトナビゲーション(ObjectNav)では、クエリされたオブジェクトを見つけるために、エージェントが見えない環境をナビゲートする必要がある。 従来の多くの手法では、教師付き学習や強化学習に頼って、近接したオブジェクトを持つ限られた家庭データセットでトレーニングを行おうとしていた。 しかし、オープンセットオブジェクトを必要とする自由形式の自然言語命令を理解すること、ゼロショット方式で新しい環境に一般化することの2つの主要な課題は解決されていない。 本稿では,この2つの課題を解決するために,ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。 まず,ユーザの要求を満たす自然言語命令から提案したオブジェクトを抽出するために,大規模言語モデル(LLM)の推論能力を解き放つ。 次に、大規模視覚言語モデル(VLM)の一般化可能性を活用し、現場から候補対象を積極的に発見・検出し、VSSM(Versatile Semantic Score Map)を構築する。 そして,VSSM上で常識推論を行うことで,シーンの効果的な言語指導による探索と活用を行い,最終的に目標を達成することができる。 本手法は,基礎モデルの推論と一般化能力を活用することで,自由形式の人間の指示を理解し,多様な環境下で効率的なオープンセットゼロショットナビゲーションを行うことができる。 HM3D ObjectNavベンチマークの大規模な実験は、我々のメソッドが全てのメトリクスの強いベースラインを全て越え、我々のメソッドの有効性を証明していることを示している。 さらに,本手法のオープンセット性と実環境への一般化性を検証するために,実ロボットによる実演を行う。

Object navigation (ObjectNav) requires an agent to navigate through unseen environments to find queried objects. Many previous methods attempted to solve this task by relying on supervised or reinforcement learning, where they are trained on limited household datasets with close-set objects. However, two key challenges are unsolved: understanding free-form natural language instructions that demand open-set objects, and generalizing to new environments in a zero-shot manner. Aiming to solve the two challenges, in this paper, we propose OpenFMNav, an Open-set Foundation Model based framework for zero-shot object Navigation. We first unleash the reasoning abilities of large language models (LLMs) to extract proposed objects from natural language instructions that meet the user's demand. We then leverage the generalizability of large vision language models (VLMs) to actively discover and detect candidate objects from the scene, building a Versatile Semantic Score Map (VSSM). Then, by conducting common sense reasoning on VSSM, our method can perform effective language-guided exploration and exploitation of the scene and finally reach the goal. By leveraging the reasoning and generalizing abilities of foundation models, our method can understand free-form human instructions and perform effective open-set zero-shot navigation in diverse environments. Extensive experiments on the HM3D ObjectNav benchmark show that our method surpasses all the strong baselines on all metrics, proving our method's effectiveness. Furthermore, we perform real robot demonstrations to validate our method's open-set-ness and generalizability to real-world environments.
翻訳日:2024-03-27 01:35:51 公開日:2024-03-25
# LongHeads:マルチヘッドアテンションは秘密裏に長いコンテキストプロセッサ

LongHeads: Multi-Head Attention is Secretly a Long Context Processor ( http://arxiv.org/abs/2402.10685v2 )

ライセンス: Link先を確認
Yi Lu, Xin Zhou, Wei He, Jun Zhao, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang, (参考訳) 大規模言語モデル(LLM)は、多くの領域において目覚ましい性能を達成しているが、限られた長さの一般化と注意の二次計算要求のために、しばしば効率よく、効率的に長い入力を処理するのに苦労している。 多くの者は、事前訓練された長さ内の注意窓を制限することでこれを緩和しようとした。 しかし、これらの手法は、中間の文脈を無視し、追加の訓練を必要とするような新しい問題をもたらす。 これらの問題に対処するために,LongHeadsを提案する。LongHeadsは,マルチヘッドアテンションの未解決の可能性を解き放つことで,LLMの長期コンテキスト能力を高める学習自由フレームワークである。 オフ・オブ・ディストリビューション(OOD)問題による長いシーケンスの一般化に苦慮する全文に各頭が参加できるようにする代わりに、重要なコンテキストチャンクを選択して参加することで、各頭がイン・ディストリビューション長を処理できるようにします。 そこで本研究では,クエリとキー表現の関連性に依存するチャンク選択戦略を提案する。 このようにして、各ヘッドはトレーニングされた長さ内で出席トークンを効果的に処理できるようにし、異なるレイヤ内の異なるヘッドは、集合的に長いコンテキストを処理できる。 LongHeadsは線形時間で効率的に動作し、相対的な位置エンコーディングを使用する多くのLCMとシームレスに適合する。 LongHeadsはパスキー検索タスクの128k長で100%精度を達成し、既存のモデルで使用可能なコンテキストウィンドウを拡張する上でのLongHeadsの有効性を検証する。 コードをhttps://github.com/LuLuLuyi/LongHeadsでリリースしています。

Large language models (LLMs) have achieved impressive performance in numerous domains but often struggle to process lengthy inputs effectively and efficiently due to limited length generalization and attention's quadratic computational demands. Many sought to mitigate this by restricting the attention window within the pre-trained length. However, these methods introduce new issues such as ignoring the middle context and requiring additional training. To address these problems, we propose LongHeads, a training-free framework that enhances LLM's long context ability by unlocking multi-head attention's untapped potential. Instead of allowing each head to attend to the full sentence, which struggles with generalizing to longer sequences due to out-of-distribution (OOD) issues, we allow each head to process in-distribution length by selecting and attending to important context chunks. To this end, we propose a chunk selection strategy that relies on the inherent correlation between the query and the key representations, efficiently distributing context chunks to different heads. In this way, each head ensures it can effectively process attended tokens within the trained length, while different heads in different layers can collectively process longer contexts. LongHeads works efficiently in linear time, fits seamlessly with many LLMs that use relative positional encoding. LongHeads achieves 100% accuracy at the 128k length on passkey retrieval task, verifying LongHeads's efficacy in extending the usable context window for existing models. We release our code at https://github.com/LuLuLuyi/LongHeads .
翻訳日:2024-03-27 01:35:51 公開日:2024-03-25
# 大規模言語モデルを用いたデータ中心タスクの解法

Solving Data-centric Tasks using Large Language Models ( http://arxiv.org/abs/2402.11734v2 )

ライセンス: Link先を確認
Shraddha Barke, Christian Poelitz, Carina Suzana Negreanu, Benjamin Zorn, José Cambronero, Andrew D. Gordon, Vu Le, Elnaz Nouri, Nadia Polikarpova, Advait Sarkar, Brian Slininger, Neil Toronto, Jack Williams, (参考訳) 大きな言語モデル(LLM)はStackOverflowのようなヘルプフォーラムを急速に置き換えている。 これらのユーザは、スプレッドシート操作やデータラングリングなど、データ中心のタスクに関心があることが多い。 しかし、どのデータとどのデータをプロンプトに含めるかをどのように決めるのか? 本稿では,この問題への回答に2つの貢献をする。 まず,StackOverflowの投稿から抽出した表データを操作する実世界のNL-to-codeタスクのデータセットを作成する。 次に,LLMプロンプトに入力データから最も代表的な行を追加するクラスタ列選択プロンプト手法を提案する。 実験の結果,LLMの性能はプロンプトに渡されるデータ量に非常に敏感であり,入力テーブルに多くの構文変化があるタスクの場合,クラスタ列選択手法はランダム選択ベースラインよりも優れていた。

Large language models (LLMs) are rapidly replacing help forums like StackOverflow, and are especially helpful for non-professional programmers and end users. These users are often interested in data-centric tasks, such as spreadsheet manipulation and data wrangling, which are hard to solve if the intent is only communicated using a natural-language description, without including the data. But how do we decide how much data and which data to include in the prompt? This paper makes two contributions towards answering this question. First, we create a dataset of real-world NL-to-code tasks manipulating tabular data, mined from StackOverflow posts. Second, we introduce a cluster-then-select prompting technique, which adds the most representative rows from the input data to the LLM prompt. Our experiments show that LLM performance is indeed sensitive to the amount of data passed in the prompt, and that for tasks with a lot of syntactic variation in the input table, our cluster-then-select technique outperforms a random selection baseline.
翻訳日:2024-03-27 01:35:51 公開日:2024-03-25
# 拡散型ニューラルネットワークによる時空間Few-Shot学習

Spatio-Temporal Few-Shot Learning via Diffusive Neural Network Generation ( http://arxiv.org/abs/2402.11922v3 )

ライセンス: Link先を確認
Yuan Yuan, Chenyang Shao, Jingtao Ding, Depeng Jin, Yong Li, (参考訳) 時空間モデリングはスマートシティのアプリケーションに基礎を置いているが、多くの都市や地域でのデータ不足によってしばしば妨げられている。 このギャップを埋めるために,都市知識伝達を伴う時空間小ショット学習のための新しい生成前学習フレームワーク GPD を提案する。 一般的な特徴抽出や複雑な数ショットの学習設計に大きく依存する従来のアプローチとは異なり、当社のソリューションは、ソースシティのデータに最適化されたニューラルネットワークパラメータのコレクションを生成前トレーニングすることで、新しいアプローチを採用する。 本研究では,プロンプトによって誘導されるニューラルネットワークを調整し,多様なデータ分布や都市特有の特性に適応可能な生成拡散モデルの事前学習として,時空間学習を再考する。 GPDはTransformerベースのデノナイジング拡散モデルを採用しており、強力な時空間ニューラルネットワークとの統合にはモデルに依存しない。 データギャップと都市間の知識の一般化の複雑さから生じる課題に対処することによって、私たちのフレームワークは、トラフィック速度予測やクラウドフロー予測といったタスクにおいて、複数の実世界のデータセットにおける最先端のベースラインを一貫して上回ります。 このアプローチの実装は、https://github.com/tsinghua-fib-lab/GPD.comで利用可能です。

Spatio-temporal modeling is foundational for smart city applications, yet it is often hindered by data scarcity in many cities and regions. To bridge this gap, we propose a novel generative pre-training framework, GPD, for spatio-temporal few-shot learning with urban knowledge transfer. Unlike conventional approaches that heavily rely on common feature extraction or intricate few-shot learning designs, our solution takes a novel approach by performing generative pre-training on a collection of neural network parameters optimized with data from source cities. We recast spatio-temporal few-shot learning as pre-training a generative diffusion model, which generates tailored neural networks guided by prompts, allowing for adaptability to diverse data distributions and city-specific characteristics. GPD employs a Transformer-based denoising diffusion model, which is model-agnostic to integrate with powerful spatio-temporal neural networks. By addressing challenges arising from data gaps and the complexity of generalizing knowledge across cities, our framework consistently outperforms state-of-the-art baselines on multiple real-world datasets for tasks such as traffic speed prediction and crowd flow prediction. The implementation of our approach is available: https://github.com/tsinghua-fib-lab/GPD.
翻訳日:2024-03-27 01:25:46 公開日:2024-03-25
# Chitchat as Interference:タスク指向対話にユーザバックストリーを追加する

Chitchat as Interference: Adding User Backstories to Task-Oriented Dialogues ( http://arxiv.org/abs/2402.15248v2 )

ライセンス: Link先を確認
Armand Stricker, Patrick Paroubek, (参考訳) タスク指向対話(TOD)において、人間のユーザは、会話の流れに干渉して、タスクの即時範囲を超えているchitchatを自然に導入する。 この問題を解決するために、高価な手動データ作成を必要とせずに、Llama-2-70Bを使って、TODにおけるchitchat干渉の典型的な例であるユーザバックストリーによるMultiWOZデータセットを強化する。 この追加が与える影響を、2つのモデルで評価する。1つはTODで、もう1つはTODで、もう1つは事前のchitchatインタラクションで、TODで訓練された。 我々の分析は、拡張データセットがこれらのシステムに課題をもたらすことを示している。 さらに,我々のデータセットをトレーニング目的で効果的に活用できることを実証し,人間の評価によって確認されたように,システムがユーザの背景を一貫して認識しつつ,タスクを同じ方向に前進させることに成功した。 これらの知見は、TODシステムをより徹底的にテストし、自然なユーザ干渉に対するレジリエンスを向上させるために、新しいchitchat-TODシナリオを生成する利点を浮き彫りにした。

During task-oriented dialogues (TODs), human users naturally introduce chitchat that is beyond the immediate scope of the task, interfering with the flow of the conversation. To address this issue without the need for expensive manual data creation, we use few-shot prompting with Llama-2-70B to enhance the MultiWOZ dataset with user backstories, a typical example of chitchat interference in TODs. We assess the impact of this addition by testing two models: one trained solely on TODs and another trained on TODs with a preliminary chitchat interaction. Our analysis demonstrates that our enhanced dataset poses a challenge for these systems. Moreover, we demonstrate that our dataset can be effectively used for training purposes, enabling a system to consistently acknowledge the user's backstory while also successfully moving the task forward in the same turn, as confirmed by human evaluation. These findings highlight the benefits of generating novel chitchat-TOD scenarios to test TOD systems more thoroughly and improve their resilience to natural user interferences
翻訳日:2024-03-27 01:25:45 公開日:2024-03-25
# MambaIR: ステートスペースモデルによる画像復元のためのシンプルなベースライン

MambaIR: A Simple Baseline for Image Restoration with State-Space Model ( http://arxiv.org/abs/2402.15648v2 )

ライセンス: Link先を確認
Hang Guo, Jinmin Li, Tao Dai, Zhihao Ouyang, Xudong Ren, Shu-Tao Xia, (参考訳) 近年では画像復元が大幅に進歩しており、主にCNNやTransformersのような現代のディープニューラルネットワークの開発によるものである。 しかし、既存の復元バックボーンは、大域的な受容場と効率的な計算のジレンマに直面し、実際に応用を妨げている。 近年、Selective Structured State Space Model、特に改良されたMambaは、線形複雑性を持つ長距離依存モデリングに大きな可能性を示し、上記のジレンマを解決する方法を提供している。 しかしながら、標準のMambaは、ローカルピクセルのリプレースやチャネルの冗長性といった、低レベルのビジョンにおいて、いくつかの課題に直面している。 本研究では,バニラ・マンバの改良のために,局所的な拡張とチャネルの注意を両立させる,シンプルだが効果的なベースラインであるMambaIRを紹介する。 このようにして、我々のMambaIRは、局所的なピクセル類似性を生かし、チャネルの冗長性を減少させる。 例えば、MambaIRは画像SR上でSwinIRを最大0.45dBで上回り、同様の計算コストを用いるが、大域的受容場を持つ。 コードは \url{https://github.com/csguoh/MambaIR} で入手できる。

Recent years have seen significant advancements in image restoration, largely attributed to the development of modern deep neural networks, such as CNNs and Transformers. However, existing restoration backbones often face the dilemma between global receptive fields and efficient computation, hindering their application in practice. Recently, the Selective Structured State Space Model, especially the improved version Mamba, has shown great potential for long-range dependency modeling with linear complexity, which offers a way to resolve the above dilemma. However, the standard Mamba still faces certain challenges in low-level vision such as local pixel forgetting and channel redundancy. In this work, we introduce a simple but effective baseline, named MambaIR, which introduces both local enhancement and channel attention to improve the vanilla Mamba. In this way, our MambaIR takes advantage of the local pixel similarity and reduces the channel redundancy. Extensive experiments demonstrate the superiority of our method, for example, MambaIR outperforms SwinIR by up to 0.45dB on image SR, using similar computational cost but with a global receptive field. Code is available at \url{https://github.com/csguoh/MambaIR}.
翻訳日:2024-03-27 01:25:45 公開日:2024-03-25
# SeMoLi: 一緒に動くもの

SeMoLi: What Moves Together Belongs Together ( http://arxiv.org/abs/2402.19463v2 )

ライセンス: Link先を確認
Jenny Seidenschwarz, Aljoša Ošep, Francesco Ferroni, Simon Lucey, Laura Leal-Taixé, (参考訳) 動作手がかりに基づく半教師付き物体検出に挑戦する。 近年の研究では,移動物体の擬似ラベルインスタンスにオブジェクトトラッカーを併用したヒューリスティックなクラスタリング手法を応用し,これらを監視信号として使用することにより,手動の監督なしにライダーデータ中の3次元物体検出器を訓練することができることが示唆されている。 我々は、このアプローチを再考し、オブジェクト検出とモーションインスパイアされた擬似ラベルの両方が、データ駆動方式で取り組めることを示唆する。 我々は,シーンフロー推定の最近の進歩を活用して,長期的クラスに依存しない動作パターンを抽出する点軌跡を得る。 メッセージパッシングネットワークのコンテキストにおける相関クラスタリングを再検討し、それらの動きパターンをクラスタポイントとオブジェクトインスタンスにグループ化する。 オブジェクトの全範囲を推定することにより、Lidarオブジェクト検出ネットワークを監督するために使用するスキャンごとの3Dバウンディングボックスを得る。 提案手法は,従来のヒューリスティックなアプローチ(57.5 AP,+14改善)に勝るだけでなく,データセット間で擬似ラベルとオブジェクト検出の訓練を行うことができることを示す。

We tackle semi-supervised object detection based on motion cues. Recent results suggest that heuristic-based clustering methods in conjunction with object trackers can be used to pseudo-label instances of moving objects and use these as supervisory signals to train 3D object detectors in Lidar data without manual supervision. We re-think this approach and suggest that both, object detection, as well as motion-inspired pseudo-labeling, can be tackled in a data-driven manner. We leverage recent advances in scene flow estimation to obtain point trajectories from which we extract long-term, class-agnostic motion patterns. Revisiting correlation clustering in the context of message passing networks, we learn to group those motion patterns to cluster points to object instances. By estimating the full extent of the objects, we obtain per-scan 3D bounding boxes that we use to supervise a Lidar object detection network. Our method not only outperforms prior heuristic-based approaches (57.5 AP, +14 improvement over prior work), more importantly, we show we can pseudo-label and train object detectors across datasets.
翻訳日:2024-03-27 01:25:45 公開日:2024-03-25
# Align-to-distill: ニューラルネットワーク翻訳における知識蒸留のためのトレーニング可能なアテンションアライメント

Align-to-Distill: Trainable Attention Alignment for Knowledge Distillation in Neural Machine Translation ( http://arxiv.org/abs/2403.01479v3 )

ライセンス: Link先を確認
Heegon Jin, Seonil Son, Jemin Park, Youngseok Kim, Hyungjong Noh, Yeonsoo Lee, (参考訳) スケーラブルなディープモデルと大規模なデータセットの出現により、Neural Machine Translationのパフォーマンスが向上した。 知識蒸留(KD)は、教師モデルからよりコンパクトな学生モデルに知識を移すことによって効率を高める。 しかしながら、トランスフォーマーアーキテクチャへのKDアプローチは、特にどの教師層を蒸留するかを決めるとき、ヒューリスティックに依存していることが多い。 本稿では,学生の注意を教師と適応的にアライメントすることで特徴マッピング問題に対処する「A2D(Align-to-Distill)」戦略を提案する。 A2Dのアテンションアライメントモジュールは、階層をまたいで生徒と教師の注意を集中的に比較し、組合せマッピングヒューリスティックスを学習問題に変換する。 実験の結果, トランスフォーマーベースラインと比較して, WMT-2022 De->Dsb と WMT-2014 En->De に対して, 最大 3.61 と +0.63 BLEU の値が得られた。

The advent of scalable deep models and large datasets has improved the performance of Neural Machine Translation. Knowledge Distillation (KD) enhances efficiency by transferring knowledge from a teacher model to a more compact student model. However, KD approaches to Transformer architecture often rely on heuristics, particularly when deciding which teacher layers to distill from. In this paper, we introduce the 'Align-to-Distill' (A2D) strategy, designed to address the feature mapping problem by adaptively aligning student attention heads with their teacher counterparts during training. The Attention Alignment Module in A2D performs a dense head-by-head comparison between student and teacher attention heads across layers, turning the combinatorial mapping heuristics into a learning problem. Our experiments show the efficacy of A2D, demonstrating gains of up to +3.61 and +0.63 BLEU points for WMT-2022 De->Dsb and WMT-2014 En->De, respectively, compared to Transformer baselines.
翻訳日:2024-03-27 01:15:57 公開日:2024-03-25
# BASS -- Unified Semantic Graphsによる抽象的な要約を促進する - レプリケーションスタディ

A Second Look on BASS -- Boosting Abstractive Summarization with Unified Semantic Graphs -- A Replication Study ( http://arxiv.org/abs/2403.02930v2 )

ライセンス: Link先を確認
Osman Alperen Koraş, Jörg Schlötterer, Christin Seifert, (参考訳) 本稿では,統一意味グラフの概念に基づく抽象的な要約システムであるBASSフレームワークの詳細な複製について述べる。 本研究は、キーコンポーネントの複製における課題と、新しいコンポーネントの複製に根ざしたエラーソースを系統的に分離するアブレーション研究を含む。 本報告では, 原著と比較して, 性能の相違が明らかとなった。 BASSのような先進的なフレームワークを複製するために、合理的に省略された詳細であっても注意を払うことの重要性を強調し、複製可能な論文を書くための重要なプラクティスを強調します。

We present a detailed replication study of the BASS framework, an abstractive summarization system based on the notion of Unified Semantic Graphs. Our investigation includes challenges in replicating key components and an ablation study to systematically isolate error sources rooted in replicating novel components. Our findings reveal discrepancies in performance compared to the original work. We highlight the significance of paying careful attention even to reasonably omitted details for replicating advanced frameworks like BASS, and emphasize key practices for writing replicable papers.
翻訳日:2024-03-27 01:15:57 公開日:2024-03-25
# きめ細かな視覚知覚を持つマルチモーダルインストラクション調整LDM

Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception ( http://arxiv.org/abs/2403.02969v2 )

ライセンス: Link先を確認
Junwen He, Yifan Wang, Lijun Wang, Huchuan Lu, Jun-Yan He, Jin-Peng Lan, Bin Luo, Xuansong Xie, (参考訳) MLLM(Multimodal Large Language Model)は、様々な視覚言語タスクの認知フレームワークとして、Large Language Modelsを活用する。 近年,視覚的知覚と接地能力を備えたMLLMの開発が進められている。 しかし、微細なピクセルレベルの認識を提供し、テキスト固有の入力を超えて相互作用を拡張することにはまだギャップが残っている。 本研究では,テキスト,ボックス,画像,オーディオなどのマルチモーダル参照から,画素単位のオブジェクト認識や自然言語記述を生成可能な汎用MLLMモデルである。 このイノベーションは、ユーザーに対して、モダリティ固有のデザインなしで、テキストや地域的なプロンプトを超えたモデルに、より柔軟な関与を可能にする。 提案した再フォーカス機構により,生成したグラウンドアウトプットは参照オブジェクトにもっと焦点を合わせ,追加のピクセルレベルの監視を暗黙的に組み込むように誘導される。 この簡単な修正は、LLMの推論時に発生する注意スコアを利用し、グラウンディングマスクと参照式の両方のパフォーマンス向上を示しながら、余分な計算を不要にする。 一般に公開されているトレーニングデータのみを用いて,多種多様なモータリティ参照セグメンテーションや地域レベルの参照表現生成など,複数のベンチマークで最先端の結果が得られる。

Multimodal Large Language Model (MLLMs) leverages Large Language Models as a cognitive framework for diverse visual-language tasks. Recent efforts have been made to equip MLLMs with visual perceiving and grounding capabilities. However, there still remains a gap in providing fine-grained pixel-level perceptions and extending interactions beyond text-specific inputs. In this work, we propose {\bf{AnyRef}}, a general MLLM model that can generate pixel-wise object perceptions and natural language descriptions from multi-modality references, such as texts, boxes, images, or audio. This innovation empowers users with greater flexibility to engage with the model beyond textual and regional prompts, without modality-specific designs. Through our proposed refocusing mechanism, the generated grounding output is guided to better focus on the referenced object, implicitly incorporating additional pixel-level supervision. This simple modification utilizes attention scores generated during the inference of LLM, eliminating the need for extra computations while exhibiting performance enhancements in both grounding masks and referring expressions. With only publicly available training data, our model achieves state-of-the-art results across multiple benchmarks, including diverse modality referring segmentation and region-level referring expression generation.
翻訳日:2024-03-27 01:15:57 公開日:2024-03-25
# 最適化励起計数による高効率で頑健なボゾン状態復元

Demonstrating efficient and robust bosonic state reconstruction via optimized excitation counting ( http://arxiv.org/abs/2403.03080v3 )

ライセンス: Link先を確認
Tanjung Krisnanda, Clara Yun Fontaine, Adrian Copetudo, Pengtao Song, Kai Xiang Lee, Ni-Ni Huang, Fernando Valadares, Timothy C. H. Liew, Yvonne Y. Gao, (参考訳) 量子状態再構成は、量子情報処理において重要な要素である。 しかし、ハードウェア不完全性の存在下での非自明な量子状態の効率的かつ信頼性の高い再構成は困難である。 この課題は連続可変(CV)システムで符号化された高次元状態に対して特に要求される。 そこで本研究では,励起数サンプリング(ORENS)に基づく効率的でロバストな再構成手法を提案する。 我々は、標準的なボソニック回路量子電磁力学(cQED)を用いて、ORENSのロバスト性を実験的に証明し、Wigner や Husimi Q などの既存のcQED再構成技術よりも優れていることを示す。 我々の研究は、ORENSが自然に寄生系力学を必要とせず、ハードウェアのデコヒーレンス効果に耐性があることを強調している。 最後に、ORENSは状態の励起数を正確に測定する能力にのみ依存しており、幅広いCVプラットフォーム向けの汎用的でアクセスしやすいツールであり、マルチモードシステムに容易に拡張できる。 このように、本研究はボソニックモードを用いた実用的な量子情報処理のための重要かつ価値のあるプリミティブを提供する。

Quantum state reconstruction is an essential element in quantum information processing. However, efficient and reliable reconstruction of non-trivial quantum states in the presence of hardware imperfections can be challenging. This task is particularly demanding for high-dimensional states encoded in continuous-variable (CV) systems, as many error-prone measurements are needed to cover the relevant degrees of freedom of the system in phase space. In this work, we introduce an efficient and robust technique for optimized reconstruction based on excitation number sampling (ORENS). We use a standard bosonic circuit quantum electrodynamics (cQED) setup to experimentally demonstrate the robustness of ORENS and show that it outperforms the existing cQED reconstruction techniques such as Wigner and Husimi Q tomography. Our investigation highlights that ORENS is naturally free of parasitic system dynamics and resilient to decoherence effects in the hardware. Finally, ORENS relies only on the ability to accurately measure the excitation number of the state, making it a versatile and accessible tool for a wide range of CV platforms and readily scalable to multimode systems. Thus, our work provides a crucial and valuable primitive for practical quantum information processing using bosonic modes.
翻訳日:2024-03-27 01:15:57 公開日:2024-03-25
# 確率モデルによるボンガード・ログ問題の解法

Solving the bongard-logo problem by modeling a probabilistic model ( http://arxiv.org/abs/2403.03173v3 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan, (参考訳) 抽象推論問題は、AIアルゴリズムの知覚的および認知的能力に挑戦し、明示的な画像特徴以上のパターン識別と帰納的推論を要求する。 本研究は, ボナード・ローゴ問題に適した確率モデルであるPMoCを導入し, 独立確率モデルを構築して高い推論精度を実現する。 さらに、Bongard-Logo、RAVEN、I-RAVEN、PGMなどの複雑な抽象的推論タスク用に設計された拡張トランスフォーマーであるPose-Transformerを提案する。 Pose-Transformerは、カプセルネットワークのポーズ行列にインスパイアされた位置情報学習を取り入れ、画像データ処理における局所的な位置関係に焦点を当てる。 PMoCと統合すると、推論精度がさらに向上する。 提案手法は,抽象エンティティの位置変化に伴う推論の難しさを効果的に解決し,OIG,D3$\times$3サブセットのRAVEN,PGMデータベース上でのモデルよりも優れている。 この研究は、抽象的推論と認知パターン認識におけるAIの能力向上に寄与する。

Abstract reasoning problems challenge the perceptual and cognitive abilities of AI algorithms, demanding deeper pattern discernment and inductive reasoning beyond explicit image features. This study introduces PMoC, a tailored probability model for the Bongard-Logo problem, achieving high reasoning accuracy by constructing independent probability models. Additionally, we present Pose-Transformer, an enhanced Transformer-Encoder designed for complex abstract reasoning tasks, including Bongard-Logo, RAVEN, I-RAVEN, and PGM. Pose-Transformer incorporates positional information learning, inspired by capsule networks' pose matrices, enhancing its focus on local positional relationships in image data processing. When integrated with PMoC, it further improves reasoning accuracy. Our approach effectively addresses reasoning difficulties associated with abstract entities' positional changes, outperforming previous models on the OIG, D3$\times$3 subsets of RAVEN, and PGM databases. This research contributes to advancing AI's capabilities in abstract reasoning and cognitive pattern recognition.
翻訳日:2024-03-27 01:15:57 公開日:2024-03-25
# Triple-CFN:抽象推論プロセスの強化のための概念空間の再構築

Triple-CFN: Restructuring Conceptual Spaces for Enhancing Abstract Reasoning process ( http://arxiv.org/abs/2403.03190v4 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan, (参考訳) 抽象推論問題は、人工知能アルゴリズムに重大な課題をもたらし、知覚タスクに必要なもの以上の認知能力を要求する。 本研究では,競合するインスタンスの概念空間を暗黙的に再編成することにより,ボナード・ローゴ問題に対処するトリプルCFN手法を提案する。 さらに、トリプルCFNパラダイムは、必要な修正を加えてRPM問題に有効であることを証明し、競争結果をもたらす。 RPM問題の性能をさらに向上するため,プログレッシブパターンの解釈可能性を維持しつつ,問題空間を明示的に構造化するMeta Triple-CFNネットワークを開発した。 Meta Triple-CFNの成功は、その概念空間をモデル化するパラダイムが、正規化推論情報と等価であることに起因している。 このイデオロギーに基づいて、Re-space層を導入し、Meta Triple-CFNとTriple-CFNの両方の性能を向上させる。 本稿では、抽象推論問題に対処する革新的なネットワーク設計を探求し、この領域におけるさらなるブレークスルーへの道を開くことにより、機械学習の進歩に貢献することを目的とする。

Abstract reasoning problems pose significant challenges to artificial intelligence algorithms, demanding cognitive capabilities beyond those required for perception tasks. This study introduces the Triple-CFN approach to tackle the Bongard-Logo problem, achieving notable reasoning accuracy by implicitly reorganizing the concept space of conflicting instances. Additionally, the Triple-CFN paradigm proves effective for the RPM problem with necessary modifications, yielding competitive results. To further enhance performance on the RPM issue, we develop the Meta Triple-CFN network, which explicitly structures the problem space while maintaining interpretability on progressive patterns. The success of Meta Triple-CFN is attributed to its paradigm of modeling the conceptual space, equivalent to normalizing reasoning information. Based on this ideology, we introduce the Re-space layer, enhancing the performance of both Meta Triple-CFN and Triple-CFN. This paper aims to contribute to advancements in machine intelligence by exploring innovative network designs for addressing abstract reasoning problems, paving the way for further breakthroughs in this domain.
翻訳日:2024-03-27 01:15:57 公開日:2024-03-25
# D4Cグローブトレイン:概念の分散と循環によるRPMとBongard-logo問題の解法

D4C glove-train: solving the RPM and Bongard-logo problem by distributing and Circumscribing concepts ( http://arxiv.org/abs/2403.03452v4 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan, (参考訳) 本稿では,抽象的推論の領域において,特にRaven's Progressive Matrices (RPM) と Bongard-Logo の課題に対処する上で,注目すべき進歩を実現する。 リコネット(Lico-Net)は,RPM問題に顕著な精度で対処する新しいベースラインモデルである。 この基礎を生かして、我々はD3Cアプローチを推進し、分布を通して抽象的推論問題の根底にある概念を提唱する。 この観点は、Lico-NetとBongard-Logoタスクに優れたベースラインモデルの両方のパフォーマンスを向上させる。 D3Cの計算効率を高めるために,D3C-cosの変種を示す。 さらに,これらの領域における概念的境界を再定義するD2C法を提案する。 最後に、我々の方法論をD4Cに拡張し、さらに概念境界を洗練させ、RPMとBongard-Logoの課題において実質的な改善を示す。 全体として、我々の貢献は抽象的推論の分野における新たな展望と実践的な進歩を示している。

This paper achieves noteworthy progress in the realm of abstract reasoning, particularly in addressing Raven's Progressive Matrices (RPM) and Bongard-Logo challenges. Initially, we introduce Lico-Net, a novel baseline model that resolves RPM problems with remarkable accuracy. Leveraging this foundation, we advance with the D3C approach, which advocates representing the underlying concepts in abstract reasoning problems through distributions. This perspective enhances the performance of both Lico-Net and a baseline model excelling in Bongard-Logo tasks. To bolster the computational efficiency of D3C, we present the D3C-cos variant, offering a streamlined yet precise solution. Furthermore, we propose the D2C method, redefining conceptual boundaries within these domains and bridging the divide between high-level abstractions and their lower-dimensional counterparts. Finally, we extend our methodology to D4C, employing adversarial techniques to refine conceptual boundaries further and demonstrate substantial improvements in both RPM and Bongard-Logo challenges. Overall, our contributions present a fresh outlook and practical advancements in the field of abstract reasoning.
翻訳日:2024-03-27 01:15:57 公開日:2024-03-25
# Mipha: 小型言語モデルによるマルチモーダルアシスタントの網羅的オーバーホール

Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models ( http://arxiv.org/abs/2403.06199v4 )

ライセンス: Link先を確認
Minjie Zhu, Yichen Zhu, Xin Liu, Ning Liu, Zhiyuan Xu, Chaomin Shen, Yaxin Peng, Zhicai Ou, Feifei Feng, Jian Tang, (参考訳) MLLM(Multimodal Large Language Models)は、視覚的理解と推論に関連するタスクにおいて、優れたスキルを誇示している。 しかし、彼らの幅広い応用は、トレーニングと推論フェーズの両方において高い計算要求のために障害に直面しており、研究とユーザコミュニティ内の限られた利用者に限られている。 本稿では,Multimodal Small Language Models (MSLM) の設計側面について検討し,視覚表現,言語モデル,最適化戦略など,様々な側面の相乗効果を創出するために設計された,効率的なマルチモーダルアシスタント Mipha を提案する。 トレーニングデータの量を増やすことなく、我々のMipha-3Bは最先端の大規模MLLM(特にLLaVA-1.5-13B)を複数のベンチマークで上回ります。 より詳細な議論を通じて,MLLMの能力に匹敵する強力なMSLMを開発するための洞察とガイドラインを提供する。 私たちのコードはhttps://github.com/zhuyiche/llava-phi.comから入手可能です。

Multimodal Large Language Models (MLLMs) have showcased impressive skills in tasks related to visual understanding and reasoning. Yet, their widespread application faces obstacles due to the high computational demands during both the training and inference phases, restricting their use to a limited audience within the research and user communities. In this paper, we investigate the design aspects of Multimodal Small Language Models (MSLMs) and propose an efficient multimodal assistant named Mipha, which is designed to create synergy among various aspects: visual representation, language models, and optimization strategies. We show that without increasing the volume of training data, our Mipha-3B outperforms the state-of-the-art large MLLMs, especially LLaVA-1.5-13B, on multiple benchmarks. Through detailed discussion, we provide insights and guidelines for developing strong MSLMs that rival the capabilities of MLLMs. Our code is available at https://github.com/zhuyiche/llava-phi.
翻訳日:2024-03-27 01:06:08 公開日:2024-03-25
# Fair Facial Attribute 分類のための分布生成拡張

Distributionally Generative Augmentation for Fair Facial Attribute Classification ( http://arxiv.org/abs/2403.06606v2 )

ライセンス: Link先を確認
Fengda Zhang, Qianpei He, Kun Kuang, Jiashuo Liu, Long Chen, Chao Wu, Jun Xiao, Hanwang Zhang, (参考訳) Facial Attribute Classification (FAC) は広く応用されている。 しかし、従来の手法で訓練されたFACモデルは、様々なデータサブポピュレーションにまたがる精度の不整合を示すことによって不公平である可能性がある。 この不公平さは、主にデータのバイアスによるもので、いくつかのスプリアス属性(例えば、男性)は、ターゲット属性(例えば、スマイリング)と統計的に相関している。 既存のフェアネスを意識した手法のほとんどは、実際には利用できないようなスプリアス属性のラベルに依存している。 この研究は、新たなアノテーションなしでバイアスデータ上で公正なFACモデルをトレーニングするための、新しい世代ベースの2段階フレームワークを提案する。 まず、生成モデルに基づいて、潜在的に刺激的な属性を同定する。 特に、画像空間内のスプリアス属性を明示的に示すことで、解釈可能性を高める。 その後、各画像に対して、ターゲット属性を一定に保ちながら、一様分布からランダムにサンプリングされたランダム度でスプリアス属性を編集する。 そして、これらの拡張に対するモデル不変性を育み、公正なFACモデルを訓練する。 3つの共通データセットに対する大規模な実験は、精度を損なうことなく、FACにおける公平性を促進させる方法の有効性を示した。 コードはhttps://github.com/heqianpei/DiGAにある。

Facial Attribute Classification (FAC) holds substantial promise in widespread applications. However, FAC models trained by traditional methodologies can be unfair by exhibiting accuracy inconsistencies across varied data subpopulations. This unfairness is largely attributed to bias in data, where some spurious attributes (e.g., Male) statistically correlate with the target attribute (e.g., Smiling). Most of existing fairness-aware methods rely on the labels of spurious attributes, which may be unavailable in practice. This work proposes a novel, generation-based two-stage framework to train a fair FAC model on biased data without additional annotation. Initially, we identify the potential spurious attributes based on generative models. Notably, it enhances interpretability by explicitly showing the spurious attributes in image space. Following this, for each image, we first edit the spurious attributes with a random degree sampled from a uniform distribution, while keeping target attribute unchanged. Then we train a fair FAC model by fostering model invariance to these augmentation. Extensive experiments on three common datasets demonstrate the effectiveness of our method in promoting fairness in FAC without compromising accuracy. Codes are in https://github.com/heqianpei/DiGA.
翻訳日:2024-03-27 01:06:08 公開日:2024-03-25
# レイヤー2後の1/2トークン画像:大規模視覚言語モデルのためのプラグ・アンド・プレイ推論高速化

An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models ( http://arxiv.org/abs/2403.06764v2 )

ライセンス: Link先を確認
Liang Chen, Haozhe Zhao, Tianyu Liu, Shuai Bai, Junyang Lin, Chang Zhou, Baobao Chang, (参考訳) 本研究では,LLaVA-1.5,QwenVL-Chat,Video-LLaVAなどの顕著なモデルにおいて,LVLM(Large Vision-Language Models)における非効率な注意現象を同定する。 視覚的トークンに対する注意計算は、一般的なLVLMの深層では極めて非効率であることが判明し、テキストデータ処理と比較してスペーサーアプローチの必要性が示唆された。 この目的のために我々は,初期層における適応的な注意パターンを学習し,その後の層で視覚トークンをプルーニングすることにより,計算効率を最適化する汎用的なプラグアンドプレイ方式であるFastVを紹介する。 我々の評価は、幅広い画像・映像理解タスクの性能を犠牲にすることなく、計算コストを劇的に削減するFastV(例えば、LLaVA-1.5-13BのFLOPを45削減する)の能力を示す。 FastVの計算効率と性能トレードオフは、高度にカスタマイズ可能で、パレート効率が高い。 13BパラメータモデルのFLOPを圧縮して、7BパラメータモデルのFLOPよりも低い予算を達成するが、優れた性能は維持できる。 我々は、FastVがエッジデバイスや商用モデルにLVLMを配備する上で、実用的な価値を持っていると考えている。 コードはhttps://github.com/pkunlp-icler/FastVで公開されている。

In this study, we identify the inefficient attention phenomena in Large Vision-Language Models (LVLMs), notably within prominent models like LLaVA-1.5, QwenVL-Chat and Video-LLaVA. We find out that the attention computation over visual tokens is of extreme inefficiency in the deep layers of popular LVLMs, suggesting a need for a sparser approach compared to textual data handling. To this end, we introduce FastV, a versatile plug-and-play method designed to optimize computational efficiency by learning adaptive attention patterns in early layers and pruning visual tokens in subsequent ones. Our evaluations demonstrate FastV's ability to dramatically reduce computational costs (e.g., a 45 reduction in FLOPs for LLaVA-1.5-13B) without sacrificing performance in a wide range of image and video understanding tasks. The computational efficiency and performance trade-off of FastV are highly customizable and pareto-efficient. It can compress the FLOPs of a 13B-parameter model to achieve a lower budget than that of a 7B-parameter model, while still maintaining superior performance. We believe FastV has practical values for deployment of LVLMs in edge devices and commercial models. Code is released at https://github.com/pkunlp-icler/FastV.
翻訳日:2024-03-27 01:06:08 公開日:2024-03-25
# FocusCLIP:人間中心タスクにおけるゼロショット転送のためのマルチモーダルな主観的誘導

FocusCLIP: Multimodal Subject-Level Guidance for Zero-Shot Transfer in Human-Centric Tasks ( http://arxiv.org/abs/2403.06904v2 )

ライセンス: Link先を確認
Muhammad Saif Ullah Khan, Muhammad Ferjad Naeem, Federico Tombari, Luc Van Gool, Didier Stricker, Muhammad Zeshan Afzal, (参考訳) 主観レベルのガイダンスを統合したFocusCLIPを提案する。これは、人間中心タスクにおけるゼロショット転送を改善するためのCLIPフレームワークに組み込まれた、ターゲット固有の監視のための特殊なメカニズムである。 私たちの新しいコントリビューションは、視覚とテキストの両面においてCLIPを強化します。 視力面では、人間の視覚的注意機構を模したROIヒートマップを取り入れ、被写体関連画像領域を強調する。 テキスト側では、リッチな文脈情報を提供するために、人間のポーズ記述を導入する。 人間中心のタスクでは、FocusCLIPはMPII Human Poseデータセットの画像でトレーニングされる。 提案されたアプローチは、人間中心の3つのタスクをカバーする5つの未確認データセットに対して、平均8.61%のCLIPを上回った。 FocusCLIP の平均精度は 33.65% であり、CLIP では 25.04% であった。 我々は、活動認識の3.98%、年齢分類の14.78%、感情認識の7.06%の改善を観察した。 さらに,提案したシングルショットLCMプロンプト戦略を用いて,人間中心タスクにおけるマルチモーダル学習のさらなる研究を促進するために,高品質なMPII Pose Descriptionsデータセットをリリースする。 また,非人間中心の課題に対する主観レベルの監督の効果も示す。 FocusCLIPはCLIPよりも2.47%改善している。 本研究は,ダウンストリーム性能向上のための一般事前学習手法と主観的指導を統合する可能性を強調した。

We propose FocusCLIP, integrating subject-level guidance--a specialized mechanism for target-specific supervision--into the CLIP framework for improved zero-shot transfer on human-centric tasks. Our novel contributions enhance CLIP on both the vision and text sides. On the vision side, we incorporate ROI heatmaps emulating human visual attention mechanisms to emphasize subject-relevant image regions. On the text side, we introduce human pose descriptions to provide rich contextual information. For human-centric tasks, FocusCLIP is trained with images from the MPII Human Pose dataset. The proposed approach surpassed CLIP by an average of 8.61% across five previously unseen datasets covering three human-centric tasks. FocusCLIP achieved an average accuracy of 33.65% compared to 25.04% by CLIP. We observed a 3.98% improvement in activity recognition, a 14.78% improvement in age classification, and a 7.06% improvement in emotion recognition. Moreover, using our proposed single-shot LLM prompting strategy, we release a high-quality MPII Pose Descriptions dataset to encourage further research in multimodal learning for human-centric tasks. Furthermore, we also demonstrate the effectiveness of our subject-level supervision on non-human-centric tasks. FocusCLIP shows a 2.47% improvement over CLIP in zero-shot bird classification using the CUB dataset. Our findings emphasize the potential of integrating subject-level guidance with general pretraining methods for enhanced downstream performance.
翻訳日:2024-03-27 00:56:02 公開日:2024-03-25
# 可変拡散モデルを用いた時間効率とアイデンティティ一貫性のある仮想試行

Time-Efficient and Identity-Consistent Virtual Try-On Using A Variant of Altered Diffusion Models ( http://arxiv.org/abs/2403.07371v2 )

ライセンス: Link先を確認
Phuong Dam, Jihoon Jeong, Anh Tran, Daeyoung Kim, (参考訳) 本研究では,現代電子商取引における仮想試行と将来的なメタバース(メタバース)における仮想試行の重要課題について論じ,複雑なテクスチャの詳細と,テクスチャやアクセサリーのような衣服のテクスチャやアイデンティティの特徴など,さまざまなシナリオにおける対象者や衣服の特徴の保存という課題を強調した。 合成された画像の忠実さに加えて、合成プロセスの効率は重要なハードルとなる。 既存の様々なアプローチが検討され、制限と未解決の側面、例えば、アイデンティティ情報削除、制御不能なアーティファクト、低合成速度などを強調している。 次に,仮想試行中にテクスチャのテクスチャ保存とユーザアイデンティティ保持に対処する,新しい拡散型ソリューションを提案する。 提案するネットワークは,衣服を個々の特徴と整列するワープモジュールと,衣服を補修する試着モジュールと,マスクを意識したポストプロセッシング技術と一体化した欠落部品を生成する。 これは、予測中の最先端の速度を20倍近く上回り、質的な評価において優れた忠実さを持つ、印象的な結果を示している。 定量的評価により、VITON-HDおよびDresscodeデータセットにおける最近のSOTA法と同等の性能が確認された。

This study discusses the critical issues of Virtual Try-On in contemporary e-commerce and the prospective metaverse, emphasizing the challenges of preserving intricate texture details and distinctive features of the target person and the clothes in various scenarios, such as clothing texture and identity characteristics like tattoos or accessories. In addition to the fidelity of the synthesized images, the efficiency of the synthesis process presents a significant hurdle. Various existing approaches are explored, highlighting the limitations and unresolved aspects, e.g., identity information omission, uncontrollable artifacts, and low synthesis speed. It then proposes a novel diffusion-based solution that addresses garment texture preservation and user identity retention during virtual try-on. The proposed network comprises two primary modules - a warping module aligning clothing with individual features and a try-on module refining the attire and generating missing parts integrated with a mask-aware post-processing technique ensuring the integrity of the individual's identity. It demonstrates impressive results, surpassing the state-of-the-art in speed by nearly 20 times during inference, with superior fidelity in qualitative assessments. Quantitative evaluations confirm comparable performance with the recent SOTA method on the VITON-HD and Dresscode datasets.
翻訳日:2024-03-27 00:56:02 公開日:2024-03-25
# BiTT:2方向のテクスチャ再構築

BiTT: Bi-directional Texture Reconstruction of Interacting Two Hands from a Single Image ( http://arxiv.org/abs/2403.08262v4 )

ライセンス: Link先を確認
Minje Kim, Tae-Kyun Kim, (参考訳) パーソナライズされたハンドアバターを作ることは、AR/VRプラットフォーム上のユーザに現実的な体験を提供することが重要です。 従来の研究は3次元手形状の再構築に重点を置いていたが、近年の研究では形状上の手形状の再構築に取り組んできた。 しかし、これらの手法は手の見える側のピクセルを捉えることに制限されることが多く、ビデオや複数の画像を入力として手の動きを多様に見る必要がある。 本稿では,1枚のRGB画像のみを取り入れた2つのインタラクションハンドの2つのテクスチャ再構築を,3つの新しいコンポーネントで実現した,最初のエンドツーエンドのトレーニング可能な手法であるBiTT(Bi-directional Texture Restruction of Two Hand)を提案する。 1)左右手のテクスチャ対称性を用いた双方向(左$\leftrightarrow$ right)テクスチャ再構成 2手触覚回復のためのテクスチャパラメトリックモデルの利用、及び 3)2つの相互作用する手のテクスチャをパーソナライズする全体的粗大なステージパイプライン。 BiTTは、まず、入力画像からシーン光条件とアルベド画像を推定し、その後、テクスチャパラメトリックモデルと双方向テクスチャコンストラクタを通して両手のテクスチャを再構成する。 In experiment using InterHand2.6M and RGB2Hands datasets, we method significantlyforms state-of-the-the-art hand texture reconstruction methods quantitatively and qualitatively。 コードはhttps://github.com/yunminjin2/BiTTで入手できる。

Creating personalized hand avatars is important to offer a realistic experience to users on AR / VR platforms. While most prior studies focused on reconstructing 3D hand shapes, some recent work has tackled the reconstruction of hand textures on top of shapes. However, these methods are often limited to capturing pixels on the visible side of a hand, requiring diverse views of the hand in a video or multiple images as input. In this paper, we propose a novel method, BiTT(Bi-directional Texture reconstruction of Two hands), which is the first end-to-end trainable method for relightable, pose-free texture reconstruction of two interacting hands taking only a single RGB image, by three novel components: 1) bi-directional (left $\leftrightarrow$ right) texture reconstruction using the texture symmetry of left / right hands, 2) utilizing a texture parametric model for hand texture recovery, and 3) the overall coarse-to-fine stage pipeline for reconstructing personalized texture of two interacting hands. BiTT first estimates the scene light condition and albedo image from an input image, then reconstructs the texture of both hands through the texture parametric model and bi-directional texture reconstructor. In experiments using InterHand2.6M and RGB2Hands datasets, our method significantly outperforms state-of-the-art hand texture reconstruction methods quantitatively and qualitatively. The code is available at https://github.com/yunminjin2/BiTT
翻訳日:2024-03-27 00:56:02 公開日:2024-03-25
# HAIFIT:ファッション画像翻訳のための人間中心AI

HAIFIT: Human-Centered AI for Fashion Image Translation ( http://arxiv.org/abs/2403.08651v2 )

ライセンス: Link先を確認
Jianan Jiang, Xinglin Li, Weiren Yu, Di Wu, (参考訳) ファッションデザインの領域では、スケッチはアーティストの独特のドローイングスタイルと創造的なビジョンを表現するためのキャンバスとして機能し、ストロークのバリエーションやテクスチャのニュアンスといった複雑な詳細を捉えている。 スケッチ・ツー・イメージのクロスモーダル翻訳技術の出現は、デザイナを特に助けてきた。 しかし、既存の手法はしばしばこれらのスケッチの詳細を画像生成中に妥協し、設計者の意図した概念から逸脱する結果となる。 この制限は、デザイナーに最終的な出力の正確なプレビューを提供する能力を損なう。 この課題を克服するために,マルチスケール機能を統合し,多様な視点から広範な特徴マップ依存性をキャプチャすることで,スケッチを高忠実なライフライクな衣料品画像に変換する新しいアプローチであるHAIFITを導入する。 本手法は,我々の自己収集データセット上で行った定性的,定量的な評価を通じて,既存のフォトリアリスティックな衣料品画像生成手法と比較して,優れた性能を示す。 本手法は, ファッションデザインに欠かせない, 独特のスタイルの保存に優れ, 細部が複雑である。

In the realm of fashion design, sketches serve as the canvas for expressing an artist's distinctive drawing style and creative vision, capturing intricate details like stroke variations and texture nuances. The advent of sketch-to-image cross-modal translation technology has notably aided designers. However, existing methods often compromise these sketch details during image generation, resulting in images that deviate from the designer's intended concept. This limitation hampers the ability to offer designers a precise preview of the final output. To overcome this challenge, we introduce HAIFIT, a novel approach that transforms sketches into high-fidelity, lifelike clothing images by integrating multi-scale features and capturing extensive feature map dependencies from diverse perspectives. Through extensive qualitative and quantitative evaluations conducted on our self-collected dataset, our method demonstrates superior performance compared to existing methods in generating photorealistic clothing images. Our method excels in preserving the distinctive style and intricate details essential for fashion design applications.
翻訳日:2024-03-27 00:56:02 公開日:2024-03-25
# 量子クリロフアルゴリズムと量子化を用いた格子ゲージ理論の解法

Solving lattice gauge theories using the quantum Krylov algorithm and qubitization ( http://arxiv.org/abs/2403.08859v2 )

ライセンス: Link先を確認
Lewis W. Anderson, Martin Kiffner, Tom O'Leary, Jason Crain, Dieter Jaksch, (参考訳) フェルミオン度自由度を含む格子ゲージ理論(LGT)の真空状態の計算はモンテカルロ法による古典計算において重要な課題となる。 量子アルゴリズムはLGTの基底状態特性のよりスケーラブルな計算経路を提供する。 しかし、そのような問題に必要な量子計算資源の包括的理解は今のところ不十分である。 本研究では,量子部分空間展開(QSE)アルゴリズムを用いて,1次元の量子電磁力学を記述したアーチティパルLGTであるシュウィンガーモデルの基底状態を計算する。 測定ノイズの影響を含む数値シミュレーションを行い、QSEアルゴリズムに必要なリソースを外挿し、システムサイズの範囲で所望の精度を達成する。 これを用いて、故障耐性フレームワーク内の量子化を用いた量子アルゴリズムを用いて、LGT真空状態の計算に必要なリソースの完全な分析を行う。 我々は,LGTハミルトニアンの「ユニタリの線形結合(LCU)」に基づく量子化を行う新しい手法を開発した。 対応するブロックエンコーディング操作のコストは$\tilde{\mathcal{O}}(N)$で、システムサイズは$N$である。 対応するプレファクタを含むQSEアルゴリズムでは,Schwingerモデルに適用した場合に$\tilde{\mathcal{O}}(N^2)$としてスケールする従来のLCU法と比較して,ゲートコストを桁違いに削減する。 資源分析によるクォービット・シングル回路Tゲートコストは早期耐故障性の実装にアピールするが, 提案手法の適用性の向上と今後の課題を議論するためには, QSE手順における数値不安定性を回避するために必要なショット数を大幅に削減する必要がある。

Computing vacuum states of lattice gauge theories (LGTs) containing fermionic degrees of freedom can present significant challenges for classical computation using Monte-Carlo methods. Quantum algorithms may offer a pathway towards more scalable computation of groundstate properties of LGTs. However, a comprehensive understanding of the quantum computational resources required for such a problem is thus far lacking. In this work, we investigate using the quantum subspace expansion (QSE) algorithm to compute the groundstate of the Schwinger model, an archetypal LGT describing quantum electrodynamics in one spatial dimension. We perform numerical simulations, including the effect of measurement noise, to extrapolate the resources required for the QSE algorithm to achieve a desired accuracy for a range of system sizes. Using this, we present a full analysis of the resources required to compute LGT vacuum states using a quantum algorithm using qubitization within a fault tolerant framework. We develop of a novel method for performing qubitization of a LGT Hamiltonian based on a 'linear combination of unitaries' (LCU) approach. The cost of the corresponding block encoding operation scales as $\tilde{\mathcal{O}}(N)$ with system size $N$. Including the corresponding prefactors, our method reduces the gate cost by multiple orders of magnitude when compared to previous LCU methods for the QSE algorithm, which scales as $\tilde{\mathcal{O}}(N^2)$ when applied to the Schwinger model. While the qubit and single circuit T-gate cost resulting from our resource analysis is appealing to early fault-tolerant implementation, we find that the number of shots required to avoid numerical instability within the QSE procedure must be significantly reduced in order to improve the feasibility of the methodology we consider and discuss how this might be achieved.
翻訳日:2024-03-27 00:56:02 公開日:2024-03-25
# セマンティックセグメンテーションが周波数エイリアスに遭遇する

When Semantic Segmentation Meets Frequency Aliasing ( http://arxiv.org/abs/2403.09065v3 )

ライセンス: Link先を確認
Linwei Chen, Lin Gu, Ying Fu, (参考訳) 近年のセマンティックセグメンテーションの進歩にもかかわらず、どのピクセルがセグメンテーションが難しいのかは明らかにされていない。 既存の研究では、イメージを簡単で硬い領域に分けるだけで、後者がオブジェクトの境界と関連していることを実証的に観察する。 本稿では,ハードピクセルの誤りを包括的に解析し,これらを3つのタイプに分類する。 その結果, ダウンサンプリング中のフーリエ領域の周波数成分の重なりによる歪みが, ハードピクセルとエイリアシングの定量的な関連性を示した。 エイリアスの原因となる周波数を同定するために,同値サンプリングレートを用いて,エイリアスに対する閾値を示すナイキスト周波数を算出する。 次に,エイリアス化の度合いを定量化する指標としてエイリアス化スコアを導入する。 提案したエイリアススコアと正に相関するが、3種類のハードピクセルは異なるパターンを示す。 本稿では,Nyquist周波数よりも高い周波数を正確に除去・調整することにより,エイリアス劣化を軽減するために,DAF(de-aliasing filter)とFreqMix( frequency mix)の2つの新しいモジュールを提案する。 DAFはダウンサンプリング前にエイリアスを行う周波数を正確に除去し、FreqMixはエンコーダブロック内の高周波成分を動的に選択する。 実験結果はセマンティックセグメンテーションと低照度インスタンスセグメンテーションタスクにおいて一貫した改善を示す。 コードは、https://github.com/Linwei-Chen/Seg-Aliasing.comで入手できる。

Despite recent advancements in semantic segmentation, where and what pixels are hard to segment remains largely unexplored. Existing research only separates an image into easy and hard regions and empirically observes the latter are associated with object boundaries. In this paper, we conduct a comprehensive analysis of hard pixel errors, categorizing them into three types: false responses, merging mistakes, and displacements. Our findings reveal a quantitative association between hard pixels and aliasing, which is distortion caused by the overlapping of frequency components in the Fourier domain during downsampling. To identify the frequencies responsible for aliasing, we propose using the equivalent sampling rate to calculate the Nyquist frequency, which marks the threshold for aliasing. Then, we introduce the aliasing score as a metric to quantify the extent of aliasing. While positively correlated with the proposed aliasing score, three types of hard pixels exhibit different patterns. Here, we propose two novel de-aliasing filter (DAF) and frequency mixing (FreqMix) modules to alleviate aliasing degradation by accurately removing or adjusting frequencies higher than the Nyquist frequency. The DAF precisely removes the frequencies responsible for aliasing before downsampling, while the FreqMix dynamically selects high-frequency components within the encoder block. Experimental results demonstrate consistent improvements in semantic segmentation and low-light instance segmentation tasks. The code is available at: https://github.com/Linwei-Chen/Seg-Aliasing.
翻訳日:2024-03-27 00:56:02 公開日:2024-03-25
# 見た目で判断するな:モーションコヒーレントなビデオ表現を目指して

Don't Judge by the Look: Towards Motion Coherent Video Representation ( http://arxiv.org/abs/2403.09506v2 )

ライセンス: Link先を確認
Yitian Zhang, Yue Bai, Huan Wang, Yizhou Wang, Yun Fu, (参考訳) オブジェクト認識における現在のトレーニングパイプラインは、データ拡張を行う際のHue Jitteringを無視している。 本研究では,映像情報を含む映像において,静的な外観が重要でないため,映像理解の文脈における色相の相違が有益であることを示す。 本研究では,映像理解のためのデータ拡張手法であるMotion Coherent Augmentation (MCA)を提案する。 具体的には,映像サンプルの外観を効率よく修正するSwapMix操作を提案し,SwapMixによる分布変化を解消するためにVAを導入し,そのモデルに外見不変表現の学習を強制する。 様々なアーキテクチャおよび異なるデータセットにわたる総合的な経験的評価は、MCAの有効性と一般化能力、および他の拡張手法におけるVAの適用をしっかりと検証する。 コードはhttps://github.com/BeSpontaneous/MCA-pytorchで入手できる。

Current training pipelines in object recognition neglect Hue Jittering when doing data augmentation as it not only brings appearance changes that are detrimental to classification, but also the implementation is inefficient in practice. In this study, we investigate the effect of hue variance in the context of video understanding and find this variance to be beneficial since static appearances are less important in videos that contain motion information. Based on this observation, we propose a data augmentation method for video understanding, named Motion Coherent Augmentation (MCA), that introduces appearance variation in videos and implicitly encourages the model to prioritize motion patterns, rather than static appearances. Concretely, we propose an operation SwapMix to efficiently modify the appearance of video samples, and introduce Variation Alignment (VA) to resolve the distribution shift caused by SwapMix, enforcing the model to learn appearance invariant representations. Comprehensive empirical evaluation across various architectures and different datasets solidly validates the effectiveness and generalization ability of MCA, and the application of VA in other augmentation methods. Code is available at https://github.com/BeSpontaneous/MCA-pytorch.
翻訳日:2024-03-27 00:56:02 公開日:2024-03-25
# No-Reference Point Cloud Quality Assessmentのためのマルチビューフュージョンによる対照的な事前訓練

Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment ( http://arxiv.org/abs/2403.10066v2 )

ライセンス: Link先を確認
Ziyu Shan, Yujie Zhang, Qi Yang, Haichen Yang, Yiling Xu, Jenq-Neng Hwang, Xiaozhong Xu, Shan Liu, (参考訳) No-Reference Point Cloud Quality Assessment (NR-PCQA)は、利用可能な参照のない歪んだ点雲の知覚的品質を自動評価することを目的としており、ディープニューラルネットワークの利用により大幅に改善されている。 しかし、学習に基づくNR-PCQA法はラベル付きデータの不足に悩まされ、通常、一般化の観点からは準最適に実行される。 そこで本研究では,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。 表現空間のアンカーを得るために、異なる歪みの点雲を画像に投影し、局所パッチをランダムに混合して複数の歪みの混合画像を生成する。 生成したアンカーを利用することで、知覚品質が内容と歪みの両方に密接に関連しているという哲学に従って、品質に配慮したコントラスト損失を通じて事前学習プロセスを制約する。 さらに、モデル微調整段階において、複数の視点から投影された画像の特徴を効果的に統合する意味誘導多視点融合モジュールを提案する。 実験結果から,提案手法はPCQA法よりも高い性能を示した。 さらなる調査は、CoPAが既存の学習ベースのPCQAモデルにも役立つことを実証している。

No-reference point cloud quality assessment (NR-PCQA) aims to automatically evaluate the perceptual quality of distorted point clouds without available reference, which have achieved tremendous improvements due to the utilization of deep neural networks. However, learning-based NR-PCQA methods suffer from the scarcity of labeled data and usually perform suboptimally in terms of generalization. To solve the problem, we propose a novel contrastive pre-training framework tailored for PCQA (CoPA), which enables the pre-trained model to learn quality-aware representations from unlabeled data. To obtain anchors in the representation space, we project point clouds with different distortions into images and randomly mix their local patches to form mixed images with multiple distortions. Utilizing the generated anchors, we constrain the pre-training process via a quality-aware contrastive loss following the philosophy that perceptual quality is closely related to both content and distortion. Furthermore, in the model fine-tuning stage, we propose a semantic-guided multi-view fusion module to effectively integrate the features of projected images from multiple perspectives. Extensive experiments show that our method outperforms the state-of-the-art PCQA methods on popular benchmarks. Further investigations demonstrate that CoPA can also benefit existing learning-based PCQA models.
翻訳日:2024-03-26 23:01:39 公開日:2024-03-25
# URS-NeRF:ニューラルラジアンスフィールド用無秩序転がりシャッターバンドル調整

URS-NeRF: Unordered Rolling Shutter Bundle Adjustment for Neural Radiance Fields ( http://arxiv.org/abs/2403.10119v2 )

ライセンス: Link先を確認
Bo Xu, Ziao Liu, Mengqi Guo, Jiancheng Li, Gim Hee Lee, (参考訳) 本稿では,非秩序なローリングシャッター (RS) 画像を用いて暗黙の3次元表現を得るニューラルレイディアンスフィールド (NeRF) の新しいローリングシャッターバンドル調整法を提案する。 既存のNeRF法は、画像中のRS効果により、画質の悪い画像や不正確な初期カメラのポーズに悩まされているが、RSをNeRFに組み込んだ従来の手法では、厳密な逐次データ入力が必要であり、適用範囲が限られている。 本手法は,カメラのポーズと速度を推定することにより,RS画像の物理的生成を一定に復元し,逐次データに対する入力制約を除去する。 さらに,シーングラフ内の一対のフレームのRSエピポーラ制約を用いて,局所的なミニマに陥るカメラのポーズを検出する,粗大な訓練戦略を採用する。 外れ値として検出されたポーズは、隣り合うポーズとの補間法によって補正される。 実験により,本手法の最先端技術に対する有効性を検証するとともに,映像シーケンス入力の要求により3次元表現の再構成が制約されないことを示す。

We propose a novel rolling shutter bundle adjustment method for neural radiance fields (NeRF), which utilizes the unordered rolling shutter (RS) images to obtain the implicit 3D representation. Existing NeRF methods suffer from low-quality images and inaccurate initial camera poses due to the RS effect in the image, whereas, the previous method that incorporates the RS into NeRF requires strict sequential data input, limiting its widespread applicability. In constant, our method recovers the physical formation of RS images by estimating camera poses and velocities, thereby removing the input constraints on sequential data. Moreover, we adopt a coarse-to-fine training strategy, in which the RS epipolar constraints of the pairwise frames in the scene graph are used to detect the camera poses that fall into local minima. The poses detected as outliers are corrected by the interpolation method with neighboring poses. The experimental results validate the effectiveness of our method over state-of-the-art works and demonstrate that the reconstruction of 3D representations is not constrained by the requirement of video sequence input.
翻訳日:2024-03-26 23:01:39 公開日:2024-03-25
# LightIt:拡散モデルの照明モデリングと制御

LightIt: Illumination Modeling and Control for Diffusion Models ( http://arxiv.org/abs/2403.10615v2 )

ライセンス: Link先を確認
Peter Kocsis, Julien Philip, Kalyan Sunkavalli, Matthias Nießner, Yannick Hold-Geoffroy, (参考訳) 我々は、画像生成のための明示的な照明制御方法であるLightItを紹介する。 近年の生成法では照明制御が欠如しており、全体の気分や映像の外観の設定など、画像生成の多くの芸術的側面に欠如している。 これらの制限を克服するために、シェーディングと正規写像の生成を条件にすることを提案する。 私たちは、キャストシャドウを含む単一のバウンスシェーディングで照明をモデル化します。 まずシェーディング推定モジュールをトレーニングし、実世界の画像とシェーディングペアのデータセットを生成する。 次に、推定シェーディングと正規化を入力として制御ネットワークを訓練する。 本手法は,多数のシーンにおいて高品質な画像生成と照明制御を実現する。 さらに、生成したデータセットを使用して、画像とターゲットシェーディングに条件付けされたID保存リライトモデルをトレーニングします。 本手法は、制御可能で一貫した照度を持つ画像の生成を可能にする最初の方法であり、特殊照準方式と同等の処理を行う。

We introduce LightIt, a method for explicit illumination control for image generation. Recent generative methods lack lighting control, which is crucial to numerous artistic aspects of image generation such as setting the overall mood or cinematic appearance. To overcome these limitations, we propose to condition the generation on shading and normal maps. We model the lighting with single bounce shading, which includes cast shadows. We first train a shading estimation module to generate a dataset of real-world images and shading pairs. Then, we train a control network using the estimated shading and normals as input. Our method demonstrates high-quality image generation and lighting control in numerous scenes. Additionally, we use our generated dataset to train an identity-preserving relighting model, conditioned on an image and a target shading. Our method is the first that enables the generation of images with controllable, consistent lighting and performs on par with specialized relighting state-of-the-art methods.
翻訳日:2024-03-26 23:01:39 公開日:2024-03-25
# 低リソース機械翻訳のためのポインタジェネレータネットワーク:それをコピーするな!

Pointer-Generator Networks for Low-Resource Machine Translation: Don't Copy That! ( http://arxiv.org/abs/2403.10963v2 )

ライセンス: Link先を確認
Niyati Bafna, Philipp Koehn, David Yarowsky, (参考訳) Transformerベースのニューラルネットワーク翻訳(NMT)は、高リソース設定において非常に効果的であるが、多くの言語では、その恩恵を受けるために必要な大きな並列コーパスが欠如している。 2つの近縁言語間の低リソース (LR) MT の文脈において、自然な直観は、ソースからターゲットへのサブワードのコピーのような構造的な「ショートカット」の恩恵を求めることである。 この目的のためにPointer-Generator Networksを、さまざまなリソース範囲で6つの言語ペアでテストし、ほとんどの設定で弱い改善点を見つけました。 しかし, 分析の結果, より近い言語対とより遠い言語対, あるいはより低いリソース範囲において, モデルがより大きな改善を示さないこと, 共有サブワードに対して, モデルが期待される使用方法を示していないこと, などの結果が得られた。 この行動の理由に関する議論は、現代のトークン化戦略、雑音の多い現実世界の条件、言語的複雑さなど、LR NMTのいくつかの一般的な課題を浮き彫りにしている。 我々は、トランスフォーマーモデルのブラックボックスの性質を考えると、言語的に動機づけられたNMTの改善のより精査と、この分野における上記の問題に焦点をあてることを求めている。

While Transformer-based neural machine translation (NMT) is very effective in high-resource settings, many languages lack the necessary large parallel corpora to benefit from it. In the context of low-resource (LR) MT between two closely-related languages, a natural intuition is to seek benefits from structural "shortcuts", such as copying subwords from the source to the target, given that such language pairs often share a considerable number of identical words, cognates, and borrowings. We test Pointer-Generator Networks for this purpose for six language pairs over a variety of resource ranges, and find weak improvements for most settings. However, analysis shows that the model does not show greater improvements for closely-related vs. more distant language pairs, or for lower resource ranges, and that the models do not exhibit the expected usage of the mechanism for shared subwords. Our discussion of the reasons for this behaviour highlights several general challenges for LR NMT, such as modern tokenization strategies, noisy real-world conditions, and linguistic complexities. We call for better scrutiny of linguistically motivated improvements to NMT given the blackbox nature of Transformer models, as well as for a focus on the above problems in the field.
翻訳日:2024-03-26 23:01:39 公開日:2024-03-25
# CRS-Diff:制御可能な生成型リモートセンシング基礎モデル

CRS-Diff: Controllable Generative Remote Sensing Foundation Model ( http://arxiv.org/abs/2403.11614v2 )

ライセンス: Link先を確認
Datao Tang, Xiangyong Cao, Xingsong Hou, Zhongyuan Jiang, Deyu Meng, (参考訳) 拡散モデルの出現は画像生成の分野に革命をもたらし、様々なアプリケーションにまたがって高品質で高解像度の画像を作成する新しい方法を提供している。 しかし、これらのモデルがドメイン固有の画像を生成する可能性、特にリモートセンシング(RS)画像は、ほとんど未解決のままである。 高解像度、広範囲のカバレッジ、豊富な情報コンテンツで有名なRS画像は、一般的な拡散モデルが適切に扱えないような新しい課題をもたらす。 本稿では,リモートセンシング画像の生成に適した拡散モデリングフレームワークであるCRS-Diffを提案する。 このモデルはグローバルな制御入力とローカルな制御入力を統合し、生成条件を正確に組み合わせて生成プロセスを洗練させる。 CRS-Diffの総合評価では、画像品質と多様性の点で従来の手法と比較して、単一条件と複数条件の両方でRS画像を生成する能力が優れていることが示されている。

The emergence of diffusion models has revolutionized the field of image generation, providing new methods for creating high-quality, high-resolution images across various applications. However, the potential of these models for generating domain-specific images, particularly remote sensing (RS) images, remains largely untapped. RS images that are notable for their high resolution, extensive coverage, and rich information content, bring new challenges that general diffusion models may not adequately address. This paper proposes CRS-Diff, a pioneering diffusion modeling framework specifically tailored for generating remote sensing imagery, leveraging the inherent advantages of diffusion models while integrating advanced control mechanisms to ensure that the imagery is not only visually clear but also enriched with geographic and temporal information. The model integrates global and local control inputs, enabling precise combinations of generation conditions to refine the generation process. A comprehensive evaluation of CRS-Diff has demonstrated its superior capability to generate RS imagery both in a single condition and multiple conditions compared with previous methods in terms of image quality and diversity.
翻訳日:2024-03-26 23:01:39 公開日:2024-03-25
# denoiSplit: ジョイントイメージ分割と教師なし denoising の方法

denoiSplit: a method for joint image splitting and unsupervised denoising ( http://arxiv.org/abs/2403.11854v2 )

ライセンス: Link先を確認
Ashesh Ashesh, Florian Jug, (参考訳) 本研究では,新しい分析課題,すなわち共同意味画像分割と教師なし認知の課題に対処する手法であるdenoiSplitを提案する。 この二重アプローチは蛍光顕微鏡において重要な応用であり、セマンティック画像分割は重要な応用であるが、ノイズは一般的に画像内容の下流解析を妨げる。 画像分割は、イメージを識別可能なセマンティック構造に分割することを含む。 この課題に対する現在の最先端の手法は、意図せず予測された出力にノイズを分散させることによって、画像ノイズの存在に苦しむことを示す。 ここでは、教師なしの減音サブタスクを統合することで、画像ノイズに対処することができる。 この統合により、画像ノイズの顕著かつ現実的なレベルが存在する場合でも、セマンティックイメージのアンミックスが改善される。 デノワスプリットの重要な革新は、特に定式化されたノイズモデルの使用と、我々が訓練している高次元階層型潜在空間に対するKL偏差損失の適切な調整である。 実世界の顕微鏡画像において,4つのタスクにまたがるデノワスプリットの性能を示す。 さらに,1つの変分分割エンコーダデコーダ(VSE)ネットワークを用いて,2つの適切なノイズモデルを用いてセマンティックスプリッティングとデノナイジングを共同で行うことにより,定性的かつ定量的な評価を行い,既存のベンチマークと比較した。

In this work we present denoiSplit, a method to tackle a new analysis task, i.e. the challenge of joint semantic image splitting and unsupervised denoising. This dual approach has important applications in fluorescence microscopy, where semantic image splitting has important applications but noise does generally hinder the downstream analysis of image content. Image splitting involves dissecting an image into its distinguishable semantic structures. We show that the current state-of-the-art method for this task struggles in the presence of image noise, inadvertently also distributing the noise across the predicted outputs. The method we present here can deal with image noise by integrating an unsupervised denoising sub-task. This integration results in improved semantic image unmixing, even in the presence of notable and realistic levels of imaging noise. A key innovation in denoiSplit is the use of specifically formulated noise models and the suitable adjustment of KL-divergence loss for the high-dimensional hierarchical latent space we are training. We showcase the performance of denoiSplit across 4 tasks on real-world microscopy images. Additionally, we perform qualitative and quantitative evaluations and compare results to existing benchmarks, demonstrating the effectiveness of using denoiSplit: a single Variational Splitting Encoder-Decoder (VSE) Network using two suitable noise models to jointly perform semantic splitting and denoising.
翻訳日:2024-03-26 23:01:39 公開日:2024-03-25
# アプリケーション特化マルチコアアーキテクチャを用いたSNNモデルの設計空間探索

Design-Space Exploration of SNN Models using Application-Specific Multi-Core Architectures ( http://arxiv.org/abs/2403.12061v2 )

ライセンス: Link先を確認
Sanaullah, Shamini Koravuna, Ulrich Rückert, Thorsten Jungeblut, (参考訳) 本研究では,現在SNNの有望な特徴を理解・活用する上でのモチベーションと難しさから,RaVSim (Runtime Analysis and Visualization Simulator) と呼ばれる,最先端SNNシミュレータをLabVIEWを用いて開発し,彼らのウェブサイトで公式モジュールとして公開されている。 RAVSimは、ユーザがモデルと対話し、出力集中の振る舞いを観察し、シミュレーション実行中いつでもパラメトリック値のセットを変更することができる実行時仮想シミュレーション環境ツールである。 最近、人気のあるツールがいくつか紹介されているが、どのツールもユーザーが実行時にモデルシミュレーションを操作できないと信じている。

With the motivation and the difficulties that currently exist in comprehending and utilizing the promising features of SNNs, we proposed a novel run-time multi-core architecture-based simulator called "RAVSim" (Runtime Analysis and Visualization Simulator), a cutting-edge SNN simulator, developed using LabVIEW and it is publicly available on their website as an official module. RAVSim is a runtime virtual simulation environment tool that enables the user to interact with the model, observe its behavior of output concentration, and modify the set of parametric values at any time while the simulation is in execution. Recently some popular tools have been presented, but we believe that none of the tools allow users to interact with the model simulation in run time.
翻訳日:2024-03-26 23:01:39 公開日:2024-03-25
# エネルギーと速度境界の情報理論による導出

Information-theoretic derivation of energy and speed bounds ( http://arxiv.org/abs/2403.13223v2 )

ライセンス: Link先を確認
Lorenzo Giannelli, Giulio Chiribella, (参考訳) 情報理論的な洞察は、量子物理学の多くの領域で実りがあることが証明されている。 しかし、量子系の基本的なダイナミクスは、ユニタリ進化や自己随伴可観測性のようなヒルベルト空間構造に頼ることなく、純粋に情報理論の原理から導出できるのだろうか? ここでは、力学が情報非平衡状態から生じるモデル、すなわち、同一に準備されたシステムの分野に関連する参照状態から系の状態が逸脱するモデルを提案する。 このアイデアと3つの基本的な情報理論の原理を組み合わせることで、量子論におけるエネルギーの主な特徴を捉えるエネルギーの概念が導かれる:それは観測可能であり、下から有界であり、時間進化の下で不変であり、ダイナミクスの生成元と1対1の対応であり、状態変化の速度に定量的に関係している。 この結果から,マンデルスタム-タム境界を量子進化の速度で再現し,動的概念と情報理論の概念の橋渡しを行うことができた。

Information-theoretic insights have proven fruitful in many areas of quantum physics. But can the fundamental dynamics of quantum systems be derived from purely information-theoretic principles, without resorting to Hilbert space structures such as unitary evolution and self-adjoint observables? Here we provide a model where the dynamics originates from a condition of informational non-equilibrium, the deviation of the system's state from a reference state associated to a field of identically prepared systems. Combining this idea with three basic information-theoretic principles, we derive a notion of energy that captures the main features of energy in quantum theory: it is observable, bounded from below, invariant under time-evolution, in one-to-one correspondence with the generator of the dynamics, and quantitatively related to the speed of state changes. Our results provide an information-theoretic reconstruction of the Mandelstam-Tamm bound on the speed of quantum evolutions, establishing a bridge between dynamical and information-theoretic notions.
翻訳日:2024-03-26 23:01:39 公開日:2024-03-25
# 持続可能なデータセンターにおけるリアルタイムの炭素フットプリント削減

Carbon Footprint Reduction for Sustainable Data Centers in Real-Time ( http://arxiv.org/abs/2403.14092v2 )

ライセンス: Link先を確認
Soumyendu Sarkar, Avisek Naug, Ricardo Luna, Antonio Guillen, Vineet Gundecha, Sahand Ghorbanpour, Sajad Mousavi, Dejan Markovikj, Ashwin Ramesh Babu, (参考訳) 機械学習のワークロードがエネルギー消費を大幅に増加させるにつれ、炭素排出量の少ない持続可能なデータセンターが世界中の政府や企業にとって最優先事項となっている。 これは、冷却とIT負荷における電力消費の最適化、電力グリッド内の再生可能エネルギーの可用性に基づく柔軟な負荷のシフト、および協調エージェントを使用してデータセンターの未中断電源からのバッテリストレージを活用するためのパラダイムシフトを必要とする。 これらの最適化戦略と天候や電力グリッドの炭素強度といった様々な外部要因への依存との複雑な関係は、この問題を難しくしている。 現在、動的な現実世界の設定でこれらの目標を同時に最適化するリアルタイムコントローラは欠如している。 本稿では, 炭素フットプリント削減, エネルギー消費, エネルギーコストの多目的のために, データセンターを最適化するマルチエージェント強化学習(MARL)フレームワークを提案する。 その結果,DC-CFR MARLエージェントは実世界の動的気象条件やグリッド炭素強度条件下での様々な場所での冷却,負荷シフト,エネルギー貯蔵の最適化において,複雑な相互依存性を効果的に解決した。 DC-CFRは業界標準のASHRAEコントローラよりも、炭素排出量(14.5%)、エネルギー使用量(14.4%)、エネルギーコスト(13.7%)を大きく上回った。

As machine learning workloads significantly increase energy consumption, sustainable data centers with low carbon emissions are becoming a top priority for governments and corporations worldwide. This requires a paradigm shift in optimizing power consumption in cooling and IT loads, shifting flexible loads based on the availability of renewable energy in the power grid, and leveraging battery storage from the uninterrupted power supply in data centers, using collaborative agents. The complex association between these optimization strategies and their dependencies on variable external factors like weather and the power grid carbon intensity makes this a hard problem. Currently, a real-time controller to optimize all these goals simultaneously in a dynamic real-world setting is lacking. We propose a Data Center Carbon Footprint Reduction (DC-CFR) multi-agent Reinforcement Learning (MARL) framework that optimizes data centers for the multiple objectives of carbon footprint reduction, energy consumption, and energy cost. The results show that the DC-CFR MARL agents effectively resolved the complex interdependencies in optimizing cooling, load shifting, and energy storage in real-time for various locations under real-world dynamic weather and grid carbon intensity conditions. DC-CFR significantly outperformed the industry standard ASHRAE controller with a considerable reduction in carbon emissions (14.5%), energy usage (14.4%), and energy cost (13.7%) when evaluated over one year across multiple geographical regions.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-25
# 線形時系列予測モデルの解析

An Analysis of Linear Time Series Forecasting Models ( http://arxiv.org/abs/2403.14587v2 )

ライセンス: Link先を確認
William Toner, Luke Darlow, (参考訳) その単純さにもかかわらず、線形モデルはより深く、より高価なモデルに注意を払っていても、時系列の予測においてうまく機能する。 線形モデルに対する様々なバリエーションが提案されており、モデル一般化を改善するある種の特徴正規化を含むことが多い。 本稿では,これらの線形モデルアーキテクチャを用いて表現可能な関数の集合を解析する。 このようにして、時系列予測のためのいくつかの一般的な線形モデルの変種は、標準の非制約線形回帰と同等であり、機能的に区別できないことを示す。 線形変種ごとにモデルクラスを特徴付ける。 本研究では,各モデルが適当な拡張特徴集合に対して制約のない線形回帰として再解釈できることを示し,従って平均二乗損失関数を用いる場合の閉形式解を認める。 検査対象のモデルがほぼ同じ解を学習していることを示す実験的な証拠を提示し, 最終的に, より単純なクローズドフォームソリューションが, テスト設定の72%にまたがる優れた予測器であることを実証した。

Despite their simplicity, linear models perform well at time series forecasting, even when pitted against deeper and more expensive models. A number of variations to the linear model have been proposed, often including some form of feature normalisation that improves model generalisation. In this paper we analyse the sets of functions expressible using these linear model architectures. In so doing we show that several popular variants of linear models for time series forecasting are equivalent and functionally indistinguishable from standard, unconstrained linear regression. We characterise the model classes for each linear variant. We demonstrate that each model can be reinterpreted as unconstrained linear regression over a suitably augmented feature set, and therefore admit closed-form solutions when using a mean-squared loss function. We provide experimental evidence that the models under inspection learn nearly identical solutions, and finally demonstrate that the simpler closed form solutions are superior forecasters across 72% of test settings.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-25
# ActRe: 対照的な自己学習のためのエージェントトラジェクトリの自律アノテーション

ReAct Meets ActRe: Autonomous Annotation of Agent Trajectories for Contrastive Self-Training ( http://arxiv.org/abs/2403.14589v2 )

ライセンス: Link先を確認
Zonghan Yang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu, (参考訳) 言語エージェントは、基礎モデルによる推論により、自律的な意思決定能力を示した。 近年,多段階推論と行動軌跡をトレーニングデータとして,言語エージェントのパフォーマンス向上のための訓練が試みられている。 しかし、このような軌道の収集には、人工的なアノテーションや様々なプロンプトフレームワークの実装など、かなりの人的努力が必要である。 本稿では,A$^3$Tを提案する。A$^3$Tは,エージェントトラジェクトリの自律アノテーションをReActスタイルで実現するフレームワークである。 中心的な役割は、任意のアクションの理由を説明するActReプロンプトエージェントである。 外部アクションをランダムにサンプリングする場合、ReActスタイルのエージェントはActReエージェントにアクションを問い合わせ、そのテキストの合理性を得る。 新規な軌道は、ActReからサンプル化された作用への後続の推論を前もって合成される。 このようにして、ReActスタイルのエージェントは、失敗したタスクに対して複数のトラジェクトリを実行し、失敗したトラジェクトリを補完して、対照的な自己学習を行う。 二項化報酬を持つポリシー勾配法によって実現され、蓄積された軌道による対照的な自己学習は、言語エージェントによる複数ラウンドの自己改善のための閉ループを促進する。 我々はオープンソースのMistral-7B-Instruct-v0.2を用いたQLoRA微調整実験を行った。 AlfWorldでは、A$^3$Tで訓練されたエージェントが1発成功率96%、100%成功率4回を達成している。 WebShopでは、A$^3$Tエージェントの1ショットのパフォーマンスは人間の平均と一致し、4ラウンドの反復的な改善は、人間の専門家に近づくパフォーマンスに繋がる。 A$^3$Tエージェントは、GPT-4、高度なエージェントフレームワーク、完全に微調整されたLLMなど、既存の技術よりも大幅に優れていた。

Language agents have demonstrated autonomous decision-making abilities by reasoning with foundation models. Recently, efforts have been made to train language agents for performance improvement, with multi-step reasoning and action trajectories as the training data. However, collecting such trajectories still requires considerable human effort, by either artificial annotation or implementations of diverse prompting frameworks. In this work, we propose A$^3$T, a framework that enables the Autonomous Annotation of Agent Trajectories in the style of ReAct. The central role is an ActRe prompting agent, which explains the reason for an arbitrary action. When randomly sampling an external action, the ReAct-style agent could query the ActRe agent with the action to obtain its textual rationales. Novel trajectories are then synthesized by prepending the posterior reasoning from ActRe to the sampled action. In this way, the ReAct-style agent executes multiple trajectories for the failed tasks, and selects the successful ones to supplement its failed trajectory for contrastive self-training. Realized by policy gradient methods with binarized rewards, the contrastive self-training with accumulated trajectories facilitates a closed loop for multiple rounds of language agent self-improvement. We conduct experiments using QLoRA fine-tuning with the open-sourced Mistral-7B-Instruct-v0.2. In AlfWorld, the agent trained with A$^3$T obtains a 1-shot success rate of 96%, and 100% success with 4 iterative rounds. In WebShop, the 1-shot performance of the A$^3$T agent matches human average, and 4 rounds of iterative refinement lead to the performance approaching human experts. A$^3$T agents significantly outperform existing techniques, including prompting with GPT-4, advanced agent frameworks, and fully fine-tuned LLMs.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-25
# ChatGPTの探索と社会への影響

Exploring ChatGPT and its Impact on Society ( http://arxiv.org/abs/2403.14643v2 )

ライセンス: Link先を確認
Md. Asraful Haque, Shuai Li, (参考訳) 人工知能は以前からあったが、突然、これまで以上に注目を集めた。 Google、Microsoft、Meta、その他テクノロジーの主要ブランドのイノベーションのおかげです。 しかしOpenAIは、その画期的な発明ChatGPTでこのボタンを起動した。 ChatGPTはTransformerアーキテクチャをベースとしたLarge Language Model(LLM)であり、会話コンテキストで人間のような応答を生成する能力を持つ。 ディープラーニングアルゴリズムを使用して、入力テキストに対する自然言語応答を生成する。 その膨大な数のパラメータ、コンテキスト生成、オープンドメイントレーニングは、チャットボットからカスタマーサービス、言語翻訳に至るまで、幅広いアプリケーションに対して、汎用的で効果的なツールである。 それは、さまざまな産業に革命をもたらす可能性があり、テクノロジーとの対話の仕方を変革する。 しかし、ChatGPTの使用は、倫理的、社会的、雇用上の課題など、いくつかの懸念を提起している。 この記事では、ChatGPTの概要と、アーキテクチャとトレーニングプロセスについて説明する。 ChatGPTが社会に与える影響を強調します。 本稿では、ChatGPTのメリットを最大化しつつ、その悪影響を最小限に抑えつつ、技術、規制、教育、倫理に関わるいくつかのアプローチを提案する。 この研究は、ChatGPTの理解を深め、それがもたらす可能性のある変化を予測する助けとなることが期待されている。

Artificial intelligence has been around for a while, but suddenly it has received more attention than ever before. Thanks to innovations from companies like Google, Microsoft, Meta, and other major brands in technology. OpenAI, though, has triggered the button with its ground-breaking invention ChatGPT. ChatGPT is a Large Language Model (LLM) based on Transformer architecture that has the ability to generate human-like responses in a conversational context. It uses deep learning algorithms to generate natural language responses to input text. Its large number of parameters, contextual generation, and open-domain training make it a versatile and effective tool for a wide range of applications, from chatbots to customer service to language translation. It has the potential to revolutionize various industries and transform the way we interact with technology. However, the use of ChatGPT has also raised several concerns, including ethical, social, and employment challenges, which must be carefully considered to ensure the responsible use of this technology. The article provides an overview of ChatGPT, delving into its architecture and training process. It highlights the potential impacts of ChatGPT on the society. In this paper, we suggest some approaches involving technology, regulation, education, and ethics in an effort to maximize ChatGPT's benefits while minimizing its negative impacts. This study is expected to contribute to a greater understanding of ChatGPT and aid in predicting the potential changes it may bring about.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-25
# AIED(AIED)産業標準の開発と展開 : 課題,戦略,今後の方向性

Developing and Deploying Industry Standards for Artificial Intelligence in Education (AIED): Challenges, Strategies, and Future Directions ( http://arxiv.org/abs/2403.14689v2 )

ライセンス: Link先を確認
Richard Tong, Haoyang Li, Joleen Liang, Qingsong Wen, (参考訳) AIED(Artificial Intelligence in Education)の採用は、パーソナライズされた学習体験を提供し、管理的および教育的タスクを自動化し、コンテンツ作成のコストを削減することで、教育実践に革命をもたらすという約束を掲げている。 しかし、AIEDソリューションの開発とデプロイにおける標準化されたプラクティスの欠如は、相互運用性、スケーラビリティ、倫理的ガバナンスにおける課題を示す、断片化されたエコシステムにつながった。 この記事では、AIEDにおける業界標準の開発と実装に関する重要なニーズに対処することを目的としており、これらの障害を克服するための現在の状況、課題、戦略的アプローチを包括的に分析する。 まず,さまざまな教育環境におけるAIEDのさまざまな応用を検証し,システム相互運用性,オントロジーマッピング,データ統合,評価,倫理的ガバナンスなど,標準化に欠く重要な領域を特定することから始める。 そこで我々は,AIEDの堅牢な業界標準を確立するための多層フレームワークを提案する。 さらに,現実のアプリケーションからのフィードバックループを取り入れて,標準を洗練・適応する手法についても検討する。 この論文は、AIEDの将来標準を形成する上での新興技術と教育理論の役割を強調している。 最後に、ステークホルダーがこれらの標準を実装するための戦略的ロードマップを概説し、結束的で倫理的なAIEDエコシステムを育む。 IEEE人工知能標準化委員会(AISC)やISO(International Organization for Standardization)などの包括的な業界標準を確立することで、AIEDソリューションを加速し、拡張して教育成果を向上し、技術的進歩がインクリシティ、公正、教育の卓越性の原則と整合することを保証することができる。

The adoption of Artificial Intelligence in Education (AIED) holds the promise of revolutionizing educational practices by offering personalized learning experiences, automating administrative and pedagogical tasks, and reducing the cost of content creation. However, the lack of standardized practices in the development and deployment of AIED solutions has led to fragmented ecosystems, which presents challenges in interoperability, scalability, and ethical governance. This article aims to address the critical need to develop and implement industry standards in AIED, offering a comprehensive analysis of the current landscape, challenges, and strategic approaches to overcome these obstacles. We begin by examining the various applications of AIED in various educational settings and identify key areas lacking in standardization, including system interoperability, ontology mapping, data integration, evaluation, and ethical governance. Then, we propose a multi-tiered framework for establishing robust industry standards for AIED. In addition, we discuss methodologies for the iterative development and deployment of standards, incorporating feedback loops from real-world applications to refine and adapt standards over time. The paper also highlights the role of emerging technologies and pedagogical theories in shaping future standards for AIED. Finally, we outline a strategic roadmap for stakeholders to implement these standards, fostering a cohesive and ethical AIED ecosystem. By establishing comprehensive industry standards, such as those by IEEE Artificial Intelligence Standards Committee (AISC) and International Organization for Standardization (ISO), we can accelerate and scale AIED solutions to improve educational outcomes, ensuring that technological advances align with the principles of inclusivity, fairness, and educational excellence.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-25
# 活動中のAIアセスメント尺度(AIAS):GenAIのパイロット実装が支援するアセスメント

The AI Assessment Scale (AIAS) in action: A pilot implementation of GenAI supported assessment ( http://arxiv.org/abs/2403.14692v2 )

ライセンス: Link先を確認
Leon Furze, Mike Perkins, Jasper Roe, Jason MacVaugh, (参考訳) 高等教育におけるジェネレーティブ・人工知能(GenAI)技術の急速な採用は、学術的完全性、評価の実践、学生の学習に関する懸念を提起している。 GenAIツールの禁止やブロックは効果がないことが証明されており、批判的なアプローチはこれらの技術の潜在的な利点を無視している。 本稿では,イギリス大学ベトナム校(BUV)において,GenAIを教育評価に組み込むフレキシブルな枠組みであるAIAS(Artificial Intelligence Assessment Scale)の実装を探求するパイロット研究の成果を報告する。 AIASは「No AI」から「Full AI」までの5つのレベルから構成されており、教育者は人間の入力と批判的思考を必要とする領域に焦点を当てたアセスメントを設計できる。 AIASの実施後、パイロット研究の結果は、GenAIに関連する学術的不正行為のケースが大幅に減少し、大学全体で5.9%の学生達成率が増加し、モジュール通過率が33.3%増加したことを示している。 AIASは教育実践の転換を促進し、教員はGenAIツールをモジュールに組み入れ、学生は革新的なマルチモーダル・サブミッションを制作した。 この結果から,AIASは,学術的整合性を高めつつ,学習経験を高める技術の可能性を活用しつつ,GenAIのHEへの効果的な統合を支援することができることが示唆された。

The rapid adoption of Generative Artificial Intelligence (GenAI) technologies in higher education has raised concerns about academic integrity, assessment practices, and student learning. Banning or blocking GenAI tools has proven ineffective, and punitive approaches ignore the potential benefits of these technologies. This paper presents the findings of a pilot study conducted at British University Vietnam (BUV) exploring the implementation of the Artificial Intelligence Assessment Scale (AIAS), a flexible framework for incorporating GenAI into educational assessments. The AIAS consists of five levels, ranging from 'No AI' to 'Full AI', enabling educators to design assessments that focus on areas requiring human input and critical thinking. Following the implementation of the AIAS, the pilot study results indicate a significant reduction in academic misconduct cases related to GenAI, a 5.9% increase in student attainment across the university, and a 33.3% increase in module passing rates. The AIAS facilitated a shift in pedagogical practices, with faculty members incorporating GenAI tools into their modules and students producing innovative multimodal submissions. The findings suggest that the AIAS can support the effective integration of GenAI in HE, promoting academic integrity while leveraging the technology's potential to enhance learning experiences.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-25
# ファッション画像編集のためのマルチモーダル・コンディション付き潜時拡散モデル

Multimodal-Conditioned Latent Diffusion Models for Fashion Image Editing ( http://arxiv.org/abs/2403.14828v2 )

ライセンス: Link先を確認
Alberto Baldrati, Davide Morelli, Marcella Cornia, Marco Bertini, Rita Cucchiara, (参考訳) ファッションイラストレーションは、デザイナーが創造的なビジョンを伝え、デザイン概念を、衣服と人間の身体の間の相互作用を示す有形表現に変換するための重要な媒体である。 ファッションデザインの文脈では、コンピュータビジョン技術はデザインプロセスの強化と合理化の可能性を秘めている。 本稿では,主に仮想試行に焦点を当てた先行研究とは別に,マルチモーダルなファッション画像編集の課題に取り組む。 本研究の目的は,テキスト,人体ポーズ,衣料品スケッチ,布地テクスチャなど,マルチモーダルなプロンプトでガイドされた人中心のファッションイメージを作成することである。 この問題に対処するため,複数のモードを組み込むために潜在拡散モデルを拡張し,マルチモーダルプロンプトを入力としてデノナイジングネットワークの構造を変更することを提案する。 本研究では,テクスチャのテクスチャを規定するために,テクスチャのテクスチャのテクスチャを規定するために,テクスチャとテクスチャの情報に多彩なクロスアテンション層を対応させて,異なる粒度条件の詳細を組み込む。 タスクにデータセットがないので、Dress CodeとVITON-HDという2つの既存のファッションデータセットをマルチモーダルアノテーションで拡張します。 実験により,提案手法の有効性を,提供されたマルチモーダル入力に対するリアリズムとコヒーレンスの観点から検証した。

Fashion illustration is a crucial medium for designers to convey their creative vision and transform design concepts into tangible representations that showcase the interplay between clothing and the human body. In the context of fashion design, computer vision techniques have the potential to enhance and streamline the design process. Departing from prior research primarily focused on virtual try-on, this paper tackles the task of multimodal-conditioned fashion image editing. Our approach aims to generate human-centric fashion images guided by multimodal prompts, including text, human body poses, garment sketches, and fabric textures. To address this problem, we propose extending latent diffusion models to incorporate these multiple modalities and modifying the structure of the denoising network, taking multimodal prompts as input. To condition the proposed architecture on fabric textures, we employ textual inversion techniques and let diverse cross-attention layers of the denoising network attend to textual and texture information, thus incorporating different granularity conditioning details. Given the lack of datasets for the task, we extend two existing fashion datasets, Dress Code and VITON-HD, with multimodal annotations. Experimental evaluations demonstrate the effectiveness of our proposed approach in terms of realism and coherence concerning the provided multimodal inputs.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-25
# 形態的同変PDEとGANに基づく幾何学的生成モデル

Geometric Generative Models based on Morphological Equivariant PDEs and GANs ( http://arxiv.org/abs/2403.14897v2 )

ライセンス: Link先を確認
El Hadji S. Diop, Thierno Fall, Alioune Mbengue, Mohamed Daoudi, (参考訳) コンテンツと画像生成は、テクスチャ、エッジ、その他の薄い画像構造などの特定の特徴を抽出することにより、ノイズの多い情報からデータを作成し、生成する。 ここでは生成モデルに興味があり、2つの主要な問題に対処しています。 まず,マルチスケールの幾何学的特徴を考慮した特定特徴抽出の改良,およびその複雑性を低減し,幾何学的解釈性を提供するためのネットワークの等価性について述べる。 そこで本研究では, グループ畳み込みニューラルネットワーク(G-CNN)のための等変偏微分方程式(PDE)に基づく幾何生成モデルを提案する。 等変PDE層はリーマン多様体で定式化されたマルチスケールのダイレーションと浸食で構成され、群対称性はリー群上で定義される。 我々はリー群構造を利用して層内の等式を適切に統合し、リーマン計量を用いてマルチスケールなモルフォロジー演算を解くことができる。 リー群の各点は多様体の特異点と関連付けられており、リー群の下でのテンソル場不変量からリーマン多様体上の計量を導出するのに役立ち、誘導計量は同じ対称性を持つ。 提案した幾何形態GAN(GM-GAN)は、PDE-G-CNNにおいて提案された形態的同変畳み込みを用いて古典的CNNに非線形性をもたらす。 GM-GANはMNISTデータに基づいて評価され、GANと比較される。 予備的な結果は、GM-GANモデルが古典的GANより優れていることを示している。

Content and image generation consist in creating or generating data from noisy information by extracting specific features such as texture, edges, and other thin image structures. We are interested here in generative models, and two main problems are addressed. Firstly, the improvements of specific feature extraction while accounting at multiscale levels intrinsic geometric features; and secondly, the equivariance of the network to reduce its complexity and provide a geometric interpretability. To proceed, we propose a geometric generative model based on an equivariant partial differential equation (PDE) for group convolution neural networks (G-CNNs), so called PDE-G-CNNs, built on morphology operators and generative adversarial networks (GANs). Equivariant morphological PDE layers are composed of multiscale dilations and erosions formulated in Riemannian manifolds, while group symmetries are defined on a Lie group. We take advantage of the Lie group structure to properly integrate the equivariance in layers, and are able to use the Riemannian metric to solve the multiscale morphological operations. Each point of the Lie group is associated with a unique point in the manifold, which helps us derive a metric on the Riemannian manifold from a tensor field invariant under the Lie group so that the induced metric has the same symmetries. The proposed geometric morphological GAN (GM-GAN) is obtained by using the proposed morphological equivariant convolutions in PDE-G-CNNs to bring nonlinearity in classical CNNs. GM-GAN is evaluated on MNIST data and compared with GANs. Preliminary results show that GM-GAN model outperforms classical GAN.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-25
# 非協調細胞デバイスの物理的局在の解明

Enabling Physical Localization of Uncooperative Cellular Devices ( http://arxiv.org/abs/2403.14963v2 )

ライセンス: Link先を確認
Taekkyung Oh, Sangwook Bae, Junho Ahn, Yonghwa Lee, Dinh-Tuan Hoang, Min Suk Kang, Nils Ole Tippenhauer, Yongdae Kim, (参考訳) 携帯電話ネットワークでは、当局が犯罪者や違法なデバイスを追跡するために、物理的にユーザーデバイスを見つける必要がある。 細胞オペレーターは、デバイスがキャンプしている細胞情報を当局に提供することができるが、微細な局所化は依然として必要である。 そのため、認証されたエージェントは、アップリンク信号を監視してデバイスをトレースする。 しかし、その協力なしにアップリンク信号源を追跡することは、オペレーターや当局にとっても困難である。 特に、微細な局所化には3つの課題がある。 一 装置が時間とともに十分なアップリンクトラフィックを発生させる場合に限る。 二 目標装置が、電力が著しく低いアップリンクトラフィックを発生させることができること。 三 セルリピータは、真のアップリンク信号に過度にノイズを加えることができる。 これらの課題は、ローカライゼーションの実践的なハードルを示すが、それらは以前の研究で見過ごされてきた。 本研究では,これらの現実的課題が細胞局在に与える影響について検討し,これらの課題に対処する非協調的多角的攻撃(UMA)を提案する。 UMA can 1) 目標装置にトラフィックの連続送信を強制する。 2)目標の信号強度を最大まで引き上げ、 3) ターゲットとリピータとのトラフィックをユニークに区別する。 特に、UMA技術は携帯電話のオペレーターやユーザーデバイスでは特権なく動作し、LTEネットワークでも動作する。 UMAは, デバイスがローカライゼーションに協力的でない場合に, 現実環境における課題を効果的に解決することを示す。 我々のアプローチは、GSMAに責任を持って開示した現在の細胞設計上の脆弱性を利用しています。

In cellular networks, it can become necessary for authorities to physically locate user devices for tracking criminals or illegal devices. While cellular operators can provide authorities with cell information the device is camping on, fine-grained localization is still required. Therefore, the authorized agents trace the device by monitoring its uplink signals. However, tracking the uplink signal source without its cooperation is challenging even for operators and authorities. Particularly, three challenges remain for fine-grained localization: i) localization works only if devices generate enough uplink traffic reliably over time, ii) the target device might generate its uplink traffic with significantly low power, and iii) cellular repeater may add too much noise to true uplink signals. While these challenges present practical hurdles for localization, they have been overlooked in prior works. In this work, we investigate the impact of these real-world challenges on cellular localization and propose an Uncooperative Multiangulation Attack (UMA) that addresses these challenges. UMA can 1) force a target device to transmit traffic continuously, 2) boost the target's signal strength to the maximum, and 3) uniquely distinguish traffic from the target and the repeaters. Notably, the UMA technique works without privilege on cellular operators or user devices, which makes it operate on any LTE network. Our evaluations show that UMA effectively resolves the challenges in real-world environments when devices are not cooperative for localization. Our approach exploits the current cellular design vulnerabilities, which we have responsibly disclosed to GSMA.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-25
# 生物的ニーズに応じた細胞追跡 --アレタリック不確かさを意識した強ミトーシス型ランダム有限集合追跡装置-

Cell Tracking according to Biological Needs -- Strong Mitosis-aware Random-finite Sets Tracker with Aleatoric Uncertainty ( http://arxiv.org/abs/2403.15011v2 )

ライセンス: Link先を確認
Timo Kaiser, Maximilian Schier, Bodo Rosenhahn, (参考訳) 細胞追跡とセグメンテーションは、大規模な顕微鏡タイムラプスデータから洞察を抽出する生物学者を支援する。 局所的精度のメトリクスによって駆動される現在のトラッキングアプローチは、長期的な一貫性の欠如に悩まされることが多い。 この問題に対処するため,ニューラルトラッキング・バイ・レグレッション・フレームワークの不確実性評価手法を導入し,新しい拡張型Poisson multi-Bernoulli混合トラッカーに組み込む。 我々の不確実性推定は、問題特異的なテスト時間拡張を用いたハイパフォーマンスなトラッキング・バイ・レグレッション手法における不確かさを識別する。 この不確実性を利用して、新しいミトーシス対応課題の定式化とともに、トラッカーは、長期の対立に起因する偽の関連とミトーシスの検出を解消する。 我々は、9つの競合データセットに対する我々のアプローチを評価し、生物学的に関連する指標の最先端を著しく上回り、約5.75ドルの改善を達成していることを実証した。 さらに,トラッキング・バイ・レグレッションの不確実性の挙動に関する新たな知見を明らかにした。

Cell tracking and segmentation assist biologists in extracting insights from large-scale microscopy time-lapse data. Driven by local accuracy metrics, current tracking approaches often suffer from a lack of long-term consistency. To address this issue, we introduce an uncertainty estimation technique for neural tracking-by-regression frameworks and incorporate it into our novel extended Poisson multi-Bernoulli mixture tracker. Our uncertainty estimation identifies uncertain associations within high-performing tracking-by-regression methods using problem-specific test-time augmentations. Leveraging this uncertainty, along with a novel mitosis-aware assignment problem formulation, our tracker resolves false associations and mitosis detections stemming from long-term conflicts. We evaluate our approach on nine competitive datasets and demonstrate that it outperforms the current state-of-the-art on biologically relevant metrics substantially, achieving improvements by a factor of approximately $5.75$. Furthermore, we uncover new insights into the behavior of tracking-by-regression uncertainty.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-25
# キャビティベースリモートエンタングルメント生成におけるレート忠実度トレードオフ

Rate-fidelity trade-off in cavity-based remote entanglement generation ( http://arxiv.org/abs/2403.15179v2 )

ライセンス: Link先を確認
Kazufumi Tanji, Hiroki Takahashi, Wojciech Roga, Masahiro Takeoka, (参考訳) 量子ビットのスケーラビリティは、量子コンピューティングの分野で最重要課題を課している。 異なる量子コンピューティングモジュール間のフォトニック相互接続は、この問題に対処するための解決策を提供する。 このアプローチの基本的な部分は、物質量子ビットによって放出される移動光子による絡み合い分布である。 しかし、物質量子ビットにおける自然放出のランダム性は、絡み合いの忠実度と生成速度の両方を制限する。 本稿では,光子発生に使用するポンプパルスの波形と自然発生による絡み合いの関係を数値解析・解析的に検討する。 本研究では,ガウスポンプパルスと交互に交互に交互に接続する際の利率不整合トレードオフを確認し解析し,ガウスポンプパルスへの簡単な拡張により,あるパラメータ領域におけるトレードオフが向上することを示す。 さらに,本解析を一般多部構造における絡み合い分布にまで拡張し,両部構造解析も直接適用可能であることを示す。

The qubit scalability imposes a paramount challenge in the field of quantum computing. Photonic interconnects between distinct quantum computing modules provide a solution to deal with this issue. The fundamental part of this approach is entanglement distribution via travelling photons emitted by matter qubits. However, randomness of the spontaneous emission in the matter qubits limits both the entanglement fidelity and the generation rate. In this paper, by numerical and analytical methods, we investigate the relationship between the entanglement affected by the spontaneous emission and the waveform of the pump pulse used in the photon generation. We confirm and analyze a rate-fidelity trade-off in the entanglement swapping with Gaussian pump pulses and show that a simple extension to non-Gaussian pump pulses improves the trade-off in a certain parameter region. Furthermore we extend our analysis to entanglement distribution in the general multipartite setting and show that the analysis of the bipartite entanglement can be straightforwardly applied in this case as well.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-25
# 点DETR3D:弱半教師付き3次元物体検出に先立って空間点を用いた画像データを活用する

Point-DETR3D: Leveraging Imagery Data with Spatial Point Prior for Weakly Semi-supervised 3D Object Detection ( http://arxiv.org/abs/2403.15317v2 )

ライセンス: Link先を確認
Hongzhi Gao, Zheng Chen, Zehui Chen, Lin Chen, Jiaming Liu, Shanghang Zhang, Feng Zhao, (参考訳) 高精度な3D検出器の訓練には、大量のラベル付き3Dアノテーションと7度の自由度を必要とする。 そこで, 点アノテーションの形式は, よりアクセシビリティが高く, 安価であるとともに, 物体位置定位のための強力な空間情報を提供する3次元検出における実用的可能性を示すために提案されている。 本稿では,Point-DETRをその3D形式に適応させることは自明ではないことを実証的に発見し,主なボトルネックを2つ挙げる。 1) モデルに前もって強靭な3Dの符号化に失敗し、 2) LiDAR 点の極端に間隔があるため, 遠隔地で低品質な擬似ラベルを生成する。 これらの課題を克服するために、制約されたインスタンス単位のアノテーション予算内でポイント単位の監視をフルに活用するために設計された弱半教師付き3D検出のための教師主導のフレームワークであるPoint-DETR3Dを紹介し、ポイントエンコーダを介してのみ3D位置情報を符号化するPoint-DETRとは違い、位置の事前性を高めるための明示的な位置クエリ初期化戦略を提案する。 教師モデルによる遠隔地における擬似ラベルの品質の低さを考慮し,新しいクロスモーダル変形型RoI核融合(D-RoI)を通じて高密度画像データを統合することにより,検出者の知覚を高める。 さらに,学生モデルにおいても,先進点を十分に活用するために,革新的なポイント誘導型自己教師学習手法が提案されている。 特に、ラベル付きデータの5%しか持たないPoint-DETR3Dは、完全な教師付きデータのパフォーマンスを90%以上達成している。

Training high-accuracy 3D detectors necessitates massive labeled 3D annotations with 7 degree-of-freedom, which is laborious and time-consuming. Therefore, the form of point annotations is proposed to offer significant prospects for practical applications in 3D detection, which is not only more accessible and less expensive but also provides strong spatial information for object localization. In this paper, we empirically discover that it is non-trivial to merely adapt Point-DETR to its 3D form, encountering two main bottlenecks: 1) it fails to encode strong 3D prior into the model, and 2) it generates low-quality pseudo labels in distant regions due to the extreme sparsity of LiDAR points. To overcome these challenges, we introduce Point-DETR3D, a teacher-student framework for weakly semi-supervised 3D detection, designed to fully capitalize on point-wise supervision within a constrained instance-wise annotation budget.Different from Point-DETR which encodes 3D positional information solely through a point encoder, we propose an explicit positional query initialization strategy to enhance the positional prior. Considering the low quality of pseudo labels at distant regions produced by the teacher model, we enhance the detector's perception by incorporating dense imagery data through a novel Cross-Modal Deformable RoI Fusion (D-RoI).Moreover, an innovative point-guided self-supervised learning technique is proposed to allow for fully exploiting point priors, even in student models.Extensive experiments on representative nuScenes dataset demonstrate our Point-DETR3D obtains significant improvements compared to previous works. Notably, with only 5% of labeled data, Point-DETR3D achieves over 90% performance of its fully supervised counterpart.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-25
# 人工膝関節置換術への応用

Fully automated workflow for the design of patient-specific orthopaedic implants: application to total knee arthroplasty ( http://arxiv.org/abs/2403.15353v2 )

ライセンス: Link先を確認
Aziliz Guezou-Philippe, Arnaud Clavé, Ehouarn Maguet, Ludivine Maintier, Charles Garraud, Jean-Rassaire Fouefack, Valérie Burdin, Eric Stindel, Guillaume Dardenne, (参考訳) 関節形成術は関節症を治療し、痛みを軽減し、移動性を改善するために一般的に行われている。 関節形成術はいくつかの技術的改善が知られているが、多くの患者はまだ手術に満足していない。 パーソナライズされた関節形成術は手術成績を改善するが、現在の解決策には遅延が必要であり、臨床ルーチンへの統合が困難である。 人工膝関節置換術における人工膝関節全置換術(人工膝関節全置換術)の適応について検討した。 提案したパイプラインは、まず、人工ニューラルネットワークを使用して大腿骨と大腿骨の近位部と遠位部を分割する。 次に、全骨を拡張統計形状モデルを用いて再構築し、形状とランドマーク情報を組み合わせる。 最後に、77の形態パラメータを計算し、患者固有のインプラントを設計する。 開発されたワークフローは、下肢の91個のCTスキャンを用いてトレーニングされ、精度と実行時間の観点から、41個のCTスキャンを手動でセグメント化して評価されている。 ワークフローの精度はセグメンテーションで0.4\pm0.2mm$、全骨再建で1.2\pm0.4mm$、解剖学的ランドマークの決定で2.8\pm2.2mm$であった。 カスタムインプラントは患者の解剖学を0.6\pm0.2mm$の精度で適合させた。 セグメンテーションからインプラントの設計までの全工程は約5分続いた。 提案したワークフローにより、手動による介入を必要とせずに、患者のCT画像から直接、高速で信頼性の高い膝インプラントのパーソナライズが可能になる。 TKAの患者固有の事前手術計画を極めて短期間で確立し、すべての患者に容易に利用できるようにする。 効率的なインプラント製造技術と組み合わせることで、合併症を減らし、患者の満足度を向上させることができる。

Arthroplasty is commonly performed to treat joint osteoarthritis, reducing pain and improving mobility. While arthroplasty has known several technical improvements, a significant share of patients are still unsatisfied with their surgery. Personalised arthroplasty improves surgical outcomes however current solutions require delays, making it difficult to integrate in clinical routine. We propose a fully automated workflow to design patient-specific implants, presented for total knee arthroplasty, the most widely performed arthroplasty in the world nowadays. The proposed pipeline first uses artificial neural networks to segment the proximal and distal extremities of the femur and tibia. Then the full bones are reconstructed using augmented statistical shape models, combining shape and landmarks information. Finally, 77 morphological parameters are computed to design patient-specific implants. The developed workflow has been trained using 91 CT scans of lower limb and evaluated on 41 CT scans manually segmented, in terms of accuracy and execution time. The workflow accuracy was $0.4\pm0.2mm$ for the segmentation, $1.2\pm0.4mm$ for the full bones reconstruction, and $2.8\pm2.2mm$ for the anatomical landmarks determination. The custom implants fitted the patients' anatomy with $0.6\pm0.2mm$ accuracy. The whole process from segmentation to implants' design lasted about 5 minutes. The proposed workflow allows for a fast and reliable personalisation of knee implants, directly from the patient CT image without requiring any manual intervention. It establishes a patient-specific pre-operative planning for TKA in a very short time making it easily available for all patients. Combined with efficient implant manufacturing techniques, this solution could help answer the growing number of arthroplasties while reducing complications and improving the patients' satisfaction.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-25
# LLaVA-PruMerge: 効率的な大規模マルチモーダルモデルのための適応的トークン削減

LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models ( http://arxiv.org/abs/2403.15388v2 )

ライセンス: Link先を確認
Yuzhang Shang, Mu Cai, Bingxin Xu, Yong Jae Lee, Yan Yan, (参考訳) 大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大規模言語モデルとを接続することで、重要な推論能力を示している。 LMMは通常、プレフィックスの内容としてCLIPビジュアルエンコーダのペナルティ層機能など、一定量のビジュアルトークンを使用する。 近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。 しかし、Transformerアーキテクチャの設計により、これらのモデルに関連する計算コストは入力トークンの数によって2次的に増加する傾向にある。 この問題に対処するため,トークン低減機構を探索し,多くの視覚的トークンが空間的に冗長であることを示す。 そこで我々はPruMergeを提案する。PruMergeは適応型ビジュアルトークン削減手法で、比較モデルの性能を維持しながら、視覚トークンの数を大幅に削減する。 まず、クラストークンと空間トークンとの類似性に基づいて、未実行の視覚トークンを選択する。 次に、キーの類似性に基づいてプルーンドトークンをクラスタ化し、クラスタ化されたトークンと未実行トークンをマージして、情報を補完します。 LLaVA-1.5に適用した場合、我々の手法は平均18倍の視覚トークンを圧縮し、多様な視覚的質問応答および推論タスクに匹敵する性能を達成できる。 コードとチェックポイントはhttps://llava-prumerge.github.io/にある。

Large Multimodal Models (LMMs) have shown significant reasoning capabilities by connecting a visual encoder and a large language model. LMMs typically use a fixed amount of visual tokens, such as the penultimate layer features in the CLIP visual encoder, as the prefix content. Recent LMMs incorporate more complex visual inputs, such as high-resolution images and videos, which increase the number of visual tokens significantly. However, due to the design of the Transformer architecture, computational costs associated with these models tend to increase quadratically with the number of input tokens. To tackle this problem, we explore a token reduction mechanism and find, similar to prior work, that many visual tokens are spatially redundant. Based on this, we propose PruMerge, a novel adaptive visual token reduction approach, which largely reduces the number of visual tokens while maintaining comparable model performance. We first select the unpruned visual tokens based on their similarity to class tokens and spatial tokens. We then cluster the pruned tokens based on key similarity and merge the clustered tokens with the unpruned tokens to supplement their information. Empirically, when applied to LLaVA-1.5, our approach can compress the visual tokens by 18 times on average, and achieve comparable performance across diverse visual question-answering and reasoning tasks. Code and checkpoints are at https://llava-prumerge.github.io/.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-25
# 擬似空間損失スケジューリングによる拡散モデルの耐食性向上

Improving Diffusion Models's Data-Corruption Resistance using Scheduled Pseudo-Huber Loss ( http://arxiv.org/abs/2403.16728v1 )

ライセンス: Link先を確認
Artem Khrapov, Vadim Popov, Tasnima Sadekova, Assel Yermekova, Mikhail Kudinov, (参考訳) 拡散モデルは、トレーニングデータの異常値に対して脆弱であることが知られている。 本稿では,元の2乗の$L_{2}$損失のような生成データの品質を保ちながら,出力値に頑健な代替拡散損失関数について検討する。 本稿では,最も脆弱な初期逆拡散ステップにおけるロバスト性間のトレードオフと,最終ステップにおける詳細復元を可能にするために,時間依存パラメータを用いた擬似ハッカ損失関数を提案する。 時間依存パラメータによる擬似ハッカ損失は、画像領域と音声領域の両方で劣化したデータセットに対してより良い性能を示すことを示す。 さらに,提案する損失関数は,従来のトレーニングアルゴリズムに比べてデータフィルタリングや浄化を必要とせず,データセットの破損に抵抗する拡散モデルに役立つ可能性がある。

Diffusion models are known to be vulnerable to outliers in training data. In this paper we study an alternative diffusion loss function, which can preserve the high quality of generated data like the original squared $L_{2}$ loss while at the same time being robust to outliers. We propose to use pseudo-Huber loss function with a time-dependent parameter to allow for the trade-off between robustness on the most vulnerable early reverse-diffusion steps and fine details restoration on the final steps. We show that pseudo-Huber loss with the time-dependent parameter exhibits better performance on corrupted datasets in both image and audio domains. In addition, the loss function we propose can potentially help diffusion models to resist dataset corruption while not requiring data filtering or purification compared to conventional training algorithms.
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# マトリックス生成物状態を用いたミラー対称性による確率分布の量子状態生成

Quantum State Preparation for Probability Distributions with Mirror Symmetry Using Matrix Product States ( http://arxiv.org/abs/2403.16729v1 )

ライセンス: Link先を確認
Yuichi Sano, Ikko Hamamura, (参考訳) 確率分布を量子状態にロードするための量子回路は、物理学、金融工学、機械学習で使われる量子アルゴリズムにおいて必須のサブルーチンである。 浅い量子回路でこれらを高精度に実装する能力は重要な問題である。 行列積状態を用いたミラー対称性を持つ確率分布のための新しい量子状態生成法を提案する。 ミラー対称性を考慮することにより,確率分布の絡み合いを低減し,行列積状態による近似の精度を向上させる。 その結果,行列積状態を用いた既存手法よりも2桁精度が向上した。 提案手法は, 近接量子ビットゲートを主成分とする浅量子回路と, 量子ビット数による線形スケーラビリティを特徴とし, ノイズの多い量子デバイスには非常に有利である。 また, 実験結果から, テンソルネットワークの近似精度は結合寸法に大きく依存し, 量子ビット数にはほとんど依存しないことが明らかとなった。 本手法は実量子プロセッサ上で10量子ビットと20量子ビットに符号化された正規分布に対して実験的に実証される。

Quantum circuits for loading probability distributions into quantum states are essential subroutines in quantum algorithms used in physics, finance engineering, and machine learning. The ability to implement these with high accuracy in shallow quantum circuits is a critical issue. We propose a novel quantum state preparation method for probability distribution with mirror symmetry using matrix product states. By considering mirror symmetry, our method reduces the entanglement of probability distributions and improves the accuracy of approximations by matrix product states. As a result, we improved the accuracy by two orders of magnitude over existing methods using matrix product states. Our approach, characterized by a shallow quantum circuit primarily comprising nearest-neighbor qubit gates and linear scalability with qubit count, is highly advantageous for noisy quantum devices. Also, our experimental findings reveal that the approximation accuracy in tensor networks depends heavily on the bond dimension, with minimal reliance on the number of qubits. Our method is experimentally demonstrated for a normal distribution encoded into 10 and 20 qubits on a real quantum processor.
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# 反復型ニューラルネットワークにおける不確かさ推定

Enabling Uncertainty Estimation in Iterative Neural Networks ( http://arxiv.org/abs/2403.16732v1 )

ライセンス: Link先を確認
Nikita Durasov, Doruk Oner, Jonathan Donier, Hieu Le, Pascal Fua, (参考訳) パススルーネットワークアーキテクチャを、自身の出力を入力として使用する反復的なアーキテクチャに変換することは、パフォーマンスを高めるためのよく知られたアプローチである。 本稿では,これらのアーキテクチャが付加的な利点をもたらすことを論じる: 連続する出力の収束率は,収束する値の精度と高い相関関係を持つ。 したがって、収束率を不確実性のための有用なプロキシとして利用することができる。 これは、アンサンブルのような手法よりもはるかに低い計算コストで最先端の見積もりを提供する不確実性推定へのアプローチであり、元の反復モデルを変更する必要はない。 航空画像における道路検出と2次元および3次元形状の空力特性の推定という2つの応用領域に組み込むことで,その実用的価値を実証する。

Turning pass-through network architectures into iterative ones, which use their own output as input, is a well-known approach for boosting performance. In this paper, we argue that such architectures offer an additional benefit: The convergence rate of their successive outputs is highly correlated with the accuracy of the value to which they converge. Thus, we can use the convergence rate as a useful proxy for uncertainty. This results in an approach to uncertainty estimation that provides state-of-the-art estimates at a much lower computational cost than techniques like Ensembles, and without requiring any modifications to the original iterative model. We demonstrate its practical value by embedding it in two application domains: road detection in aerial images and the estimation of aerodynamic properties of 2D and 3D shapes.
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# 脊椎手術のデジタル双眼鏡 : 概念実証

Creating a Digital Twin of Spinal Surgery: A Proof of Concept ( http://arxiv.org/abs/2403.16736v1 )

ライセンス: Link先を確認
Jonas Hein, Frederic Giraud, Lilian Calvet, Alexander Schwarz, Nicola Alessandro Cavalcanti, Sergey Prokudin, Mazda Farshad, Siyu Tang, Marc Pollefeys, Fabio Carrillo, Philipp Fürnstahl, (参考訳) 手術デジタル化(英: surgery digitalization)とは、現実世界の手術の仮想レプリカを作成する過程であり、手術デジタルツイン(SDT)とも呼ばれる。 教育や訓練、手術計画、手術作業の自動化など、様々な分野で大きな応用がある。 外科手術の詳細な表現を考えると、SDTは機械学習手法の理想的な基盤であり、トレーニングデータの自動生成を可能にする。 ロボット手術において、SDTは、ロボットが試行錯誤を通じて学ぶことができる現実的な仮想環境を提供することができる。 本稿では,現実的な条件下で実施された脊髄手術に応用した手術デジタル化のための概念実証(PoC)を提案する。 提案したデジタル化は,手術シーン全体の形状と外観の獲得とモデル化に焦点を当てている。 5台のRGB-Dカメラを外科医の動的3D再構成に、ハイエンドカメラを解剖学の3D再構成に、赤外線ステレオカメラを手術器具追跡に、レーザースキャナーを手術室の3D再構成とデータ融合に使用した。 提案手法を正当化し,プロトタイプの課題とさらなる拡張について議論する。 当社のPoCは部分的に手動のデータキュレーションに依存していますが、その高品質で大きなポテンシャルは、SDTを作成するための自動メソッドの開発を動機付けています。 SDTの品質は、https://youtu.be/LqVaWGgaTMY で公開されているレンダリングビデオで評価できます。

Surgery digitalization is the process of creating a virtual replica of real-world surgery, also referred to as a surgical digital twin (SDT). It has significant applications in various fields such as education and training, surgical planning, and automation of surgical tasks. Given their detailed representations of surgical procedures, SDTs are an ideal foundation for machine learning methods, enabling automatic generation of training data. In robotic surgery, SDTs can provide realistic virtual environments in which robots may learn through trial and error. In this paper, we present a proof of concept (PoC) for surgery digitalization that is applied to an ex-vivo spinal surgery performed in realistic conditions. The proposed digitalization focuses on the acquisition and modelling of the geometry and appearance of the entire surgical scene. We employ five RGB-D cameras for dynamic 3D reconstruction of the surgeon, a high-end camera for 3D reconstruction of the anatomy, an infrared stereo camera for surgical instrument tracking, and a laser scanner for 3D reconstruction of the operating room and data fusion. We justify the proposed methodology, discuss the challenges faced and further extensions of our prototype. While our PoC partially relies on manual data curation, its high quality and great potential motivate the development of automated methods for the creation of SDTs. The quality of our SDT can be assessed in a rendered video available at https://youtu.be/LqVaWGgaTMY .
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# 振り返って - システム・オブ・システムのためのソフトウェア工学の振り返りと今後の方向性

Looking back and forward: A retrospective and future directions on Software Engineering for systems-of-systems ( http://arxiv.org/abs/2403.16740v1 )

ライセンス: Link先を確認
Everton Cavalcante, Thais Batista, Flavio Oquendo, (参考訳) 現代のシステムはますます接続され、他の既存のシステムと統合され、システム・オブ・システム(SoS)が生まれている。 SoSは、新しい機能を提供し、実行時に現れる創発的な振舞いを通じてグローバルなミッションを達成するために相互作用する、独立した異種システムからなる。 SoSの特徴は、従来のシステムとは対照的に、ソフトウェア工学において重要な研究課題を提起している。 これらの課題は、パラダイムシフトの必要性と、これらのシステムを設計、開発、デプロイ、進化するための新しいアプローチの探求を動機付けている。 The International Workshop on Software Engineering for Systems-of-Systems (SESoS)シリーズは、ソフトウェアエンジニアリングの観点からSoSに対処する科学フォーラムのギャップを埋めるために2013年に始まった。 本稿では,SeSoSワークショップ(2013-2023)の11版にまたがる57件の論文をもとに,SoSのためのソフトウェアエンジニアリングの進化と今後の軌道について概説する。 この研究は、スコーピングレビューとサイエントメトリック分析法を組み合わせて、時間的および地理的分布、関心のトピック、採用された研究方法論、応用ドメイン、研究影響に関する研究貢献を分類、分析した。 このような包括的概要に基づいて、この記事ではSoSのためのソフトウェアエンジニアリングの現在と将来の方向性について論じます。

Modern systems are increasingly connected and more integrated with other existing systems, giving rise to systems-of-systems (SoS). An SoS consists of a set of independent, heterogeneous systems that interact to provide new functionalities and accomplish global missions through emergent behavior manifested at runtime. The distinctive characteristics of SoS, when contrasted to traditional systems, pose significant research challenges within Software Engineering. These challenges motivate the need for a paradigm shift and the exploration of novel approaches for designing, developing, deploying, and evolving these systems. The International Workshop on Software Engineering for Systems-of-Systems (SESoS) series started in 2013 to fill a gap in scientific forums addressing SoS from the Software Engineering perspective, becoming the first venue for this purpose. This article presents a study aimed at outlining the evolution and future trajectory of Software Engineering for SoS based on the examination of 57 papers spanning the 11 editions of the SESoS workshop (2013-2023). The study combined scoping review and scientometric analysis methods to categorize and analyze the research contributions concerning temporal and geographic distribution, topics of interest, research methodologies employed, application domains, and research impact. Based on such a comprehensive overview, this article discusses current and future directions in Software Engineering for SoS.
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# 強化学習に基づくプロジェクト管理型特徴選択によるソフトウェア作業評価の強化

Enhancing Software Effort Estimation through Reinforcement Learning-based Project Management-Oriented Feature Selection ( http://arxiv.org/abs/2403.16749v1 )

ライセンス: Link先を確認
Haoyang Chen, Botong Xu, Kaiyang Zhong, (参考訳) 目的:本研究は,ソフトウェアプロジェクト管理におけるデータ要素市場の適用性を検討することを目的として,従来の手法が直面する課題に対処することで,労力推定の改善に焦点をあてる。 設計・方法論・アプローチ:本研究では,データ要素市場と強化学習に基づくアルゴリズムを活用し,特徴選択に基づくソリューションを提案し,ソフトウェア作業推定の精度を高める。 MARLFSアルゴリズムの適用について検討し、アルゴリズムの改良と報酬関数をカスタマイズする。 Findings: 本研究は,ソフトウェア開発におけるプロジェクト管理の指針として機能選択を活用することによって,従来の手法と比較して,提案手法がより正確な評価を実現することを示す。 原点/価値:本研究は,データ要素市場,マシンラーニング,機能選択を組み合わせた新たなアプローチを提供することで,ソフトウェア作業の推定の改善,従来の手法の限界への対処,プロジェクト管理における今後の研究への洞察を提供することによって,この分野に寄与する。

Purpose: The study aims to investigate the application of the data element market in software project management, focusing on improving effort estimation by addressing challenges faced by traditional methods. Design/methodology/approach: This study proposes a solution based on feature selection, utilizing the data element market and reinforcement learning-based algorithms to enhance the accuracy of software effort estimation. It explores the application of the MARLFS algorithm, customizing improvements to the algorithm and reward function. Findings: This study demonstrates that the proposed approach achieves more precise estimation compared to traditional methods, leveraging feature selection to guide project management in software development. Originality/value: This study contributes to the field by offering a novel approach that combines the data element market, machine learning, and feature selection to improve software effort estimation, addressing limitations of traditional methods and providing insights for future research in project management.
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# 全人工的、少ない知性:形式的検証のレンズを通してのGenAI

All Artificial, Less Intelligence: GenAI through the Lens of Formal Verification ( http://arxiv.org/abs/2403.16750v1 )

ライセンス: Link先を確認
Deepak Narayan Gadde, Aman Kumar, Thomas Nalapat, Evgenii Rezunov, Fabio Cappellini, (参考訳) 現代のハードウェアデザインはますます効率的で複雑になっている。 しかし、それらはしばしばCWE(Common Weakness Enumerations)の影響を受けやすい。 本稿では,Large Language Models (LLMs) を利用した SystemVerilog from Regenerative Artificial Intelligence (AI) で記述されたハードウェア設計のデータセットにおけるCWEの形式的検証に着目する。 ハードウェア設計を脆弱性またはCWEフリーに分類するために,形式検証を適用した。 このデータセットは4つの異なるLCMによって生成され、我々の論文で対象とする10個のCWEのそれぞれにユニークな設計セットが特徴である。 我々は、識別された脆弱性を、6万の生成したSystemVerilog Register Transfer Level (RTL)コードに対してCWE番号に関連付けている。 また、ほとんどのLLMはハードウェアCWEを知らないため、ハードウェアコードを生成する際には考慮されない。 LLMが生成するハードウェア設計の約60%はCWEが原因で、潜在的な安全性とセキュリティ上のリスクが生じる。 このデータセットは、LLMと機械学習(ML)アルゴリズムのトレーニングに最適で、CWE対応のハードウェア設計の生成を控える。

Modern hardware designs have grown increasingly efficient and complex. However, they are often susceptible to Common Weakness Enumerations (CWEs). This paper is focused on the formal verification of CWEs in a dataset of hardware designs written in SystemVerilog from Regenerative Artificial Intelligence (AI) powered by Large Language Models (LLMs). We applied formal verification to categorize each hardware design as vulnerable or CWE-free. This dataset was generated by 4 different LLMs and features a unique set of designs for each of the 10 CWEs we target in our paper. We have associated the identified vulnerabilities with CWE numbers for a dataset of 60,000 generated SystemVerilog Register Transfer Level (RTL) code. It was also found that most LLMs are not aware of any hardware CWEs; hence they are usually not considered when generating the hardware code. Our study reveals that approximately 60% of the hardware designs generated by LLMs are prone to CWEs, posing potential safety and security risks. The dataset could be ideal for training LLMs and Machine Learning (ML) algorithms to abstain from generating CWE-prone hardware designs.
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# 役割マイニングにおける双方向最適化

Bi-objective Optimization in Role Mining ( http://arxiv.org/abs/2403.16757v1 )

ライセンス: Link先を確認
Jason Crampton, Eduard Eiben, Gregory Gutin, Daniel Karapetyan, Diptapriyo Majumdar, (参考訳) ロールマイニング(Role mining)は、既存のポリシーからロールベースの認証ポリシーを導出する技術である。 ユーザセットのU$、パーミッションのセット$P$とユーザパーミッションの承認関係$\mahtit{UPA}\subseteq U\times P$、ロールマイニングアルゴリズムはロールのセット$R$、ユーザロールの承認関係$\mathit{UA}\subseteq U\times R$、パーミッションの認可関係$\mathit{PA}\subseteq R\times P$を計算し、$\mathit{UA}$と$\mathit{PA}$の合成が(ある意味では)$\mathit{UPA}$に近づく。 本稿では,まず,Minnoise Role Mining問題の一般化であるGeneralized Noise Role Mining problem (GNRM)を紹介する。 ここで$r$はソリューション内のロールの数であり、$k$は$\mathit{UPA}$と$\mathit{UA}$と$\mathit{PA}$の合成によって定義される関係の差の数である。 さらに、GNRMの双目的最適化変種を導入し、上界の$r$と$k$の両方を最小化したい:$r\le \bar{r}$と$k\le \bar{k}$、$\bar{r}$と$\bar{k}$は定数である。 この双目的最適化問題(BO-GNRM)のパレートフロントはパラメータ $\bar{r}+\bar{k}$ で固定パラメータ抽出可能な時間で計算可能であることを示す。 次に、整数計画解法であるGurobiを用いてBO-GNRMの問題を解く実験結果について報告する。 私たちの重要な発見は (a)グロビのパフォーマンスが固定パラメータのトラクタブルであるという強い支持を得た。 b) この手法は実世界の3つの認証政策の文脈において, 実地における役割マイニングに有用である可能性が示唆された。

Role mining is a technique used to derive a role-based authorization policy from an existing policy. Given a set of users $U$, a set of permissions $P$ and a user-permission authorization relation $\mahtit{UPA}\subseteq U\times P$, a role mining algorithm seeks to compute a set of roles $R$, a user-role authorization relation $\mathit{UA}\subseteq U\times R$ and a permission-role authorization relation $\mathit{PA}\subseteq R\times P$, such that the composition of $\mathit{UA}$ and $\mathit{PA}$ is close (in some appropriate sense) to $\mathit{UPA}$. In this paper, we first introduce the Generalized Noise Role Mining problem (GNRM) -- a generalization of the MinNoise Role Mining problem -- which we believe has considerable practical relevance. Extending work of Fomin et al., we show that GNRM is fixed parameter tractable, with parameter $r + k$, where $r$ is the number of roles in the solution and $k$ is the number of discrepancies between $\mathit{UPA}$ and the relation defined by the composition of $\mathit{UA}$ and $\mathit{PA}$. We further introduce a bi-objective optimization variant of GNRM, where we wish to minimize both $r$ and $k$ subject to upper bounds $r\le \bar{r}$ and $k\le \bar{k}$, where $\bar{r}$ and $\bar{k}$ are constants. We show that the Pareto front of this bi-objective optimization problem (BO-GNRM) can be computed in fixed-parameter tractable time with parameter $\bar{r}+\bar{k}$. We then report the results of our experimental work using the integer programming solver Gurobi to solve instances of BO-GNRM. Our key findings are that (a) we obtained strong support that Gurobi's performance is fixed-parameter tractable, (b) our results suggest that our techniques may be useful for role mining in practice, based on our experiments in the context of three well-known real-world authorization policies.
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# Rabi-Starkモデルにおけるスペクトル連続体

The spectral continuum in the Rabi-Stark model ( http://arxiv.org/abs/2403.16758v1 )

ライセンス: Link先を確認
Daniel Braak, Lei Cong, Hans-Peter Eckle, Henrik Johannesson, Elinor K. Twyeffort, (参考訳) ラービ・スタークモデル(英: Rabi-Stark model)は、量子ラビモデルの非線形一般化であり、キャビティQEDプラットフォーム上で量子シミュレーションによって実現可能な、動的スタークシフトをチューナブル項として含む。 スターク結合がモード周波数と等しくなると、スペクトルは劇的に変化するが、数値的な研究は無限に縮退した基底状態を示すため、遷移は通常「スペクトル崩壊」と呼ばれる。 スペクトルがしきい値から無限大まで連続的に広がることを示す。 一連の正規化可能な状態が連続体に埋め込まれ、原子のスターク効果と予期せぬ類似性を持つ。 境界状態と連続体は、バーグマン空間における関連する微分方程式の2つの等しく正当化されるが異なる共役過程を通して解析的に得ることができる。 さらに、これらの結果はスピン自由度を断熱的に除去する手法を用いて独立に得られ、大規模数値チェックにより相関する。

The Rabi-Stark model is a non-linear generalization of the quantum Rabi model including the dynamical Stark shift as a tunable term, which can be realized via quantum simulation on a cavity QED platform. When the Stark coupling becomes equal to the mode frequency, the spectrum changes drastically, a transition usually termed "spectral collapse" because numerical studies indicate an infinitely degenerate ground state. We show that the spectrum extends continuously from a threshold value up to infinity. A set of normalizable states are embedded in the continuum which furnishes an unexpected analogy to the atomic Stark effect. Bound states and continuum can be obtained analytically through two equally justified, but different confluence processes of the associated differential equation in Bargmann space. Moreover, these results are obtained independently using a method based on adiabatic elimination of the spin degree of freedom and corroborated through large-scale numerical checks.
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# AIが生成した画像、ビデオ、オーディオ、およびオーディオ視覚刺激の人間の検出に役立てる

As Good As A Coin Toss Human detection of AI-generated images, videos, audio, and audiovisual stimuli ( http://arxiv.org/abs/2403.16760v1 )

ライセンス: Link先を確認
Di Cooke, Abigail Edwards, Sophia Barkoff, Kathryn Kelly, (参考訳) 合成メディアが徐々に現実的になり、それを使うための障壁が減っていくにつれて、この技術は、金融詐欺から非合意ポルノまで、悪意ある目的のためにますます利用されてきた。 今日では、合成メディアによる誤解に対する主要な防御は、人間の観察者が現実と偽の区別を視覚的に、聴覚的に行う能力に依存している。 しかし、人々が日々の生活の中で人工メディアを欺くのにどれほど脆弱かは、まだ不明だ。 被験者1276名を対象に, 合成画像, 音声のみ, ビデオのみ, 映像のみ, 音声視覚刺激を正当性から識別する能力について検討した。 人々が野生で合成メディアに遭遇する可能性のある状況を反映するために、テスト条件と刺激が典型的なオンラインプラットフォームをエミュレートした。 全体として、参加者は、合成コンテンツと真正コンテンツとを有意義に区別することに苦労していた。 また、刺激が合成内容を含むと検出性能が悪化し、非顔オブジェクトと比較して人間の顔が特徴付けられる画像、マルチモーダル刺激と比較して単一のモダリティ、オーディオ視覚刺激の完全合成に比べて混合された認証性が低下し、観察者が習熟している言語と比較して外国語が特徴的であることも見いだした。 最後に, 合成メディアの先行知識が検出性能に有意な影響を及ぼさないことも確認した。 これらの結果は, 日常の合成メディアに騙される可能性が高く, 人間の知覚検出能力は, 効果的な防御手段として信頼できないことを示唆している。

As synthetic media becomes progressively more realistic and barriers to using it continue to lower, the technology has been increasingly utilized for malicious purposes, from financial fraud to nonconsensual pornography. Today, the principal defense against being misled by synthetic media relies on the ability of the human observer to visually and auditorily discern between real and fake. However, it remains unclear just how vulnerable people actually are to deceptive synthetic media in the course of their day to day lives. We conducted a perceptual study with 1276 participants to assess how accurate people were at distinguishing synthetic images, audio only, video only, and audiovisual stimuli from authentic. To reflect the circumstances under which people would likely encounter synthetic media in the wild, testing conditions and stimuli emulated a typical online platform, while all synthetic media used in the survey was sourced from publicly accessible generative AI technology. We find that overall, participants struggled to meaningfully discern between synthetic and authentic content. We also find that detection performance worsens when the stimuli contains synthetic content as compared to authentic content, images featuring human faces as compared to non face objects, a single modality as compared to multimodal stimuli, mixed authenticity as compared to being fully synthetic for audiovisual stimuli, and features foreign languages as compared to languages the observer is fluent in. Finally, we also find that prior knowledge of synthetic media does not meaningfully impact their detection performance. Collectively, these results indicate that people are highly susceptible to being tricked by synthetic media in their daily lives and that human perceptual detection capabilities can no longer be relied upon as an effective counterdefense.
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# DeepKnowledge: 一般化駆動のディープラーニングテスト

DeepKnowledge: Generalisation-Driven Deep Learning Testing ( http://arxiv.org/abs/2403.16768v1 )

ライセンス: Link先を確認
Sondess Missaoui, Simos Gerasimou, Nikolaos Matragkas, (参考訳) 彼らの前例のない成功にもかかわらず、DNNはデータ配布の小さなシフトに対して脆弱で、その信頼性を評価する効果的なテスト技術を必要としている。 近年のDNNテストの進歩にもかかわらず、DNNのトレーニングディストリビューションのデータを越えた一般化と運用の能力を評価するための体系的なテストアプローチが欠如している。 我々は,知識一般化理論に基づいて構築されたDNNベースのシステムを対象としたシステムテスト手法であるDeepKnowledgeとのギャップに対処し,DNNの堅牢性を向上し,"ブラックボックス"モデルの残留リスクを低減することを目的とした。 この理論に従えば、DeepKnowledgeは、コア計算DNNユニットであるトランスファー知識ニューロンはドメインシフトの下で一般化できると仮定する。 DeepKnowledgeは、データ分散シフトが与えられたDNNのテストアクティビティに対する客観的な信頼度測定を提供し、この情報を使用して、一般化インフォームドテストの精度基準を設定して、テストセットの転送知識能力をチェックする。 複数のデータセットにまたがる複数のDNNの実証的評価と最先端の逆生成技術は、DeepKnowledgeの有用性と有効性を示し、より信頼性の高いDNNのエンジニアリングを支援する能力を示している。 本報告では,MNIST,SVHN,CIFARなど,複数のベンチマークに対する敵攻撃を検出するための最先端カバレッジ基準に対して,最大10ポイントの改善が報告されている。

Despite their unprecedented success, DNNs are notoriously fragile to small shifts in data distribution, demanding effective testing techniques that can assess their dependability. Despite recent advances in DNN testing, there is a lack of systematic testing approaches that assess the DNN's capability to generalise and operate comparably beyond data in their training distribution. We address this gap with DeepKnowledge, a systematic testing methodology for DNN-based systems founded on the theory of knowledge generalisation, which aims to enhance DNN robustness and reduce the residual risk of 'black box' models. Conforming to this theory, DeepKnowledge posits that core computational DNN units, termed Transfer Knowledge neurons, can generalise under domain shift. DeepKnowledge provides an objective confidence measurement on testing activities of DNN given data distribution shifts and uses this information to instrument a generalisation-informed test adequacy criterion to check the transfer knowledge capacity of a test set. Our empirical evaluation of several DNNs, across multiple datasets and state-of-the-art adversarial generation techniques demonstrates the usefulness and effectiveness of DeepKnowledge and its ability to support the engineering of more dependable DNNs. We report improvements of up to 10 percentage points over state-of-the-art coverage criteria for detecting adversarial attacks on several benchmarks, including MNIST, SVHN, and CIFAR.
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# ロバスト符号混合翻訳のための合成データ生成と共同学習

Synthetic Data Generation and Joint Learning for Robust Code-Mixed Translation ( http://arxiv.org/abs/2403.16771v1 )

ライセンス: Link先を確認
Kartik, Sanjana Soni, Anoop Kunchukuttan, Tanmoy Chakraborty, Md Shad Akhtar, (参考訳) 現代の多言語世界における広範なオンラインコミュニケーションは、複数の言語(いわゆるコード混合言語)を単一発話でブレンドする機会を与えてきた。 この結果、注釈付きデータの不足とノイズの存在により、計算モデルにとって大きな課題となった。 低リソースのセットアップでデータ不足を緩和する潜在的な解決策は、翻訳を通じてリソース豊富な言語で既存のデータを活用することである。 本稿では,コードミキシング(ヒングリッシュとベンガル語)と英語機械翻訳の問題に取り組む。 まず, Hinglish の英語への並列コーパスである HINMIX を, 約4.2M 文対で合成的に開発する。 次に、実世界のコード混在テキストのノイズをクリーンでノイズの多い単語間でパラメータ共有することで処理する、頑健な摂動に基づく共同学習モデルRCMTを提案する。 さらに,ベンガル語から英語への翻訳において,RCMTの適応性を示す。 我々の評価と総合分析は、最先端のコード混在および堅牢な翻訳法よりもRCMTの方が優れていることを質的かつ定量的に証明している。

The widespread online communication in a modern multilingual world has provided opportunities to blend more than one language (aka code-mixed language) in a single utterance. This has resulted a formidable challenge for the computational models due to the scarcity of annotated data and presence of noise. A potential solution to mitigate the data scarcity problem in low-resource setup is to leverage existing data in resource-rich language through translation. In this paper, we tackle the problem of code-mixed (Hinglish and Bengalish) to English machine translation. First, we synthetically develop HINMIX, a parallel corpus of Hinglish to English, with ~4.2M sentence pairs. Subsequently, we propose RCMT, a robust perturbation based joint-training model that learns to handle noise in the real-world code-mixed text by parameter sharing across clean and noisy words. Further, we show the adaptability of RCMT in a zero-shot setup for Bengalish to English translation. Our evaluation and comprehensive analyses qualitatively and quantitatively demonstrate the superiority of RCMT over state-of-the-art code-mixed and robust translation methods.
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# 平面Geにおけるゲート可変トランスモン量子ビット

A gate tunable transmon qubit in planar Ge ( http://arxiv.org/abs/2403.16774v1 )

ライセンス: Link先を確認
Oliver Sagi, Alessandro Crippa, Marco Valentini, Marian Janik, Levon Baghumyan, Giorgio Fabris, Lucky Kapoor, Farid Hassani, Johannes Fink, Stefano Calcaterra, Daniel Chrastina, Giovanni Isella, Georgios Katsaros, (参考訳) 半導体ジョセフソン接合を用いたゲート可変トランスモン(ゲートモン)は、近年、ハイブリッド量子回路のビルディングブロックとして出現している。 本研究では,平面ゲルマニウムで作製したゲートモンについて述べる。 超伝導体をGe量子井戸から分離した薄いスペーサ上にアルミニウムを蒸発させることにより、2次元ホールガス中で超伝導を誘導する。 ジョセフソン接合はXmon回路に統合され、容量的に伝送線路共振器に結合される。 共振器と2トーン分光器を併用した広周波数帯における量子ビット可変性を示す。 時間領域の特徴はエネルギー緩和と75 nsまでのコヒーレンス時間を示す。 我々の結果は、スピン量子場における最近の進歩と相まって、グループIV、CMOS互換材料における新しいハイブリッドおよび保護量子ビットへの道を開いた。

Gate-tunable transmons (gatemons) employing semiconductor Josephson junctions have recently emerged as building blocks for hybrid quantum circuits. In this study, we present a gatemon fabricated in planar Germanium. We induce superconductivity in a two-dimensional hole gas by evaporating aluminum atop a thin spacer, which separates the superconductor from the Ge quantum well. The Josephson junction is then integrated into an Xmon circuit and capacitively coupled to a transmission line resonator. We showcase the qubit tunability in a broad frequency range with resonator and two-tone spectroscopy. Time-domain characterizations reveal energy relaxation and coherence times up to 75 ns. Our results, combined with the recent advances in the spin qubit field, pave the way towards novel hybrid and protected qubits in a group IV, CMOS-compatible material.
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# ディフディーフ:条件付きアトラスの拡散生成変形場

Diff-Def: Diffusion-Generated Deformation Fields for Conditional Atlases ( http://arxiv.org/abs/2403.16776v1 )

ライセンス: Link先を確認
Sophie Starck, Vasiliki Sideri-Lampretsa, Bernhard Kainz, Martin Menten, Tamara Mueller, Daniel Rueckert, (参考訳) 解剖学的アトラスは人口分析に広く用いられている。 条件付きアトラスは、特定の条件(例えば、人口統計学や病理学)で定義された特定のサブ集団をターゲットにし、年齢と相関する形態的変化のような微細な解剖学的差異の研究を可能にする。 既存のアプローチでは、大きな解剖学的変異を扱うことができない登録ベースの方法や、訓練の不安定さや幻覚に悩まされるような生成モデルを使用する。 これらの制限を克服するために、潜時拡散モデルを用いて変形場を生成し、一般集団アトラスを特定のサブ人口を表すものに変換する。 変形場を生成し、条件付きアトラスを画像近傍に登録することにより、構造的可視性を確保し、直接画像合成中に発生する幻覚を回避する。 本手法を、5000個の脳とUK Biobankの全身MR画像を用いた実験で、最先端のアトラス生成法と比較した。 本手法は,スムーズな変形と解剖学的忠実度をともなう極めて現実的なアトラスを生成する。

Anatomical atlases are widely used for population analysis. Conditional atlases target a particular sub-population defined via certain conditions (e.g. demographics or pathologies) and allow for the investigation of fine-grained anatomical differences - such as morphological changes correlated with age. Existing approaches use either registration-based methods that are unable to handle large anatomical variations or generative models, which can suffer from training instabilities and hallucinations. To overcome these limitations, we use latent diffusion models to generate deformation fields, which transform a general population atlas into one representing a specific sub-population. By generating a deformation field and registering the conditional atlas to a neighbourhood of images, we ensure structural plausibility and avoid hallucinations, which can occur during direct image synthesis. We compare our method to several state-of-the-art atlas generation methods in experiments using 5000 brain as well as whole-body MR images from UK Biobank. Our method generates highly realistic atlases with smooth transformations and high anatomical fidelity, outperforming the baselines.
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# 機械翻訳橋の多言語事前学習と言語間移動学習は可能か?

Can Machine Translation Bridge Multilingual Pretraining and Cross-lingual Transfer Learning? ( http://arxiv.org/abs/2403.16777v1 )

ライセンス: Link先を確認
Shaoxiong Ji, Timothee Mickus, Vincent Segonne, Jörg Tiedemann, (参考訳) 多言語事前学習と微調整は、様々な自然言語処理タスクにおいて顕著に成功している。 ある言語から別の言語への表現の転送は、特に言語間学習において重要である。 機械翻訳の目的は、異なる言語から意味論的に等価な文を明示的にアライメントすることを含むため、そのような能力を育むのに適していると期待できる。 本稿では,言語表現学習,ブリッジング,多言語事前学習,言語横断的応用の促進を目的として,機械翻訳を継続的な学習目的として活用する可能性について検討する。 既存のモデルの性能を定量的に評価し,その潜在表現を解析する。 この結果から,複数の言語間自然言語理解タスクにおいて,機械翻訳の継続学習が言語間表現学習の強化に失敗することが明らかとなった。 本研究は, 言語横断シナリオにおける明示的な文レベルのアライメントは, 言語間移動事前学習に有害であり, 将来の言語間移動研究に重要な影響を及ぼすと結論付けた。 さらに、類似度測定やパラメータの調査を通じて、この肯定的な影響の欠如は、出力分離性によるものであるという証拠も提供します。

Multilingual pretraining and fine-tuning have remarkably succeeded in various natural language processing tasks. Transferring representations from one language to another is especially crucial for cross-lingual learning. One can expect machine translation objectives to be well suited to fostering such capabilities, as they involve the explicit alignment of semantically equivalent sentences from different languages. This paper investigates the potential benefits of employing machine translation as a continued training objective to enhance language representation learning, bridging multilingual pretraining and cross-lingual applications. We study this question through two lenses: a quantitative evaluation of the performance of existing models and an analysis of their latent representations. Our results show that, contrary to expectations, machine translation as the continued training fails to enhance cross-lingual representation learning in multiple cross-lingual natural language understanding tasks. We conclude that explicit sentence-level alignment in the cross-lingual scenario is detrimental to cross-lingual transfer pretraining, which has important implications for future cross-lingual transfer studies. We furthermore provide evidence through similarity measures and investigation of parameters that this lack of positive influence is due to output separability -- which we argue is of use for machine translation but detrimental elsewhere.
翻訳日:2024-03-26 20:03:02 公開日:2024-03-25
# Integer Fluxonium Qubit

Integer Fluxonium Qubit ( http://arxiv.org/abs/2403.16780v1 )

ライセンス: Link先を確認
Raymond A. Mencia, Wei-Ju Lin, Hyunheung Cho, Maxim G. Vavilov, Vladimir E. Manucharyan, (参考訳) ゼロ磁場中において、適切に設計されたフラクソニウム回路を動作させることから導かれる超伝導量子ビットについて述べる。 量子ビットの周波数は約4GHzであり、回路部品の誘電損失品質係数が低い10^5$範囲であっても、エネルギー緩和品質係数$Q \approx 0.7\times 10^7$である。 ラムゼーのコヒーレンス時間は100usを超え、クリフォードゲートの平均忠実度は$\mathcal{F} > 0.999$とベンチマークされる。 これらの数値は、最適化された製造および測定手順により、桁違いに改善される可能性が高い。 我々の研究は、最高のトランスモンに匹敵する誤差率を持つ「部分的に保護された」超伝導量子ビットを準備する。

We describe a superconducting qubit derived from operating a properly designed fluxonium circuit in a zero magnetic field. The qubit has a frequency of about 4 GHz and the energy relaxation quality factor $Q \approx 0.7\times 10^7$, even though the dielectric loss quality factor of the circuit components is in the low $10^5$ range. The Ramsey coherence time exceeds 100 us, and the average fidelity of Clifford gates is benchmarked to $\mathcal{F} > 0.999$. These figures are likely to improve by an order of magnitude with optimized fabrication and measurement procedures. Our work establishes a ready-to-use ``partially protected" superconducting qubit with an error rate comparable to the best transmons.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# 対人攻撃の解剖:概念に基づくXAI解剖

The Anatomy of Adversarial Attacks: Concept-based XAI Dissection ( http://arxiv.org/abs/2403.16782v1 )

ライセンス: Link先を確認
Georgii Mikriukov, Gesina Schwalbe, Franz Motzkus, Korinna Bade, (参考訳) 敵対的攻撃(AA)は、ディープニューラルネットワークの信頼性と堅牢性に重大な脅威をもたらす。 モデル予測に対するこれらの攻撃の影響は広く研究されているが、これらのモデル内の学習された表現や概念に対する影響は未解明のままである。 本研究では,eXplainable AI(XAI)技術を用いて,畳み込みニューラルネットワーク(CNN)が学習した概念に対するAAの影響を詳細に分析する。 様々なネットワークアーキテクチャとターゲットAA技術にまたがる広範な実験を通じて、我々はいくつかの重要な発見を公表した。 まず、AAsは機能空間における概念構成をかなり変更し、新しい概念を導入したり、既存の概念を変更したりする。 第二に、敵の摂動自体が線形に潜在ベクトル成分の集合に分解され、これらの一部が攻撃の成功の原因となる。 特に、これらのコンポーネントがターゲット固有であること、すなわち、異なるAA技術や開始クラスを通して、与えられたターゲットクラスに類似していることが分かる。 本研究は,より堅牢で解釈可能な深層学習モデルの開発への道を開くとともに,敵の脅威に対する効果的な防御を図り,AAの性質と学習表現への影響に関する貴重な知見を提供する。

Adversarial attacks (AAs) pose a significant threat to the reliability and robustness of deep neural networks. While the impact of these attacks on model predictions has been extensively studied, their effect on the learned representations and concepts within these models remains largely unexplored. In this work, we perform an in-depth analysis of the influence of AAs on the concepts learned by convolutional neural networks (CNNs) using eXplainable artificial intelligence (XAI) techniques. Through an extensive set of experiments across various network architectures and targeted AA techniques, we unveil several key findings. First, AAs induce substantial alterations in the concept composition within the feature space, introducing new concepts or modifying existing ones. Second, the adversarial perturbation itself can be linearly decomposed into a set of latent vector components, with a subset of these being responsible for the attack's success. Notably, we discover that these components are target-specific, i.e., are similar for a given target class throughout different AA techniques and starting classes. Our findings provide valuable insights into the nature of AAs and their impact on learned representations, paving the way for the development of more robust and interpretable deep learning models, as well as effective defenses against adversarial threats.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# HPL-ESS: 教師なしイベントベースセマンティックセグメンテーションのためのハイブリッド擬似ラベル

HPL-ESS: Hybrid Pseudo-Labeling for Unsupervised Event-based Semantic Segmentation ( http://arxiv.org/abs/2403.16788v1 )

ライセンス: Link先を確認
Linglin Jing, Yiming Ding, Yunpeng Gao, Zhigang Wang, Xu Yan, Dong Wang, Gerald Schaefer, Hui Fang, Bin Zhao, Xuelong Li, (参考訳) イベントベースのセマンティックセグメンテーションは、従来のRGBカメラでは対処できない、高速な動きと極端な照明条件下でのシナリオを扱う能力によって人気を集めている。 イベントデータのアノテートは困難であるため,従来の手法では擬似ラベルの学習にイベント・ツー・イメージの再構築を頼っていた。 しかし、これは必然的にノイズを導入し、ノイズの多い擬似ラベルから学習し、特に単一ソースから生成された場合、エラーを補強する可能性がある。 この欠点は疑似ラベルの確認バイアスとも呼ばれる。 本稿では,教師なしイベントベースセマンティックセグメンテーションのためのハイブリッド擬似ラベルフレームワークHPL-ESSを提案する。 特に、まずベースラインとして非教師なしのドメイン適応フレームワークを使用し、自己学習によって擬似ラベルのセットを生成する。 そして、オフラインのイベント・ツー・イメージの再構成をフレームワークに組み込んで、再構成画像上のセグメントマップを予測して、別の擬似ラベルの集合を得る。 ノイズの多いラベル学習戦略は、2組の擬似ラベルを混合し、品質を高めるように設計されている。 さらに,対象領域の特徴の整合性をさらに向上するために,ソフトなプロトタイプアライメントモジュールを提案する。 DSEC-Semantic データセット (+5.88% 精度 +10.32% mIoU) において,提案手法は既存の最先端手法よりも高い性能を示した。

Event-based semantic segmentation has gained popularity due to its capability to deal with scenarios under high-speed motion and extreme lighting conditions, which cannot be addressed by conventional RGB cameras. Since it is hard to annotate event data, previous approaches rely on event-to-image reconstruction to obtain pseudo labels for training. However, this will inevitably introduce noise, and learning from noisy pseudo labels, especially when generated from a single source, may reinforce the errors. This drawback is also called confirmation bias in pseudo-labeling. In this paper, we propose a novel hybrid pseudo-labeling framework for unsupervised event-based semantic segmentation, HPL-ESS, to alleviate the influence of noisy pseudo labels. In particular, we first employ a plain unsupervised domain adaptation framework as our baseline, which can generate a set of pseudo labels through self-training. Then, we incorporate offline event-to-image reconstruction into the framework, and obtain another set of pseudo labels by predicting segmentation maps on the reconstructed images. A noisy label learning strategy is designed to mix the two sets of pseudo labels and enhance the quality. Moreover, we propose a soft prototypical alignment module to further improve the consistency of target domain features. Extensive experiments show that our proposed method outperforms existing state-of-the-art methods by a large margin on the DSEC-Semantic dataset (+5.88% accuracy, +10.32% mIoU), which even surpasses several supervised methods.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# イソ拡散:付加ガウス雑音の等方性を用いた拡散確率モデルの改善

Iso-Diffusion: Improving Diffusion Probabilistic Models Using the Isotropy of the Additive Gaussian Noise ( http://arxiv.org/abs/2403.16790v1 )

ライセンス: Link先を確認
Dilum Fernando, Dhananjaya jayasundara, Roshan Godaliyadda, Chaminda Bandara, Parakrama Ekanayake, Vijitha Herath, (参考訳) Denoising Diffusion Probabilistic Models (DDPM)は、生成AIの領域で多くの成果を上げている。 高い性能にもかかわらず、特にサンプル忠実度の観点からは、等方性のような構造的整合性を持つ統計的性質を活用することで改善の余地がある。 加算音と予測音との平均二乗誤差を最小化することは、予測音に等方性を持つような制約を課すものではない。 そこで我々は, DDPMの忠実度を高めるために, 目的関数の制約として付加雑音の等方性を利用する動機を得た。 我々のアプローチは単純であり、DDPMの変種にも適用できる。 我々は,4つの合成2次元データセットおよび無条件画像生成実験を提示し,本手法の有効性を検証した。 結果から示されるように、この制約の組み入れにより、2次元データセットの忠実度、精度、密度、および非条件画像生成の精度が向上する。

Denoising Diffusion Probabilistic Models (DDPMs) have accomplished much in the realm of generative AI. Despite their high performance, there is room for improvement, especially in terms of sample fidelity by utilizing statistical properties that impose structural integrity, such as isotropy. Minimizing the mean squared error between the additive and predicted noise alone does not impose constraints on the predicted noise to be isotropic. Thus, we were motivated to utilize the isotropy of the additive noise as a constraint on the objective function to enhance the fidelity of DDPMs. Our approach is simple and can be applied to any DDPM variant. We validate our approach by presenting experiments conducted on four synthetic 2D datasets as well as on unconditional image generation. As demonstrated by the results, the incorporation of this constraint improves the fidelity metrics, Precision and Density for the 2D datasets as well as for the unconditional image generation.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# 量子コンピュータにおける基底状態解としての非線形ダイナミクス

Nonlinear dynamics as a ground-state solution on quantum computers ( http://arxiv.org/abs/2403.16791v1 )

ライセンス: Link先を確認
Albert J. Pool, Alejandro D. Somoza, Conor Mc Keever, Michael Lubasch, Birger Horstmann, (参考訳) 時間依存非線形微分方程式の解に対しては、量子ビットレジスタ内の空間と時間の両方を符号化する変分量子アルゴリズム(VQAs)を提案する。 時空符号化により、1つの基底状態計算から全時間進化を得ることができる。 本稿では,VQAが要求するコスト関数評価のために,効率的な量子回路を構築するための一般的な手順について述べる。 最適化時にバレンプラトー問題を緩和するために,適応型多重グリッド戦略を提案する。 このアプローチは非線形バーガーズ方程式に対して説明される。 我々は古典的に量子回路を最適化して所望の基底状態解を表現し、それらをIBM Q System OneとQuantinuum System Model H1上で実行し、現在の量子コンピュータが正確な結果を正確に再現できることを実証する。

For the solution of time-dependent nonlinear differential equations, we present variational quantum algorithms (VQAs) that encode both space and time in qubit registers. The spacetime encoding enables us to obtain the entire time evolution from a single ground-state computation. We describe a general procedure to construct efficient quantum circuits for the cost function evaluation required by VQAs. To mitigate the barren plateau problem during the optimization, we propose an adaptive multigrid strategy. The approach is illustrated for the nonlinear Burgers equation. We classically optimize quantum circuits to represent the desired ground-state solutions, run them on IBM Q System One and Quantinuum System Model H1, and demonstrate that current quantum computers are capable of accurately reproducing the exact results.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# コンパイラフィードバックによる精密コード生成のためのプロジェクトレベルコードコンテキストの反復的リファインメント

Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback ( http://arxiv.org/abs/2403.16792v1 )

ライセンス: Link先を確認
Zhangqian Bi, Yao Wan, Zheng Wang, Hongyu Zhang, Batu Guan, Fangxin Lu, Zili Zhang, Yulei Sui, Xuanhua Shi, Hai Jin, (参考訳) 大規模言語モデル(LLM)は、コードの自動生成において顕著な進歩を示している。 しかし、LLMベースのコード生成を実際のソフトウェアプロジェクトに組み込むことは、生成されたコードがAPIの使用、クラス、データ構造、プロジェクト固有の情報の欠如を含む可能性があるため、課題となる。 プロジェクト固有のコンテキストの多くはLCMのプロンプトに適合しないので、モデルがプロジェクトレベルのコードコンテキストを探索できるようにする方法を見つけなければなりません。 そこで本研究では,ProCoderと呼ばれる新しいアプローチを提案し,コンパイラフィードバックによって導かれる,正確なコード生成のためのプロジェクトレベルのコードコンテキストを反復的に洗練する。 特にProCoderは、まずコンパイラ技術を活用して、生成されたコードとプロジェクトのコンテキストのミスマッチを特定する。 その後、コードリポジトリから抽出された情報を使用して、識別されたエラーを反復的に調整し、修正する。 我々は ProCoder を GPT-3.5-Turbo と Code Llama (13B) の2つの代表的な LLM と統合し,Python コード生成に適用する。 実験の結果,ProCoderはプロジェクトコンテキストに依存したコード生成において,バニラLLMを80%以上改善し,既存の検索ベースコード生成ベースラインを一貫して上回っていることがわかった。

Large language models (LLMs) have shown remarkable progress in automated code generation. Yet, incorporating LLM-based code generation into real-life software projects poses challenges, as the generated code may contain errors in API usage, class, data structure, or missing project-specific information. As much of this project-specific context cannot fit into the prompts of LLMs, we must find ways to allow the model to explore the project-level code context. To this end, this paper puts forward a novel approach, termed ProCoder, which iteratively refines the project-level code context for precise code generation, guided by the compiler feedback. In particular, ProCoder first leverages compiler techniques to identify a mismatch between the generated code and the project's context. It then iteratively aligns and fixes the identified errors using information extracted from the code repository. We integrate ProCoder with two representative LLMs, i.e., GPT-3.5-Turbo and Code Llama (13B), and apply it to Python code generation. Experimental results show that ProCoder significantly improves the vanilla LLMs by over 80% in generating code dependent on project context, and consistently outperforms the existing retrieval-based code generation baselines.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# 有限量子系におけるワームホールテレポーテーションの忠実性

Fidelity of Wormhole Teleportation in Finite-qubit Systems ( http://arxiv.org/abs/2403.16793v1 )

ライセンス: Link先を確認
Zeyu Liu, Pengfei Zhang, (参考訳) 量子科学と技術の急速な発展は、量子シミュレーションによって量子多体システムを解釈できる時代へと導く。 ホログラフィーの双対性は、強い相互作用を持つ系から重力と時空を表現し、実験的に実現不可能な高エネルギーを掘り下げることなく、重力物理学の実験研究のための自然な道を提供する。 顕著な例として、ワームホール・テレポーテーションプロトコルを通したワームホールのシミュレーションがあり、理論的にも実験的にも注目されている。 本研究では、相互情報と絡み合いの負性によって定量化され、全対一の相互作用を持つ$N$量子ビットシステムにおけるワームホールテレポーテーションの忠実度を計算するための理論的枠組みを開発する。 主な手法はスクランブルン有効理論であり、一般的なカオス系における普遍的な時間外相関を捉えている。 半古典的トラベル可能なワームホールのプローブ限界を, ほぼ最大カオスの強い相互作用系を用いてシミュレートするためには, 両システム間の強い結合が不可欠であることを示す。 しかし、テレポーテーション信号はシステムサイズを$N$にすると急速に減少し、サハデフ・イェ・キタエフモデルをシミュレートすることで、創発的幾何学の鋭いシグネチャを観測するために多数のキュービットを必要とする。 これには、信号の因果時間順序と、異なる信号と結合するためのテレポーテーション信号の非対称性の両方が含まれる。 比較として、弱い相互作用を持つシステムにおいて、N$を減少させると、テレポーテーション信号が増加する。 また、フェルミオン弦作用素における一般化符号化スキームの忠実度も解析する。

The rapid development of quantum science and technology is leading us into an era where quantum many-body systems can be comprehended through quantum simulations. Holographic duality, which states gravity and spacetime can emerge from strongly interacting systems, then offers a natural avenue for the experimental study of gravity physics without delving into experimentally infeasible high energies. A prominent example is the simulation of traversable wormholes through the wormhole teleportation protocol, attracting both theoretical and experimental attention. In this work, we develop the theoretical framework for computing the fidelity of wormhole teleportation in $N$-qubit systems with all-to-all interactions, quantified by mutual information and entanglement negativity. The main technique is the scramblon effective theory, which captures universal out-of-time-order correlations in generic chaotic systems. We clarify that strong couplings between the two systems are essential for simulating the probe limit of semi-classical traversable wormholes using strongly interacting systems with near-maximal chaos. However, the teleportation signal diminishes rapidly when reducing the system size $N$, requiring a large number of qubits to observe a sharp signature of emergent geometry by simulating the Sachdev-Ye-Kitaev model. This includes both the causal time-order of signals and the asymmetry of the teleportation signal for coupling with different signs. As a comparison, the teleportation signal increases when reducing $N$ in weakly interacting systems. We also analyze the fidelity of the generalized encoding scheme in fermionic string operators.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# CurbNet: LiDARポイントクラウドセグメンテーションに基づくカーブ検出フレームワーク

CurbNet: Curb Detection Framework Based on LiDAR Point Cloud Segmentation ( http://arxiv.org/abs/2403.16794v1 )

ライセンス: Link先を確認
Guoyang Zhao, Fulong Ma, Yuxuan Liu, Weiqing Qi, Ming Liu, (参考訳) カーブ検出はインテリジェントな運転において重要な機能であり、道路の乾燥領域を決定するのに使用できる。 しかし、複雑な道路環境のため、縁石の検知は困難である。 本稿では,検出を抑えるための新しいフレームワークであるCurbNetを紹介し,ポイントクラウドセグメンテーションを活用する。 3D-Curbデータセットは,3D-Curbデータセットと3Dアノテーションの欠如に対処し,最大かつ最も多種多様である3D-Curbデータセットを3D-Curbデータセットとして開発した。 縁石が主に高さの変動によって特徴づけられることを認識し、我々のアプローチは空間的に豊かな3次元点雲をトレーニングに利用している。 本稿では,xy平面上の凹凸特性の不均一分布とz軸高周波数特性への依存に対処するため,検出性能の最適化を目的としたマルチスケール・チャネルアテンション(MSCA)モジュールを提案する。 さらに,適応重み付き損失関数群を提案する。これは,他のカテゴリと比較して,ストリップ点雲の分布の不均衡に対処するために特別に定式化されたものである。 2つの主要なデータセットに関する大規模な実験は、ストレッチ検出とポイントクラウドセグメンテーションモデルによって設定された既存のベンチマークを上回る結果をもたらしました。 後処理段階にマルチクラスタリングとカーブフィッティングを組み込むことで,ストレッチ検出におけるノイズを大幅に低減し,精度0.8744まで精度を向上する。 特にCurbNetは、わずか0.15mの許容度で0.95以上の例外的な平均値を達成したため、新しいベンチマークが確立された。 さらに、相関的な実世界の実験とデータセットは相互に検証し、CurbNetの優れた検出能力と堅牢な一般化性を固める。

Curb detection is an important function in intelligent driving and can be used to determine drivable areas of the road. However, curbs are difficult to detect due to the complex road environment. This paper introduces CurbNet, a novel framework for curb detection, leveraging point cloud segmentation. Addressing the dearth of comprehensive curb datasets and the absence of 3D annotations, we have developed the 3D-Curb dataset, encompassing 7,100 frames, which represents the largest and most categorically diverse collection of curb point clouds currently available. Recognizing that curbs are primarily characterized by height variations, our approach harnesses spatially-rich 3D point clouds for training. To tackle the challenges presented by the uneven distribution of curb features on the xy-plane and their reliance on z-axis high-frequency features, we introduce the multi-scale and channel attention (MSCA) module, a bespoke solution designed to optimize detection performance. Moreover, we propose an adaptive weighted loss function group, specifically formulated to counteract the imbalance in the distribution of curb point clouds relative to other categories. Our extensive experimentation on 2 major datasets has yielded results that surpass existing benchmarks set by leading curb detection and point cloud segmentation models. By integrating multi-clustering and curve fitting techniques in our post-processing stage, we have substantially reduced noise in curb detection, thereby enhancing precision to 0.8744. Notably, CurbNet has achieved an exceptional average metrics of over 0.95 at a tolerance of just 0.15m, thereby establishing a new benchmark. Furthermore, corroborative real-world experiments and dataset analyzes mutually validate each other, solidifying CurbNet's superior detection proficiency and its robust generalizability.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# ニューラルネットワークのためのクラスタベース正規化層

Cluster-Based Normalization Layer for Neural Networks ( http://arxiv.org/abs/2403.16798v1 )

ライセンス: Link先を確認
Bilal Faye, Hanane Azzag, Mustapha Lebbah, (参考訳) ディープラーニングは、内部共変量シフト、ラベルシフト、消失/露出勾配、オーバーフィッティング、計算複雑性など、ニューラルネットワークのトレーニングにおいて重大な課題に直面している。 バッチ正規化のような従来の正規化手法は、これらの問題のいくつかに取り組むことを目的としているが、それらは適応性を制限する仮定に依存することが多い。 Mixture Normalizationは、複数のガウス分布を扱うために計算ハードルに直面している。 本稿では, クラスタベース正規化 (CB-Norm) と, クラスタベース正規化 (UCB-Norm) の2つの変種について述べる。 CB-Normはガウス混合モデルを利用して、勾配安定性と学習加速度に関する問題に対処する。 教師付き変種であるSCB-Normでは、割り当てられたクラスタに基づいてアクティベーションを正規化するために、事前に定義されたデータパーティショニング(クラスタと呼ばれる)を導入する仕組みが導入された。 このクラスタ駆動のアプローチは、ガウス混合モデルに従う空間を生成する。 一方、教師なしのUCB-Normは、トレーニング中にニューロンの活性化を動的にクラスタし、事前に定義されたデータパーティション(クラスタ)に頼ることなく、タスク固有の課題に適応する。 この2つのアプローチは、多様な学習シナリオに対処する際の柔軟性を保証する。 CB-Normは、各混合成分(アクティベーション空間のクラスタ)のパラメータがディープニューラルネットワークの重みとなる1ステップの正規化アプローチを革新的に採用している。 この適応的なクラスタリングプロセスは、トレーニング中のディープニューラルネットワークタスクのクラスタリングと解決の両方に対処し、フィールドにおける顕著な進歩を示す。

Deep learning faces significant challenges during the training of neural networks, including internal covariate shift, label shift, vanishing/exploding gradients, overfitting, and computational complexity. While conventional normalization methods, such as Batch Normalization, aim to tackle some of these issues, they often depend on assumptions that constrain their adaptability. Mixture Normalization faces computational hurdles in its pursuit of handling multiple Gaussian distributions. This paper introduces Cluster-Based Normalization (CB-Norm) in two variants - Supervised Cluster-Based Normalization (SCB-Norm) and Unsupervised Cluster-Based Normalization (UCB-Norm) - proposing a groundbreaking one-step normalization approach. CB-Norm leverages a Gaussian mixture model to specifically address challenges related to gradient stability and learning acceleration. For SCB-Norm, a supervised variant, the novel mechanism involves introducing predefined data partitioning, termed clusters, to normalize activations based on the assigned cluster. This cluster-driven approach creates a space that conforms to a Gaussian mixture model. On the other hand, UCB-Norm, an unsupervised counterpart, dynamically clusters neuron activations during training, adapting to task-specific challenges without relying on predefined data partitions (clusters). This dual approach ensures flexibility in addressing diverse learning scenarios. CB-Norm innovatively uses a one-step normalization approach, where parameters of each mixture component (cluster in activation space) serve as weights for deep neural networks. This adaptive clustering process tackles both clustering and resolution of deep neural network tasks concurrently during training, signifying a notable advancement in the field.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# RGBに基づくワンショットビュープランニングのための3次元拡散モデルからの先行点の抽出

Exploiting Priors from 3D Diffusion Models for RGB-Based One-Shot View Planning ( http://arxiv.org/abs/2403.16803v1 )

ライセンス: Link先を確認
Sicong Pan, Liren Jin, Xuying Huang, Cyrill Stachniss, Marija Popović, Maren Bennewitz, (参考訳) オブジェクト再構成は、環境との相互作用を必要とする多くの自律ロボットタスクに関係している。 このようなシナリオにおける重要な課題は、最初に未知のオブジェクトを再構築するための情報的測定を収集するビューの設定を計画することである。 ワンショットビュープランニングは、ビュー構成を予測し、すべてのビューを同時に接続する最も短いパスを計画することで、効率的なデータ収集を可能にする。 しかしながら、オブジェクトに関する幾何学的先行は、ワンショットビュープランニングを実行するために必要である。 本研究では,拡散モデルの強力な3次元生成能力を先行として活用したワンショットビュー計画手法を提案する。 このような幾何学的前提をパイプラインに組み込むことで、再構成対象の1枚のRGB画像から始まる効果的なワンショットビュープランニングを実現する。 シミュレーションと実世界のセットアップにおける計画実験は、我々のアプローチがオブジェクト再構成の品質と移動コストのバランスをよく保っていることを示唆している。

Object reconstruction is relevant for many autonomous robotic tasks that require interaction with the environment. A key challenge in such scenarios is planning view configurations to collect informative measurements for reconstructing an initially unknown object. One-shot view planning enables efficient data collection by predicting view configurations and planning the globally shortest path connecting all views at once. However, geometric priors about the object are required to conduct one-shot view planning. In this work, we propose a novel one-shot view planning approach that utilizes the powerful 3D generation capabilities of diffusion models as priors. By incorporating such geometric priors into our pipeline, we achieve effective one-shot view planning starting with only a single RGB image of the object to be reconstructed. Our planning experiments in simulation and real-world setups indicate that our approach balances well between object reconstruction quality and movement cost.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# TEI2GO: 時間的表現の高速同定のための多言語的アプローチ

TEI2GO: A Multilingual Approach for Fast Temporal Expression Identification ( http://arxiv.org/abs/2403.16804v1 )

ライセンス: Link先を確認
Hugo Sousa, Ricardo Campos, Alípio Jorge, (参考訳) テンポラルな表現の識別は、自然言語で書かれたテキストを理解するために不可欠である。 HeidelTimeのような非常に効率的なシステムは存在するが、大規模なアプリケーションや運用環境では、実行時のパフォーマンスが制限されている。 本稿では, TEI2GOモデルを導入し, HeidelTimeの有効性に適合するが, ランタイムが大幅に向上し, 6言語をサポートし, そのうち4言語で最先端の成果が得られた。 TEI2GOモデルをトレーニングするために,手動で注釈付けされた参照コーパスと‘Professor HeidelTime'’を開発した。 このコーパスは、合計で38,069ドルのドキュメント(6言語以上)と1050,921ドルの時間表現を含む。 モデルがどのように作成されたかを説明することで、研究コミュニティがモデルをさらに探求し、洗練し、追加の言語やドメインに拡張することを目指している。 コード、アノテーション、モデルは、コミュニティの探索と使用のために公開されています。 モデルはシームレスな統合とアプリケーションのためにHuggingFace上で便利です。

Temporal expression identification is crucial for understanding texts written in natural language. Although highly effective systems such as HeidelTime exist, their limited runtime performance hampers adoption in large-scale applications and production environments. In this paper, we introduce the TEI2GO models, matching HeidelTime's effectiveness but with significantly improved runtime, supporting six languages, and achieving state-of-the-art results in four of them. To train the TEI2GO models, we used a combination of manually annotated reference corpus and developed ``Professor HeidelTime'', a comprehensive weakly labeled corpus of news texts annotated with HeidelTime. This corpus comprises a total of $138,069$ documents (over six languages) with $1,050,921$ temporal expressions, the largest open-source annotated dataset for temporal expression identification to date. By describing how the models were produced, we aim to encourage the research community to further explore, refine, and extend the set of models to additional languages and domains. Code, annotations, and models are openly available for community exploration and use. The models are conveniently on HuggingFace for seamless integration and application.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# EU AI法をナビゲートする - 安全クリティカルな製品へのコンプライアンスの方法論的アプローチ

Navigating the EU AI Act: A Methodological Approach to Compliance for Safety-critical Products ( http://arxiv.org/abs/2403.16808v1 )

ライセンス: Link先を確認
J. Kelly, S. Ali Zafar, L. Heidemann, J. Zacchi, D. Espinoza, N. Mata, (参考訳) 2023年12月、欧州議会は暫定的にEUのAI法に同意した。 この前例のないAIシステムの規制枠組みは、AI製品の安全性、合法性、信頼性を保証するためのガイドラインを定めている。 本稿では,製品の品質モデルを活用することで,リスクの高いAIシステムに対するEU AI Act要件を解釈するための方法論を提案する。 まず,AIシステムに対する製品品質モデルの拡張を提案し,現行の品質モデルではカバーされない法に関する属性を取り入れた。 我々は、アクト要件を関連する品質特性にマッピングし、それらを測定可能な特性に精製する。 次に、ステークホルダーレベルで技術的要件を導出するための契約ベースのアプローチを提案します。 これにより、確立された品質基準に準拠するだけでなく、リスクの高い(安全クリティカルな)AIシステムに関する法律で規定された規制要件にも準拠するAIシステムの開発と評価が容易になる。 いくつかの利害関係者が連携してEU AI Actの遵守を実現するような、例示的な自動車サプライチェーンのユースケースにおいて、この方法論の適用性を実証する。

In December 2023, the European Parliament provisionally agreed on the EU AI Act. This unprecedented regulatory framework for AI systems lays out guidelines to ensure the safety, legality, and trustworthiness of AI products. This paper presents a methodology for interpreting the EU AI Act requirements for high-risk AI systems by leveraging product quality models. We first propose an extended product quality model for AI systems, incorporating attributes relevant to the Act not covered by current quality models. We map the Act requirements to relevant quality attributes with the goal of refining them into measurable characteristics. We then propose a contract-based approach to derive technical requirements at the stakeholder level. This facilitates the development and assessment of AI systems that not only adhere to established quality standards, but also comply with the regulatory requirements outlined in the Act for high-risk (including safety-critical) AI systems. We demonstrate the applicability of this methodology on an exemplary automotive supply chain use case, where several stakeholders interact to achieve EU AI Act compliance.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# ループシステム最適化のためのLCMを用いたディジタルツイン

An LLM-Based Digital Twin for Optimizing Human-in-the Loop Systems ( http://arxiv.org/abs/2403.16809v1 )

ライセンス: Link先を確認
Hanqing Yang, Marie Siew, Carlee Joe-Wong, (参考訳) サイバー物理システムとモノのインターネット(CPS-IoT)アプリケーションとファンデーションモデルの普及は、環境のリアルタイム制御を活用する新しいアプリケーションを可能にしている。 例えば、HVAC(Heating, Ventilation and Air-Conditioning)システムのリアルタイム制御は、人間の快適さを必要とせず、エネルギー消費を減らすことができる。 しかし,Human-in-the-loop(HITL)システムでは,人間の好みに対するリアルタイムフィードバックの収集は困難である。 そこで我々は,CPS最適化における動的環境と困難データを扱うために,大規模言語モデル(LLM)を提案する。 本稿では,ショッピングモールにおける多様な集団(若年家族,高齢者など)の行動と熱的嗜好を模倣するLLMエージェントを用いたケーススタディを提案する。 循環型強化学習アルゴリズムであるAitL-RLは、LLMを物理環境の動的シミュレーションとして利用し、省エネと居住快適性のバランスをとる方法を学ぶ。 以上の結果から,LLMは大規模オープンスペース内での複雑な人口移動をシミュレートできることがわかった。 さらに、AitL-RLは、一般的なセットポイント制御のポリシーよりも優れたパフォーマンスを示し、適応性とパーソナライズされた意思決定が、CPS-IoTアプリケーションの効率的な最適化に重要であることを示唆している。 このケーススタディを通じて、システム適応性と効率を高めるために、LLMのような高度なファンデーションモデルをCPS-IoTに統合する可能性を実証する。 プロジェクトのコードはGitHubリポジトリにある。

The increasing prevalence of Cyber-Physical Systems and the Internet of Things (CPS-IoT) applications and Foundation Models are enabling new applications that leverage real-time control of the environment. For example, real-time control of Heating, Ventilation and Air-Conditioning (HVAC) systems can reduce its usage when not needed for the comfort of human occupants, hence reducing energy consumption. Collecting real-time feedback on human preferences in such human-in-the-loop (HITL) systems, however, is difficult in practice. We propose the use of large language models (LLMs) to deal with the challenges of dynamic environments and difficult-to-obtain data in CPS optimization. In this paper, we present a case study that employs LLM agents to mimic the behaviors and thermal preferences of various population groups (e.g. young families, the elderly) in a shopping mall. The aggregated thermal preferences are integrated into an agent-in-the-loop based reinforcement learning algorithm AitL-RL, which employs the LLM as a dynamic simulation of the physical environment to learn how to balance between energy savings and occupant comfort. Our results show that LLMs are capable of simulating complex population movements within large open spaces. Besides, AitL-RL demonstrates superior performance compared to the popular existing policy of set point control, suggesting that adaptive and personalized decision-making is critical for efficient optimization in CPS-IoT applications. Through this case study, we demonstrate the potential of integrating advanced Foundation Models like LLMs into CPS-IoT to enhance system adaptability and efficiency. The project's code can be found on our GitHub repository.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# 3次元cQEDプロセッサ上の行列積状態を用いたホログラフィックガウスボソンサンプリング

Holographic Gaussian Boson Sampling with Matrix Product States on 3D cQED Processors ( http://arxiv.org/abs/2403.16810v1 )

ライセンス: Link先を確認
Ningyi Lyu, Paul Bergold, Micheline B. Soley, Chen Wang, Victor S. Batista, (参考訳) 行列積状態表現を用いた3次元cQEDプロセッサ上でのマルチモード状態ベクトルシミュレーションのための量子回路を提案する。 これらの回路は、チオール含有アリルスルホンアミド配位子と腫瘍壊死因子-$$\alpha$変換酵素受容体との結合を図示するホログラフィックガウスボソンサンプリングに基づく分子ドッキングシミュレーションに適用された。 そこで本研究では,複数モードのcQEDデバイスを用いて,測定と再初期化により作業モードを再購入することで,マルチモードシステムのシミュレートを行うことができることを示す。 我々は,ホログラフィックアプローチを用いて,コンパクトな3D cQEDプロセッサ上で,幅広いGBSアプリケーションが実装可能であることを予測した。 量子ビットベースの量子コンピュータのシミュレーションは、フォック状態の切り詰められた拡張という観点から連続変数を表す回路を用いて、類似して実装することができる。

We introduce quantum circuits for simulations of multi-mode state-vectors on 3D cQED processors, using matrix product state representations. The circuits are demonstrated as applied to simulations of molecular docking based on holographic Gaussian boson sampling, as illustrated for binding of a thiol-containing aryl sulfonamide ligand to the tumor necrosis factor-$\alpha$ converting enzyme receptor. We show that cQED devices with a modest number of modes could be employed to simulate multimode systems by re-purposing working modes through measurement and re-initialization. We anticipate a wide range of GBS applications could be implemented on compact 3D cQED processors analogously, using the holographic approach. Simulations on qubit-based quantum computers could be implemented analogously, using circuits that represent continuous variables in terms of truncated expansions of Fock states.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# 人間-AIの議論に向けて:AIによる意思決定のためのLLMを活用した熟考AIの設計と評価

Towards Human-AI Deliberation: Design and Evaluation of LLM-Empowered Deliberative AI for AI-Assisted Decision-Making ( http://arxiv.org/abs/2403.16812v1 )

ライセンス: Link先を確認
Shuai Ma, Qiaoyi Chen, Xinru Wang, Chengbo Zheng, Zhenhui Peng, Ming Yin, Xiaojuan Ma, (参考訳) AIによる意思決定において、人間はしばしばAIの提案を受動的にレビューし、それを受け入れるか拒否するかを決定する。 このようなパラダイムでは、人間が分析的思考を誘発することは滅多になく、意見の相違が生じたときにAIに矛盾するニュアンスを伝えるのに困難に直面している。 この課題に対処するため,意思決定における人間-AIの意見の対立と議論を促進する新しい枠組みであるHuman-AI Deliberationを提案する。 人間の熟考の理論に基づいて、この枠組みは人間とAIを次元レベルの意見の引用、熟考的議論、意思決定の更新に携わる。 これは人間とドメイン固有のモデルの間のブリッジとして大きな言語モデル(LLM)を活用し、柔軟な対話インタラクションと忠実な情報提供を可能にします。 大学院入学タスクにおける探索的評価は、Deliberative AIが従来の説明可能なAI(XAI)アシスタントより優れており、人間の適切な依存度やタスクパフォーマンスが向上していることを示している。 参加者の行動、知覚、ユーザ体験、そしてオープンなフィードバックの混合メソッド分析に基づいて、我々は将来のAI支援意思決定ツール設計に意味を描き出す。

In AI-assisted decision-making, humans often passively review AI's suggestion and decide whether to accept or reject it as a whole. In such a paradigm, humans are found to rarely trigger analytical thinking and face difficulties in communicating the nuances of conflicting opinions to the AI when disagreements occur. To tackle this challenge, we propose Human-AI Deliberation, a novel framework to promote human reflection and discussion on conflicting human-AI opinions in decision-making. Based on theories in human deliberation, this framework engages humans and AI in dimension-level opinion elicitation, deliberative discussion, and decision updates. To empower AI with deliberative capabilities, we designed Deliberative AI, which leverages large language models (LLMs) as a bridge between humans and domain-specific models to enable flexible conversational interactions and faithful information provision. An exploratory evaluation on a graduate admissions task shows that Deliberative AI outperforms conventional explainable AI (XAI) assistants in improving humans' appropriate reliance and task performance. Based on a mixed-methods analysis of participant behavior, perception, user experience, and open-ended feedback, we draw implications for future AI-assisted decision tool design.
翻訳日:2024-03-26 19:53:16 公開日:2024-03-25
# 分散シフト下におけるグラフの一般化

Graphs Generalization under Distribution Shifts ( http://arxiv.org/abs/2403.16334v1 )

ライセンス: Link先を確認
Qin Tian, Wenjun Wang, Chen Zhao, Minglai Shao, Wang Zhang, Dong Li, (参考訳) 従来の機械学習手法は独立分布と同一分布の仮定に大きく依存しており、テスト分布がトレーニング分布から逸脱した場合に制限が課される。 この重要な問題に対処するために、未知の分布シフトに直面した場合の良好な一般化性能を達成することを目的とした、アウト・オブ・ディストリビューション(OOD)の一般化が重要なプロセスとなった。 しかし、グラフ構造化データに対するOOD法は、現在では明確性に欠けており、2つの主要な課題があるため、まだ探索されていない。 第一に、グラフ上の分布シフトはノード属性とグラフトポロジーで同時に発生することが多い。 第二に、多様な分布シフトの中で不変情報をキャプチャすることは、非常に難しい課題である。 本稿では,これらの障害を克服するために,グラフ学習不変領域ジェネレーション(GLIDER)という新しいフレームワークを導入する。 目的は,(1)属性分布やトポロジ構造をモデル化して,ドメイン間のバリエーションを多様化すること,(2)ターゲットがセマンティックラベルを予測しようとする表現空間における変化の相違を最小化することである。 大規模な実験結果から,本モデルはノード特徴量と位相構造量の分布シフトにおいて,領域間のノードレベルのOOD一般化のベースライン法よりも優れていたことが示唆された。

Traditional machine learning methods heavily rely on the independent and identically distribution assumption, which imposes limitations when the test distribution deviates from the training distribution. To address this crucial issue, out-of-distribution (OOD) generalization, which aims to achieve satisfactory generalization performance when faced with unknown distribution shifts, has made a significant process. However, the OOD method for graph-structured data currently lacks clarity and remains relatively unexplored due to two primary challenges. Firstly, distribution shifts on graphs often occur simultaneously on node attributes and graph topology. Secondly, capturing invariant information amidst diverse distribution shifts proves to be a formidable challenge. To overcome these obstacles, in this paper, we introduce a novel framework, namely Graph Learning Invariant Domain genERation (GLIDER). The goal is to (1) diversify variations across domains by modeling the potential seen or unseen variations of attribute distribution and topological structure and (2) minimize the discrepancy of the variation in a representation space where the target is to predict semantic labels. Extensive experiment results indicate that our model outperforms baseline methods on node-level OOD generalization across domains in distribution shift on node features and topological structures simultaneously.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-25
# MEDDAP: 多様化パイプラインによる医療データセットの強化

MEDDAP: Medical Dataset Enhancement via Diversified Augmentation Pipeline ( http://arxiv.org/abs/2403.16335v1 )

ライセンス: Link先を確認
Yasamin Medghalchi, Niloufar Zakariaei, Arman Rahmim, Ilker Hacihaliloglu, (参考訳) ディープニューラルネットワーク(DNN)の有効性は、利用可能なトレーニングデータの豊富さと正確性に大きく依存している。 しかし、特に医療従事者がすでに業務に従事している場合において、大規模なデータ収集や注釈付けは費用がかかり、時間もかかることが多い。 さらに, 医療領域において, 異なる装置の設定やトランスデューサの手動操作によって異なる超音波画像を扱う場合, 画像キャプチャの様々なシナリオにおいて, モデルが堅牢であることを保証することが重要である。 この課題に対処するため、我々はMEDDAPと呼ばれる新しいパイプラインを導入し、Stable Diffusion(SD)モデルを利用して既存の小さなデータセットを拡張し、新しい情報付きラベル付きサンプルを自動的に生成する。 SDの事前訓練されたチェックポイントは、通常、自然なイメージに基づいており、医療画像のためにそれらをトレーニングするには、重いパラメータのためにかなりのGPUリソースが必要である。 この課題を克服するために,超音波応用に特化した新しい微調整法であるUSLoRA(Ultrasound Low-Rank Adaptation)を導入する。 USLoRAはSD内の重量を選択的に微調整することを可能にし、SDのUNet部分のみを完全微調整するのに対してパラメータは0.1 %未満である。 データセットの多様性を高めるために、私たちは異なる形容詞を生成プロセスのプロンプトに組み込んで、異なる画像間での強度変化に対する分類器の認識を減らした。 このアプローチは、乳がんに関する臨床医の意思決定プロセスに触発され、腫瘍の形状が強度よりも重要な役割を担っていることが多い。 結論として、私たちのパイプラインは、元のデータセットでトレーニングされた分類器を上回るだけでなく、目に見えないデータセットに遭遇する際の優れたパフォーマンスも示しています。 ソースコードはhttps://github.com/yasamin-med/MEDDAPで入手できる。

The effectiveness of Deep Neural Networks (DNNs) heavily relies on the abundance and accuracy of available training data. However, collecting and annotating data on a large scale is often both costly and time-intensive, particularly in medical cases where practitioners are already occupied with their duties. Moreover, ensuring that the model remains robust across various scenarios of image capture is crucial in medical domains, especially when dealing with ultrasound images that vary based on the settings of different devices and the manual operation of the transducer. To address this challenge, we introduce a novel pipeline called MEDDAP, which leverages Stable Diffusion (SD) models to augment existing small datasets by automatically generating new informative labeled samples. Pretrained checkpoints for SD are typically based on natural images, and training them for medical images requires significant GPU resources due to their heavy parameters. To overcome this challenge, we introduce USLoRA (Ultrasound Low-Rank Adaptation), a novel fine-tuning method tailored specifically for ultrasound applications. USLoRA allows for selective fine-tuning of weights within SD, requiring fewer than 0.1\% of parameters compared to fully fine-tuning only the UNet portion of SD. To enhance dataset diversity, we incorporate different adjectives into the generation process prompts, thereby desensitizing the classifiers to intensity changes across different images. This approach is inspired by clinicians' decision-making processes regarding breast tumors, where tumor shape often plays a more crucial role than intensity. In conclusion, our pipeline not only outperforms classifiers trained on the original dataset but also demonstrates superior performance when encountering unseen datasets. The source code is available at https://github.com/yasamin-med/MEDDAP.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-25
# 多環境シナリオにおける予測推論

Predictive Inference in Multi-environment Scenarios ( http://arxiv.org/abs/2403.16336v1 )

ライセンス: Link先を確認
John C. Duchi, Suyash Gupta, Kuanhao Jiang, Pragya Sur, (参考訳) 有効な信頼区間を構築するという課題に対処し、複数の環境にまたがる予測の問題に対処する。 これらの問題に適した2種類のカバレッジについて検討し、ジャックナイフとスプリットコンフォーマルな手法を拡張して、そのような非古典的で階層的なデータ生成シナリオにおいて、分布のないカバレッジを得る方法を示す。 コントリビューションには、非実数値応答の設定の拡張や、これらの一般的な問題における予測推論の一貫性の理論も含まれている。 本研究では,従来の階層的データを用いた予測推論手法と方法開発手法の両方に適用可能な,問題の難易度に適応する新しいリサイズ手法を実証し,テスト環境からの限られた情報を用いた予測セットサイズを削減し,その手法の実用性を示すとともに,ニューロケミカルセンシングと種分類データセットを用いて評価する。

We address the challenge of constructing valid confidence intervals and sets in problems of prediction across multiple environments. We investigate two types of coverage suitable for these problems, extending the jackknife and split-conformal methods to show how to obtain distribution-free coverage in such non-traditional, hierarchical data-generating scenarios. Our contributions also include extensions for settings with non-real-valued responses and a theory of consistency for predictive inference in these general problems. We demonstrate a novel resizing method to adapt to problem difficulty, which applies both to existing approaches for predictive inference with hierarchical data and the methods we develop; this reduces prediction set sizes using limited information from the test environment, a key to the methods' practical performance, which we evaluate through neurochemical sensing and species classification datasets.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-25
# 魚眼カメラ視覚知覚課題における映像圧縮アーチファクトの影響

Impact of Video Compression Artifacts on Fisheye Camera Visual Perception Tasks ( http://arxiv.org/abs/2403.16338v1 )

ライセンス: Link先を確認
Madhumitha Sakthi, Louis Kerofsky, Varun Ravi Kumar, Senthil Yogamani, (参考訳) 自律運転システムは、堅牢で安全なシステムを構築するのに必要なさまざまなシナリオをカバーするために、広範なデータ収集スキームを必要とする。 データボリュームはエクサバイトの順で、長期間保存されなければならない(つまり、車両のライフサイクルの10年以上)。 ロスレス圧縮は十分な圧縮比を提供していないため、失われたビデオ圧縮が検討されている。 損失のあるビデオ圧縮アーティファクトが認識アルゴリズムの性能に影響を与えないことを証明することが不可欠である。 しかし、この領域には確固たる結論を出すための仕事が限られている。 特に魚眼カメラには、高い放射歪みを持ち、圧縮がより高いアーティファクトを持つような作業は存在しない。 フィッシュアイカメラは3Dオブジェクト検出タスクのために自動車システムで一般的に使用される。 本研究では,標準的な映像圧縮コーデックが広帯域魚眼カメラ画像に与える影響を初めて解析する。 我々は,映像コーデックのデータセットと時間的予測に依存して,到達可能な圧縮を無視できることを示す。 魚眼画像のアーチファクトの性能を評価するために,放射状歪みを意識した地域計量法を提案する。 さらに,最新のVVCコーデックのアフィンモードパラメータを推定するための新しい手法を提案する。

Autonomous driving systems require extensive data collection schemes to cover the diverse scenarios needed for building a robust and safe system. The data volumes are in the order of Exabytes and have to be stored for a long period of time (i.e., more than 10 years of the vehicle's life cycle). Lossless compression doesn't provide sufficient compression ratios, hence, lossy video compression has been explored. It is essential to prove that lossy video compression artifacts do not impact the performance of the perception algorithms. However, there is limited work in this area to provide a solid conclusion. In particular, there is no such work for fisheye cameras, which have high radial distortion and where compression may have higher artifacts. Fisheye cameras are commonly used in automotive systems for 3D object detection task. In this work, we provide the first analysis of the impact of standard video compression codecs on wide FOV fisheye camera images. We demonstrate that the achievable compression with negligible impact depends on the dataset and temporal prediction of the video codec. We propose a radial distortion-aware zonal metric to evaluate the performance of artifacts in fisheye images. In addition, we present a novel method for estimating affine mode parameters of the latest VVC codec, and suggest some areas for improvement in video codecs for the application to fisheye imagery.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-25
# 絡み合いとは何か?

What is Entanglement? ( http://arxiv.org/abs/2403.16339v1 )

ライセンス: Link先を確認
Chon-Fai Kam, Zhong-Tang Wu, (参考訳) アインシュタインの時代からのパズルである絡み合いは、量子計算の台頭によってますます重要になっている。 しかし、それは何なのか? 歴史的に、絡み合いは正確に定義できるが、否定的である。 本稿では, 絡み合った状態の4つの相互接続定義について検討する。

Entanglement, a puzzle since Einstein's time, has become increasingly crucial with the rise of quantum computation. But what exactly is it? Historically , entanglement can be precisely defined, but only negatively. In this article, we explore four interconnected definitions of entangled states.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-25
# LLM編集によるファセット生成の高速化

Enhanced Facet Generation with LLM Editing ( http://arxiv.org/abs/2403.16345v1 )

ライセンス: Link先を確認
Joosung Lee, Jinhong Kim, (参考訳) 情報検索においては,ユーザクエリのファセット識別が重要な課題である。 検索サービスがユーザのクエリのファセットを認識することができれば、より広い範囲の検索結果をユーザに提供できる可能性がある。 従来の研究は,検索によって得られた検索文書や関連クエリを活用することで,ファセット予測を強化することができる。 しかし、検索エンジンがモデルの一部として動作する場合、他のアプリケーションに拡張することは困難である。 まず、検索エンジンは定期的に更新される。 したがって、追加情報はトレーニングやテスト中に変更され、パフォーマンスが低下する可能性がある。 第2の課題は、公開検索エンジンが内部文書を検索できないことだ。 そのため、社内のプライベートドメインからのドキュメントを組み込むために、別々に検索システムを構築する必要がある。 本稿では,検索エンジンを使わずにクエリのみを入力とし,ファセットを予測可能なフレームワークに重点を置く2つの戦略を提案する。 最初の戦略は、SERPを予測するマルチタスク学習である。 ソースではなくターゲットとしてSERPを活用することで、提案モデルは外部モジュールに頼ることなくクエリを深く理解する。 第2の戦略は、Large Language Model (LLM)と小さなモデルを組み合わせることで、ファセットを強化することである。 小モデルとLLMを個別にファセット生成するのではなく組み合わせた場合、全体的な性能が向上する。

In information retrieval, facet identification of a user query is an important task. If a search service can recognize the facets of a user's query, it has the potential to offer users a much broader range of search results. Previous studies can enhance facet prediction by leveraging retrieved documents and related queries obtained through a search engine. However, there are challenges in extending it to other applications when a search engine operates as part of the model. First, search engines are constantly updated. Therefore, additional information may change during training and test, which may reduce performance. The second challenge is that public search engines cannot search for internal documents. Therefore, a separate search system needs to be built to incorporate documents from private domains within the company. We propose two strategies that focus on a framework that can predict facets by taking only queries as input without a search engine. The first strategy is multi-task learning to predict SERP. By leveraging SERP as a target instead of a source, the proposed model deeply understands queries without relying on external modules. The second strategy is to enhance the facets by combining Large Language Model (LLM) and the small model. Overall performance improves when small model and LLM are combined rather than facet generation individually.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-25
# オプトメカニカルリングキャビティにおける片方向操舵方向の操作

Manipulating the direction of one-way steering in an optomechanical ring cavity ( http://arxiv.org/abs/2403.16346v1 )

ライセンス: Link先を確認
Jamal El Qars, Benachir Boukhris, Ahmed Tirbiyine, Abdelaziz Labrag, (参考訳) 量子ステアリング(英: Quantum steering)とは、局所的な測定によって観測者の量子状態にリモートで影響を及ぼすために、非分離的な量子相関を利用することの可能性である。 絡み合いやベル非局所性とは異なり、量子ステアリングは固有の非対称性を示し、多くの非対称な量子情報処理タスクに関係している。 ここでは,2つのメカニカルモード間のガウス量子ステアリングについて検討する。 実験的に実現可能なパラメータを用いて,2つのモードの状態を両方向のステアリングと一方方向のステアリングで表すことができることを示す。 不均衡な損失やノイズを使用する代わりに、一方方向の操舵方向を制御するための簡単な実用的な方法を提案する。 研究モードのステアリングとエンタングルメントの比較研究は、ステアリングとエンタングルメントの両方が突然の死のような振る舞いをすることを示している。 特にステアリングは、絡み合いによって常に上向きに保たれている熱雑音に対してより脆弱である。 提案手法は一方のデバイス非依存の量子鍵分布において有意義であり,そのようなプロトコルのセキュリティは基本的にステアリングの方向に依存する。

Quantum steering refers to the apparent possibility of exploiting nonseparable quantum correlations to remotely influence the quantum state of an observer via local measurements. Different from entanglement and Bell nonlocality, quantum steering exhibits an inherent asymmetric property, which makes it relevant for many asymmetric quantum information processing tasks. Here, we study Gaussian quantum steering between two mechanical modes in an optomechanical ring cavity. Using experimentally feasible parameters, we show that the state of the two considered modes can exhibit two-way steering and even one-way steering. Instead of using unbalanced losses or noises, we propose a simple practical way to control the direction of one-way steering. A comparative study between the steering and entanglement of the studied modes shows that both steering and entanglement undergo a sudden death-like behavior. In particular, steering is found more fragile against thermal noise remaining constantly upper bounded by entanglement. The proposed scheme may be meaningful for one-sided device-independent quantum key distribution, where the security of such protocol depends fundamentally on the direction of steering.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-25
# ソフトウェアレビューにおけるChatGPT誤検出

ChatGPT Incorrectness Detection in Software Reviews ( http://arxiv.org/abs/2403.16347v1 )

ライセンス: Link先を確認
Minaoar Hossain Tanzil, Junaed Younus Khan, Gias Uddin, (参考訳) 我々は、SEタスクにChatGPTのようなジェネレーティブAIベースのチャットボットをどのように利用するかを理解するために、135人のソフトウェアエンジニアリング(SE)実践者を対象に調査を行った。 ソフトウェアライブラリの選択のようなSEタスクにChatGPTを使用したいと思っていますが、多くの場合、ChatGPTレスポンスの真偽を心配しています。 そこで我々は,ChatGPT応答の誤りを自動的に検出するCID(ChatGPT Incorrectness Detector)を開発した。 CIDは、ChatGPTへの反復的なプロンプトに基づいて、文脈的に似ているがテキスト的に異なる質問(テキストのメタモルフィックな関係を利用したアプローチ)を問う。 CIDの根底にある原理は、ある質問に対して、他の応答(質問の複数のインカーネーション全体)とは異なる応答は、おそらく誤った反応であるということである。 ライブラリ選択のベンチマーク研究において、CIDはF1スコア0.74~0.75でChatGPTからの誤った応答を検出できることを示した。

We conducted a survey of 135 software engineering (SE) practitioners to understand how they use Generative AI-based chatbots like ChatGPT for SE tasks. We find that they want to use ChatGPT for SE tasks like software library selection but often worry about the truthfulness of ChatGPT responses. We developed a suite of techniques and a tool called CID (ChatGPT Incorrectness Detector) to automatically test and detect the incorrectness in ChatGPT responses. CID is based on the iterative prompting to ChatGPT by asking it contextually similar but textually divergent questions (using an approach that utilizes metamorphic relationships in texts). The underlying principle in CID is that for a given question, a response that is different from other responses (across multiple incarnations of the question) is likely an incorrect response. In a benchmark study of library selection, we show that CID can detect incorrect responses from ChatGPT with an F1-score of 0.74 - 0.75.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-25
# 3D-EffiViTCaps:医用画像分割用カプセル付き3D高能率ビジョントランス

3D-EffiViTCaps: 3D Efficient Vision Transformer with Capsule for Medical Image Segmentation ( http://arxiv.org/abs/2403.16350v1 )

ライセンス: Link先を確認
Dongwei Gan, Ming Chang, Juan Chen, (参考訳) 医用イメージセグメンテーション(MIS)は、様々な臓器を微細にセグメンテーションすることを目的としている。 より優れたセグメンテーションのために、部分と全体像からグローバルな情報を把握する必要があるが、臨床にはセグメンテーションの効率に一定の要件があることが多い。 畳み込みニューラルネットワーク(CNN)はMISでかなりの成果を上げている。 しかし,グローバルなコンテキスト情報を完全に収集することは困難であり,プール層が情報損失を引き起こす可能性がある。 カプセルネットワークはCNNの利点と、CNNがしない相対的な位置などの付加的な情報を組み合わせており、近年MISにおいていくつかの利点を実証している。 Vision Transformer (ViT) は、視覚タスクにトランスフォーマーを使用する。 注意機構に基づくトランスフォーマーは、優れたグローバルインダクティブモデリング機能を備え、長距離情報のキャプチャが期待できる。 さらに、ViTをより軽量にし、モデルの複雑さを最小化し、効率を向上させるための研究も行われている。 本稿では,3DカプセルブロックとMIS用3D効率的なViTブロックを組み合わせた,U字型3Dエンコーダデコーダネットワークである3D-EffiViTCapsを提案する。 我々のエンコーダはカプセルブロックとEfficientViTブロックを使用して局所的およびグローバルなセマンティック情報をより効率的かつ効率的に取得し、デコーダはCNNブロックとEfficientViTブロックを使用してセグメンテーションのフナー詳細を捕捉する。 iSeg-2017, Hippocampus, Cardiacなどのさまざまなデータセットを用いて,従来の3D CNNベース, 3D Capsuleベース, 3D Transformerベースモデルよりも優れた3D-EffiViTCapsの性能と効率を検証する実験を行った。 主ブロック上での一連のアブレーション実験も実施する。 私たちのコードは、https://github.com/HidNeuron/3D-EffiViTCapsで利用可能です。

Medical image segmentation (MIS) aims to finely segment various organs. It requires grasping global information from both parts and the entire image for better segmenting, and clinically there are often certain requirements for segmentation efficiency. Convolutional neural networks (CNNs) have made considerable achievements in MIS. However, they are difficult to fully collect global context information and their pooling layer may cause information loss. Capsule networks, which combine the benefits of CNNs while taking into account additional information such as relative location that CNNs do not, have lately demonstrated some advantages in MIS. Vision Transformer (ViT) employs transformers in visual tasks. Transformer based on attention mechanism has excellent global inductive modeling capabilities and is expected to capture longrange information. Moreover, there have been resent studies on making ViT more lightweight to minimize model complexity and increase efficiency. In this paper, we propose a U-shaped 3D encoder-decoder network named 3D-EffiViTCaps, which combines 3D capsule blocks with 3D EfficientViT blocks for MIS. Our encoder uses capsule blocks and EfficientViT blocks to jointly capture local and global semantic information more effectively and efficiently with less information loss, while the decoder employs CNN blocks and EfficientViT blocks to catch ffner details for segmentation. We conduct experiments on various datasets, including iSeg-2017, Hippocampus and Cardiac to verify the performance and efficiency of 3D-EffiViTCaps, which performs better than previous 3D CNN-based, 3D Capsule-based and 3D Transformer-based models. We further implement a series of ablation experiments on the main blocks. Our code is available at: https://github.com/HidNeuron/3D-EffiViTCaps.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-25
# ChatDBG: AIによるデバッグアシスタント

ChatDBG: An AI-Powered Debugging Assistant ( http://arxiv.org/abs/2403.16354v1 )

ライセンス: Link先を確認
Kyla Levin, Nicolas van Kempen, Emery D. Berger, Stephen N. Freund, (参考訳) 本稿では,AIを利用した初のデバッギングアシスタントChatDBGを提案する。 ChatDBGは、大型言語モデル(LLM)を統合し、従来のデバッガの機能とユーザフレンドリ性を著しく強化する。 ChatDBGは、プログラマがデバッガとの共同対話を行い、プログラム状態に関する複雑な質問をすることで、クラッシュやアサーション障害の根本原因分析を実行し、“なぜx nullなのか? これらのクエリを処理するため、ChatDBGはLCMに、スタックをナビゲートしてプログラム状態を検査するコマンドを発行することで、車輪を取り、デバッグする自主性を与え、その結果を報告し、プログラマに制御を返す。 当社のChatDBGプロトタイプは,ネイティブコード用のLLDB,GDB,WinDBG,Python用のPdbなど,標準的なデバッガと統合しています。 既知のバグのあるC/C++コードやスタンドアロンのスクリプトやJupyterノートブックを含むPythonコードのスイートなど、さまざまなコードに対する評価は、ChatDBGがルート原因を分析し、バグを説明し、広範囲の現実世界のエラーに対する正確な修正を生成することを実証しています。 Pythonプログラムでは、ひとつのクエリが67%の動作可能なバグ修正につながった。 ChatDBGは急速に普及しており、すでに3万回近くダウンロードされている。

This paper presents ChatDBG, the first AI-powered debugging assistant. ChatDBG integrates large language models (LLMs) to significantly enhance the capabilities and user-friendliness of conventional debuggers. ChatDBG lets programmers engage in a collaborative dialogue with the debugger, allowing them to pose complex questions about program state, perform root cause analysis for crashes or assertion failures, and explore open-ended queries like "why is x null?". To handle these queries, ChatDBG grants the LLM autonomy to take the wheel and drive debugging by issuing commands to navigate through stacks and inspect program state; it then reports its findings and yields back control to the programmer. Our ChatDBG prototype integrates with standard debuggers including LLDB, GDB, and WinDBG for native code and Pdb for Python. Our evaluation across a diverse set of code, including C/C++ code with known bugs and a suite of Python code including standalone scripts and Jupyter notebooks, demonstrates that ChatDBG can successfully analyze root causes, explain bugs, and generate accurate fixes for a wide range of real-world errors. For the Python programs, a single query led to an actionable bug fix 67% of the time; one additional follow-up query increased the success rate to 85%. ChatDBG has seen rapid uptake; it has already been downloaded nearly 30,000 times.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-25
# ChebMixer: MLP Mixerによる効率的なグラフ表現学習

ChebMixer: Efficient Graph Representation Learning with MLP Mixer ( http://arxiv.org/abs/2403.16358v1 )

ライセンス: Link先を確認
Xiaoyan Kui, Haonan Yan, Qinsong Li, Liming Chen, Beiji Zou, (参考訳) グラフニューラルネットワークはグラフ表現、特にグラフトランスフォーマーの学習において顕著な成功を収めている。 しかし、グラフ変換器は一般的にノードをトークンとして扱い、自己アテンション計算のノード数に関して二次的な複雑さをもたらす。 グラフ MLP Mixer はコンピュータビジョンからの効率的な MLP Mixer 技術を用いてこの問題に対処する。 しかし、グラフトークンを抽出する時間を要するプロセスは、その性能を制限している。 本稿では,ChebMixerという新しいアーキテクチャを提案する。ChebMixerは高速なChebyshev多項式を用いたスペクトルフィルタを用いてトークン列を抽出する新しいグラフMLPミキサーである。 まず,高速なチェビシェフ多項式に基づくスペクトルフィルタリングにより,グラフノードのマルチスケール表現を生成する。 次に,各ノードのマルチスケール表現をトークン列とみなし,有効なMLPミキサーを用いてノード表現を洗練する。 最後に、チェビシェフ補間を通してノードのマルチスケール表現を集約する。 MLP Mixerの強力な表現能力と高速な計算特性により、より情報性の高いノード表現を素早く抽出し、下流タスクの性能を向上させることができる。 実験の結果,グラフノード分類から医用画像セグメント化まで,さまざまなシナリオにおいて大きな改善が見られた。

Graph neural networks have achieved remarkable success in learning graph representations, especially graph Transformer, which has recently shown superior performance on various graph mining tasks. However, graph Transformer generally treats nodes as tokens, which results in quadratic complexity regarding the number of nodes during self-attention computation. The graph MLP Mixer addresses this challenge by using the efficient MLP Mixer technique from computer vision. However, the time-consuming process of extracting graph tokens limits its performance. In this paper, we present a novel architecture named ChebMixer, a newly graph MLP Mixer that uses fast Chebyshev polynomials-based spectral filtering to extract a sequence of tokens. Firstly, we produce multiscale representations of graph nodes via fast Chebyshev polynomial-based spectral filtering. Next, we consider each node's multiscale representations as a sequence of tokens and refine the node representation with an effective MLP Mixer. Finally, we aggregate the multiscale representations of nodes through Chebyshev interpolation. Owing to the powerful representation capabilities and fast computational properties of MLP Mixer, we can quickly extract more informative node representations to improve the performance of downstream tasks. The experimental results prove our significant improvements in a variety of scenarios ranging from graph node classification to medical image segmentation.
翻訳日:2024-03-26 16:26:58 公開日:2024-03-25
# RSTAR:4次元CBCTにおける回転ストリークアーティファクトの分離・循環的畳み込みによる低減

RSTAR: Rotational Streak Artifact Reduction in 4D CBCT using Separable and Circular Convolutions ( http://arxiv.org/abs/2403.16361v1 )

ライセンス: Link先を確認
Ziheng Deng, Hua Chen, Haibo Hu, Zhiyong Xu, Tianling Lyu, Yan Xi, Yang Chen, Jun Zhao, (参考訳) 4次元コーンビームCT(4D CBCT)は呼吸分解画像を提供し、放射線治療に用いられる。 しかし、呼吸運動を明らかにする能力は、イメージアーティファクトのコストがかかる。 生のプロジェクションデータは複数の呼吸段階に分類されるため、画像再構成に利用可能なコーンビームプロジェクションは限られている。 その結果、4D CBCT画像は厳しいストリークアーティファクトで覆われた。 この問題に対処するためにいくつかのディープラーニングに基づく手法が提案されているが、ほとんどのアルゴリズムは通常のネットワークモデルを用いており、4D CBCT画像に先立って固有の構造を無視している。 本稿では,4次元CBCT画像におけるストリークアーティファクトの起源と外観について検討し,ストリークアーティファクトは患者の呼吸とともに周期的な回転運動を示すことを示した。 このユニークな動きパターンは、時空間領域における所望の解剖学的構造とアーティファクトを区別するきっかけとなる。 その後、回転ストリークアーティファクトリダクションのための分離可能な円形畳み込みを用いた時空間ニューラルネットワーク RSTAR-Net を提案する。 この特別設計モデルは動的特徴を効果的に符号化し、4次元CBCT画像の復元を容易にする。 さらに、RSTAR-Netは軽量で計算効率も良い。 大規模な実験により提案手法の有効性が実証され, RSTAR-Netは比較法よりも優れた性能を示した。

Four-dimensional cone-beam computed tomography (4D CBCT) provides respiration-resolved images and can be used for image-guided radiation therapy. However, the ability to reveal respiratory motion comes at the cost of image artifacts. As raw projection data are sorted into multiple respiratory phases, there is a limited number of cone-beam projections available for image reconstruction. Consequently, the 4D CBCT images are covered by severe streak artifacts. Although several deep learning-based methods have been proposed to address this issue, most algorithms employ ordinary network models, neglecting the intrinsic structural prior within 4D CBCT images. In this paper, we first explore the origin and appearance of streak artifacts in 4D CBCT images.Specifically, we find that streak artifacts exhibit a periodic rotational motion along with the patient's respiration. This unique motion pattern inspires us to distinguish the artifacts from the desired anatomical structures in the spatiotemporal domain. Thereafter, we propose a spatiotemporal neural network named RSTAR-Net with separable and circular convolutions for Rotational Streak Artifact Reduction. The specially designed model effectively encodes dynamic image features, facilitating the recovery of 4D CBCT images. Moreover, RSTAR-Net is also lightweight and computationally efficient. Extensive experiments substantiate the effectiveness of our proposed method, and RSTAR-Net shows superior performance to comparison methods.
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# AgentFL: LLMベースのフォールトローカライゼーションをプロジェクトレベルコンテキストに拡張

AgentFL: Scaling LLM-based Fault Localization to Project-Level Context ( http://arxiv.org/abs/2403.16362v1 )

ライセンス: Link先を確認
Yihao Qin, Shangwen Wang, Yiling Lou, Jinhao Dong, Kaixin Wang, Xiaoling Li, Xiaoguang Mao, (参考訳) フォールトローカライゼーション(FL)は、デバッグプロセスにおいて不可欠なステップである。 コード理解の強力な能力により、最近のLarge Language Models(LLM)は、コードのバグを診断する上で有望なパフォーマンスを示している。 しかしながら、LLMが長いコンテキストを扱う上での限られた性能のため、既存のLLMベースの障害ローカライゼーションは、大きなコードスコープ(すなわち、ソフトウェアシステム全体)のバグの診断に苦労する小さなコードスコープ(メソッドやクラス)内のバグのローカライズに留まっている。 本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLを提案する。 人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。 それぞれのステップでAgentFLは、さまざまな専門知識を持つエージェントを雇う。 特に,テスト行動追跡,ドキュメントガイド検索,多言語対話といった一連の補助的戦略を採用し,各ステップの課題を克服する。 広く使われているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。 さらに,AgentFLにおけるコンポーネントの欠如をアブレーション研究で確認し,ユーザスタディを通じてAgentFLのユーザビリティを実証する。 最後に、コスト分析の結果、AgentFLは1つのバグに対して平均0.074ドルと97秒しか費やしていないことがわかった。

Fault Localization (FL) is an essential step during the debugging process. With the strong capabilities of code comprehension, the recent Large Language Models (LLMs) have demonstrated promising performance in diagnosing bugs in the code. Nevertheless, due to LLMs' limited performance in handling long contexts, existing LLM-based fault localization remains on localizing bugs within a small code scope (i.e., a method or a class), which struggles to diagnose bugs for a large code scope (i.e., an entire software system). To address the limitation, this paper presents AgentFL, a multi-agent system based on ChatGPT for automated fault localization. By simulating the behavior of a human developer, AgentFL models the FL task as a three-step process, which involves comprehension, navigation, and confirmation. Within each step, AgentFL hires agents with diversified expertise, each of which utilizes different tools to handle specific tasks. Particularly, we adopt a series of auxiliary strategies such as Test Behavior Tracking, Document-Guided Search, and Multi-Round Dialogue to overcome the challenges in each step. The evaluation on the widely used Defects4J-V1.2.0 benchmark shows that AgentFL can localize 157 out of 395 bugs within Top-1, which outperforms the other LLM-based approaches and exhibits complementarity to the state-of-the-art learning-based techniques. Additionally, we confirm the indispensability of the components in AgentFL with the ablation study and demonstrate the usability of AgentFL through a user study. Finally, the cost analysis shows that AgentFL spends an average of only 0.074 dollars and 97 seconds for a single bug.
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# 誘導拡散によるスクラッチからのポタントポゾンとバックドアの生成

Generating Potent Poisons and Backdoors from Scratch with Guided Diffusion ( http://arxiv.org/abs/2403.16365v1 )

ライセンス: Link先を確認
Hossein Souri, Arpit Bansal, Hamid Kazemi, Liam Fowl, Aniruddha Saha, Jonas Geiping, Andrew Gordon Wilson, Rama Chellappa, Tom Goldstein, Micah Goldblum, (参考訳) 現代のニューラルネットワークは、人間の最小限の検査でウェブスクラップされた大量のデータセットで訓練されることが多い。 この安全でないキュレーションパイプラインの結果、敵は悪意のあるデータをインターネットにアップロードし、被害者がスクラップしてトレーニングするのを待つことによって、結果のモデルを毒やバックドアにすることができる。 既存の毒物やバックドアを作るアプローチは、ランダムにサンプルしたクリーンなデータから始まり、ベースサンプルと呼ばれ、それらのサンプルを変更して毒を作る。 しかし、いくつかの塩基サンプルは、他のサンプルよりも有毒である可能性がある。 その結果, 試料を慎重に選別することで, より強力な毒を製造できる可能性が示唆された。 本研究では, 誘導拡散法を用いて, スクラッチから塩基サンプルを合成し, 従来の最先端の攻撃よりも強力な毒物やバックドアを発生させる。 誘導拡散毒(GDP)ベースサンプルは、下流の毒やバックドア攻撃と組み合わせて有効性を高めることができる。 私たちの実装コードは、https://github.com/hsouri/GDP で公開されています。

Modern neural networks are often trained on massive datasets that are web scraped with minimal human inspection. As a result of this insecure curation pipeline, an adversary can poison or backdoor the resulting model by uploading malicious data to the internet and waiting for a victim to scrape and train on it. Existing approaches for creating poisons and backdoors start with randomly sampled clean data, called base samples, and then modify those samples to craft poisons. However, some base samples may be significantly more amenable to poisoning than others. As a result, we may be able to craft more potent poisons by carefully choosing the base samples. In this work, we use guided diffusion to synthesize base samples from scratch that lead to significantly more potent poisons and backdoors than previous state-of-the-art attacks. Our Guided Diffusion Poisoning (GDP) base samples can be combined with any downstream poisoning or backdoor attack to boost its effectiveness. Our implementation code is publicly available at: https://github.com/hsouri/GDP .
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# 分散量子メモリによる量子ネットワークの強化

Quantum Networks Enhanced by Distributed Quantum Memories ( http://arxiv.org/abs/2403.16367v1 )

ライセンス: Link先を確認
Xiangyi Meng, Nicolò Lo Piparo, Kae Nemoto, István A. Kovács, (参考訳) 大規模量子通信ネットワークの構築には、ユニークな課題がある。 ここでは、量子通信ネットワークに分散された量子メモリのネットワーク全体でのシナジスティック利用が、根本的な利点をもたらすことを実証する。 まず、局所記憶を用いた量子通信の問題を古典的連続体パーコレーションモデルにマッピングする。 そして, このマッピングは, 分散メモリへのリモートアクセスを通じて, 絡み込み蒸留と中継プロトコルの連携により改善可能であることを示す。 この改良された写像は$\alpha$-percolationと呼ばれ、乱れた量子磁石の再正規化群処理のデシミネーション規則に類似したグラフマージ規則で定式化することができる。 これらのルールは任意の順序で実行可能であり、同じ最適結果が得られる。これは、' ` positive feedback' 機構の出現と空間的に切断された ' `hopping'' 通信コンポーネントの形成が特徴である。

Building large-scale quantum communication networks has its unique challenges. Here, we demonstrate that a network-wide synergistic usage of quantum memories distributed in a quantum communication network offers a fundamental advantage. We first map the problem of quantum communication with local usage of memories into a classical continuum percolation model. Then, we show that this mapping can be improved through a cooperation of entanglement distillation and relay protocols via remote access to distributed memories. This improved mapping, which we term $\alpha$-percolation, can be formulated in terms of graph-merging rules, analogous to the decimation rules of the renormalization group treatment of disordered quantum magnets. These rules can be performed in any order, yielding the same optimal result, which is characterized by the emergence of a ``positive feedback'' mechanism and the formation of spatially disconnected ``hopping'' communication components -- both marking significant improvements in quantum network connectivity.
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# SAMから効率的な画像復元モデルへのセマンティック前駆体蒸留

Distilling Semantic Priors from SAM to Efficient Image Restoration Models ( http://arxiv.org/abs/2403.16368v1 )

ライセンス: Link先を確認
Quan Zhang, Xiaoyu Liu, Wei Li, Hanting Chen, Junchao Liu, Jie Hu, Zhiwei Xiong, Chun Yuan, Yunhe Wang, (参考訳) 画像復元(IR)では、セグメンテーションモデルからセグメンテーションの事前情報を活用することが、性能向上のための一般的なアプローチである。 最近のセグメンテーション・アズ・モデル(SAM)は、IRタスクを強化するために先進的なセマンティック・プリエントを抽出する強力なツールとして登場した。 しかし、SAMの計算コストは、既存の小さなIRモデルと比較して、IRでは禁じられている。 セマンティック事前抽出のためのSAMの導入は、モデル推論効率をかなり損なう。 そこで本研究では,SAMのセマンティック知識を抽出し,推論プロセスに干渉することなく,IRモデルからの撤退を促進するための一般的なフレームワークを提案する。 具体的には, セマンティック先行蒸留法 (SPF) とセマンティック先行蒸留法 (SPD) で構成する。 SPFは、元のIRモデルによって予測される復元画像と、SAMによって予測される回復画像のセマンティックマスクの2つの種類の情報を融合する。 SPDは自己蒸留法を利用して、溶解したセマンティクスを蒸留し、元のIRモデルの性能を高める。 さらに,意味的特徴表現空間の整合性を確保するために,SPDのための意味的誘導関係(SGR)モジュールを設計する。 複数のIRモデルとタスクにまたがるフレームワークの有効性を実証する。

In image restoration (IR), leveraging semantic priors from segmentation models has been a common approach to improve performance. The recent segment anything model (SAM) has emerged as a powerful tool for extracting advanced semantic priors to enhance IR tasks. However, the computational cost of SAM is prohibitive for IR, compared to existing smaller IR models. The incorporation of SAM for extracting semantic priors considerably hampers the model inference efficiency. To address this issue, we propose a general framework to distill SAM's semantic knowledge to boost exiting IR models without interfering with their inference process. Specifically, our proposed framework consists of the semantic priors fusion (SPF) scheme and the semantic priors distillation (SPD) scheme. SPF fuses two kinds of information between the restored image predicted by the original IR model and the semantic mask predicted by SAM for the refined restored image. SPD leverages a self-distillation manner to distill the fused semantic priors to boost the performance of original IR models. Additionally, we design a semantic-guided relation (SGR) module for SPD, which ensures semantic feature representation space consistency to fully distill the priors. We demonstrate the effectiveness of our framework across multiple IR models and tasks, including deraining, deblurring, and denoising.
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# 不変性を用いた行動に基づく表現の学習

Learning Action-based Representations Using Invariance ( http://arxiv.org/abs/2403.16369v1 )

ライセンス: Link先を確認
Max Rudolph, Caleb Chuck, Kevin Black, Misha Lvovsky, Scott Niekum, Amy Zhang, (参考訳) 高次元観測を用いた頑健な強化学習エージェントは、多くの異種性障害の中で、関連する状態の特徴を識別できなければならない。 制御可能性をキャプチャする表現は、エージェント制御に影響を与えるものを決定することによって、これらの状態要素を識別する。 逆ダイナミクスや相互情報キャプチャといった手法は、限られた時間ステップで制御可能であるが、長い水平要素をキャプチャすることは難しい問題である。 ミオピックコントロールは、エージェントが壁に入る直前の瞬間をキャプチャできるが、エージェントが遠くにいる間は、壁の制御関連性はない。 そこで本研究では,バイシミュレーション不変な擬似メトリックにインスパイアされた動作ビシミュレーション符号化を導入し,再帰的不変性制約を伴って単一ステップ制御性を拡張する。 これを行うことで、アクションビシミュレーションは、制御に関連する離れた状態の特徴を円滑に割引する、多段階の制御可能性指標を学ぶ。 本研究では、報酬のない一様ランダムなデータに基づく行動ビシミュレーション事前学習により、光現実性3DシミュレーションドメインHabitatを含む複数の環境におけるサンプル効率が向上することを示す。 さらに,動作ビシミュレーションによって得られた情報について,理論的解析と定性的な結果を提供する。

Robust reinforcement learning agents using high-dimensional observations must be able to identify relevant state features amidst many exogeneous distractors. A representation that captures controllability identifies these state elements by determining what affects agent control. While methods such as inverse dynamics and mutual information capture controllability for a limited number of timesteps, capturing long-horizon elements remains a challenging problem. Myopic controllability can capture the moment right before an agent crashes into a wall, but not the control-relevance of the wall while the agent is still some distance away. To address this we introduce action-bisimulation encoding, a method inspired by the bisimulation invariance pseudometric, that extends single-step controllability with a recursive invariance constraint. By doing this, action-bisimulation learns a multi-step controllability metric that smoothly discounts distant state features that are relevant for control. We demonstrate that action-bisimulation pretraining on reward-free, uniformly random data improves sample efficiency in several environments, including a photorealistic 3D simulation domain, Habitat. Additionally, we provide theoretical analysis and qualitative results demonstrating the information captured by action-bisimulation.
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# GoodSAM: 変形を考慮したパノラマセマンティックセマンティックセマンティックセマンティックセマンティックセグメンテーションのためのセグメンテーションモデルによるブリッジングドメインとキャパシティギャップ

GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model for Distortion-aware Panoramic Semantic Segmentation ( http://arxiv.org/abs/2403.16370v1 )

ライセンス: Link先を確認
Weiming Zhang, Yexin Liu, Xu Zheng, Lin Wang, (参考訳) 本稿では,新たなセグメンションモデル (SAM) から知識を伝達する方法,すなわちゼロショットのインスタンスセグメンテーション能力を明らかにすることで,パノラマなセグメンテーションモデル,すなわち学生を,ラベル付きデータを必要とせずに学習する,という課題に対処する。 これはSAMがセマンティックラベルを提供できないことと、SAMと学生の間に大きな容量ギャップがあるため、かなりの問題を引き起こす。 そこで我々は,知識伝達を実現するためのアンサンブルロジットを生成するためにSAMと統合された意味情報を提供する教師アシスタント(TA)を導入した,GoodSAMと呼ばれる新しいフレームワークを提案する。 具体的には,まずパノラマ画像の歪み問題に予測レベルの一貫性と境界拡張を付与して対処するDAR(Distortion-Aware Rectification)モジュールを提案する。 これにより、パノラマ画像上でのTAの予測能力が微妙に向上する。 DARは、SAMとTAの予測を適応的にマージしてより信頼性の高いアンサンブルロジットを得るために、クロスタスクの補体融合ブロックを組み込む。 さらに,マルチレベル特徴知識をTAやアンサンブルロジットから効率的に転送し,コンパクトな学生モデルを学ぶためのマルチレベル知識適応(MKA)モジュールを導入する。 2つのベンチマークの大規模な実験により、我々のGoodSAMは、最先端(SOTA)ドメイン適応法よりも3.75 % mIoUの顕著な改善を達成できた。 また、我々の最も軽量なモデルは、3.7Mパラメータしか持たないSOTAメソッドに匹敵する性能を実現している。

This paper tackles a novel yet challenging problem: how to transfer knowledge from the emerging Segment Anything Model (SAM) -- which reveals impressive zero-shot instance segmentation capacity -- to learn a compact panoramic semantic segmentation model, i.e., student, without requiring any labeled data. This poses considerable challenges due to SAM's inability to provide semantic labels and the large capacity gap between SAM and the student. To this end, we propose a novel framework, called GoodSAM, that introduces a teacher assistant (TA) to provide semantic information, integrated with SAM to generate ensemble logits to achieve knowledge transfer. Specifically, we propose a Distortion-Aware Rectification (DAR) module that first addresses the distortion problem of panoramic images by imposing prediction-level consistency and boundary enhancement. This subtly enhances TA's prediction capacity on panoramic images. DAR then incorporates a cross-task complementary fusion block to adaptively merge the predictions of SAM and TA to obtain more reliable ensemble logits. Moreover, we introduce a Multi-level Knowledge Adaptation (MKA) module to efficiently transfer the multi-level feature knowledge from TA and ensemble logits to learn a compact student model. Extensive experiments on two benchmarks show that our GoodSAM achieves a remarkable +3.75\% mIoU improvement over the state-of-the-art (SOTA) domain adaptation methods. Also, our most lightweight model achieves comparable performance to the SOTA methods with only 3.7M parameters.
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# フェデレート投票によるSignSGD

SignSGD with Federated Voting ( http://arxiv.org/abs/2403.16372v1 )

ライセンス: Link先を確認
Chanho Park, H. Vincent Poor, Namyoon Lee, (参考訳) 分散学習は、マルチエッジデバイスの計算能力を活用することにより、モデルトレーニングの加速に一般的に使用される。 しかし,現実的な応用では,労働者と中央パラメータサーバとの間の情報交換がかなり必要となるため,通信遅延がボトルネックとして現れる。 SignSGD with majority voting (signSGD-MV) は1ビット量子化により通信コストを大幅に削減できる効果的な分散学習アルゴリズムである。 しかし、不均一な計算能力のため、ミニバッチサイズが作業者によって異なる場合には収束しない。 これを解決するために, \textit{federated voting} (signSGD-FV) を用いた新しい符号SGDオプティマイザを提案する。 連合投票の考え方は、学習可能な重量を利用して多数決を行うことである。 サーバは、その計算能力に基づいて、エッジデバイスに割り当てられた重みをオンライン形式で学習する。 その後、これらの重みは、符号復号誤差の確率を最小化するために、集約された局所勾配の符号を復号するために用いられる。 パラメータサーバに推定重みが完全に、あるいは不完全であるシナリオに適用可能な統合収束率分析フレームワークを提供する。 提案手法は, エッジデバイスが不均一なミニバッチサイズを使用する場合でも, 理論的収束を保証する。 実験の結果,SignSGD-FV は signSGD-MV より優れており,特に異種小バッチサイズにおいてより高速な収束速度を示すことがわかった。

Distributed learning is commonly used for accelerating model training by harnessing the computational capabilities of multiple-edge devices. However, in practical applications, the communication delay emerges as a bottleneck due to the substantial information exchange required between workers and a central parameter server. SignSGD with majority voting (signSGD-MV) is an effective distributed learning algorithm that can significantly reduce communication costs by one-bit quantization. However, due to heterogeneous computational capabilities, it fails to converge when the mini-batch sizes differ among workers. To overcome this, we propose a novel signSGD optimizer with \textit{federated voting} (signSGD-FV). The idea of federated voting is to exploit learnable weights to perform weighted majority voting. The server learns the weights assigned to the edge devices in an online fashion based on their computational capabilities. Subsequently, these weights are employed to decode the signs of the aggregated local gradients in such a way to minimize the sign decoding error probability. We provide a unified convergence rate analysis framework applicable to scenarios where the estimated weights are known to the parameter server either perfectly or imperfectly. We demonstrate that the proposed signSGD-FV algorithm has a theoretical convergence guarantee even when edge devices use heterogeneous mini-batch sizes. Experimental results show that signSGD-FV outperforms signSGD-MV, exhibiting a faster convergence rate, especially in heterogeneous mini-batch sizes.
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# ProIn: 自律運転のための進行的インタラクションに基づく軌道予測の学習

ProIn: Learning to Predict Trajectory Based on Progressive Interactions for Autonomous Driving ( http://arxiv.org/abs/2403.16374v1 )

ライセンス: Link先を確認
Yinke Dong, Haifeng Yuan, Hongkun Liu, Wei Jing, Fangzhen Li, Hongmin Liu, Bin Fan, (参考訳) 歩行者、サイクリスト、その他の周囲の車両(すべてエージェントと呼ばれる)の正確な動き予測は、自動運転にとって非常に重要である。 既存のほとんどの研究は、地図とベクトルに基づく一段階の相互作用を通して地図情報をキャプチャし、社会的相互作用とマルチモーダル微分のための地図制約を提供する。 しかし,これらの手法では,社会的相互作用に適応する一方で,すべての意図の経路を維持するために,必要なマップルールをすべて焦点エージェントの特徴にエンコードする必要がある。 本研究では,エージェントの機能的制約を捉えたエージェントの特徴表現をよりよく学習するため,エージェントの機能的制約を段階的に対象マップに焦点を合わせるために,プログレッシブ・インタラクション・ネットワークを提案する。 ネットワークは、歴史的軌跡エンコーダの後に、社会的相互作用の後に、そしてマルチモーダル微分の後に、グラフ畳み込みによって、地図制約の複雑な影響をエージェントの特徴に徐々にエンコードする。 さらに,マルチモーダルトレーニングにおける重み付け機構を提案し,各モードが単一モードの基底真実から学習機会を得ることができるようにした。 実験は、既存の1段階の相互作用に対する進歩的相互作用の優位性を検証し、各コンポーネントの有効性を実証した。 試行錯誤の結果は, 挑戦的なベンチマークで得られた。

Accurate motion prediction of pedestrians, cyclists, and other surrounding vehicles (all called agents) is very important for autonomous driving. Most existing works capture map information through an one-stage interaction with map by vector-based attention, to provide map constraints for social interaction and multi-modal differentiation. However, these methods have to encode all required map rules into the focal agent's feature, so as to retain all possible intentions' paths while at the meantime to adapt to potential social interaction. In this work, a progressive interaction network is proposed to enable the agent's feature to progressively focus on relevant maps, in order to better learn agents' feature representation capturing the relevant map constraints. The network progressively encode the complex influence of map constraints into the agent's feature through graph convolutions at the following three stages: after historical trajectory encoder, after social interaction, and after multi-modal differentiation. In addition, a weight allocation mechanism is proposed for multi-modal training, so that each mode can obtain learning opportunities from a single-mode ground truth. Experiments have validated the superiority of progressive interactions to the existing one-stage interaction, and demonstrate the effectiveness of each component. Encouraging results were obtained in the challenging benchmarks.
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# Elite360D:Semantic- and Distance-Aware Bi-Projection Fusionによる高効率360度深度推定に向けて

Elite360D: Towards Efficient 360 Depth Estimation via Semantic- and Distance-Aware Bi-Projection Fusion ( http://arxiv.org/abs/2403.16376v1 )

ライセンス: Link先を確認
Hao Ai, Lin Wang, (参考訳) 360度深度推定は全方位視野(FoV)による3次元再構成で注目されている。 近年のアプローチは、幾何的再射を伴うクロスプロジェクション融合に主に焦点をあてており、等角射影(ERP)と他の射影型(例えば立方体射影)を融合してERPフォーマットで深さを推定している。 しかし、これらの方法は苦しむ。 1) 局所受容野が限られており、大規模なFoVシーンの撮影が困難である。 2)複雑な相互投射核融合モジュールの設計による計算コストの禁止。 本稿では,ERP画像とICOSAP(ICOSAP)点集合を非歪かつ空間連続的に入力する新しいフレームワークであるElite360Dを提案する。 Elite360Dは、ローカル・ウィズ・グローバルの観点から表現を学ぶ能力において優れている。 柔軟なERPイメージエンコーダはICOSAPポイントエンコーダとバイジェクション・バイアテンション・フュージョン(B2F)モジュール(正確には1Mパラメータ)を備える。 具体的には、ERPイメージエンコーダは、様々な視点で訓練されたバックボーン(例えば、ResNet、Transformer)を使って局所的な特徴を抽出することができる。 ポイントエンコーダはICOSAPからグローバルな特徴を抽出する。 次に、B2FモジュールはERP機能の各ピクセルとICOSAP機能セット全体のセマンティックおよび距離認識依存関係をキャプチャする。 特定のバックボーン設計と明らかな計算コストの増加なしに、Elite360Dはいくつかのベンチマークデータセットで先行技術を上回っている。

360 depth estimation has recently received great attention for 3D reconstruction owing to its omnidirectional field of view (FoV). Recent approaches are predominantly focused on cross-projection fusion with geometry-based re-projection: they fuse 360 images with equirectangular projection (ERP) and another projection type, e.g., cubemap projection to estimate depth with the ERP format. However, these methods suffer from 1) limited local receptive fields, making it hardly possible to capture large FoV scenes, and 2) prohibitive computational cost, caused by the complex cross-projection fusion module design. In this paper, we propose Elite360D, a novel framework that inputs the ERP image and icosahedron projection (ICOSAP) point set, which is undistorted and spatially continuous. Elite360D is superior in its capacity in learning a representation from a local-with-global perspective. With a flexible ERP image encoder, it includes an ICOSAP point encoder, and a Bi-projection Bi-attention Fusion (B2F) module (totally ~1M parameters). Specifically, the ERP image encoder can take various perspective image-trained backbones (e.g., ResNet, Transformer) to extract local features. The point encoder extracts the global features from the ICOSAP. Then, the B2F module captures the semantic- and distance-aware dependencies between each pixel of the ERP feature and the entire ICOSAP feature set. Without specific backbone design and obvious computational cost increase, Elite360D outperforms the prior arts on several benchmark datasets.
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# ラベル認識型ニューラルプロセスを用いた条件モニタリング信号予測のリアルタイム適応

Real-time Adaptation for Condition Monitoring Signal Prediction using Label-aware Neural Processes ( http://arxiv.org/abs/2403.16377v1 )

ライセンス: Link先を確認
Seokhyun Chung, Raed Al Kontar, (参考訳) リアルタイム状態監視(CM)信号に迅速に適応する予測モデルの構築は、エンジニアリングシステムやユニットにとって重要である。 残念ながら、現在の多くのメソッドは、オンライン設定における表現力とアジリティのトレードオフに悩まされています。 例えば、CM信号の基盤となる機能形式を仮定するパラメトリック手法は、効率的なオンライン予測更新を促進する。 しかし、この単純化は、モデル仕様の脆弱性と複雑な信号をキャプチャできないことに繋がる。 一方、過パラメータ化または非パラメトリック化モデルに基づくアプローチは、複雑な非線形信号を説明するのに優れているが、そのようなモデルのリアルタイム更新は難しい課題となる。 本稿では,このトレードオフに対処するニューラルプロセスに基づくアプローチを提案する。 CM信号内で利用可能な観測結果を表現空間にエンコードし、予測のために信号の歴史と進化を再構築する。 トレーニングが完了すると、モデルは再トレーニングを必要とせずに任意の数の観測を符号化することができ、定量化された不確実性とともに、スポット上のリアルタイム予測を可能にし、より多くのオンラインデータが収集されるにつれて容易に更新できる。 さらに,本モデルは,個々の単位から定性的情報(ラベル)を組み込むように設計されている。 この統合は、各ユニットの個別化予測を強化するだけでなく、信号とその関連ラベルのジョイント推論を可能にする。 信頼性工学における合成データと実世界のデータの両方に関する数値的研究は、実時間適応、不確実性定量化による信号予測の強化、ラベルと信号の合同予測において、我々のモデルの有利な特徴を浮き彫りにしている。

Building a predictive model that rapidly adapts to real-time condition monitoring (CM) signals is critical for engineering systems/units. Unfortunately, many current methods suffer from a trade-off between representation power and agility in online settings. For instance, parametric methods that assume an underlying functional form for CM signals facilitate efficient online prediction updates. However, this simplification leads to vulnerability to model specifications and an inability to capture complex signals. On the other hand, approaches based on over-parameterized or non-parametric models can excel at explaining complex nonlinear signals, but real-time updates for such models pose a challenging task. In this paper, we propose a neural process-based approach that addresses this trade-off. It encodes available observations within a CM signal into a representation space and then reconstructs the signal's history and evolution for prediction. Once trained, the model can encode an arbitrary number of observations without requiring retraining, enabling on-the-spot real-time predictions along with quantified uncertainty and can be readily updated as more online data is gathered. Furthermore, our model is designed to incorporate qualitative information (i.e., labels) from individual units. This integration not only enhances individualized predictions for each unit but also enables joint inference for both signals and their associated labels. Numerical studies on both synthetic and real-world data in reliability engineering highlight the advantageous features of our model in real-time adaptation, enhanced signal prediction with uncertainty quantification, and joint prediction for labels and signals.
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# FlashEval: テキストと画像の拡散生成モデルの高速かつ正確な評価を目指して

FlashEval: Towards Fast and Accurate Evaluation of Text-to-image Diffusion Generative Models ( http://arxiv.org/abs/2403.16379v1 )

ライセンス: Link先を確認
Lin Zhao, Tianchen Zhao, Zinan Lin, Xuefei Ning, Guohao Dai, Huazhong Yang, Yu Wang, (参考訳) 近年,テキスト・ツー・イメージ生成モデルの開発が著しい進展を遂げている。 生成モデルの品質を評価することは、開発プロセスにおける重要なステップである。 残念なことに、評価プロセスは大量の計算資源を消費し、モデル性能(例えば、トレーニングの進捗をモニタリングする)の定期的な評価を非現実的にする。 そこで本研究では,テキスト画像データセットの代表的なサブセットを選択することにより,評価効率の向上を図る。 選択基準(音声特徴量や画像ベースメトリクス)や選択粒度(プロンプトレベルやセットレベル)など,設計選択を体系的に検討する。 トレーニングデータのサブセット選択に関する先行研究から得られた知見は,この問題を一般化するものではなく,データ選択評価に適した反復探索アルゴリズムであるFlashEvalを提案する。 アーキテクチャや量子化レベル,COCOおよびDiffusionDBデータセットのサンプルスケジュールなど,さまざまな構成の拡散モデルのランク付けに対するFlashEvalの有効性を示す。 検索した50-itemサブセットは,COCOアノテーションを無作為にサンプリングした500-itemサブセットに匹敵し,評価速度を10倍に向上させることができた。 我々は、拡散アルゴリズムの設計と評価を容易にするために、これらのよく使われるデータセットの凝縮されたサブセットをリリースし、将来のデータセットを凝縮するためのツールとしてFlashEvalをオープンソースとして公開し、https://github.com/thu-nics/FlashEvalでアクセスします。

In recent years, there has been significant progress in the development of text-to-image generative models. Evaluating the quality of the generative models is one essential step in the development process. Unfortunately, the evaluation process could consume a significant amount of computational resources, making the required periodic evaluation of model performance (e.g., monitoring training progress) impractical. Therefore, we seek to improve the evaluation efficiency by selecting the representative subset of the text-image dataset. We systematically investigate the design choices, including the selection criteria (textural features or image-based metrics) and the selection granularity (prompt-level or set-level). We find that the insights from prior work on subset selection for training data do not generalize to this problem, and we propose FlashEval, an iterative search algorithm tailored to evaluation data selection. We demonstrate the effectiveness of FlashEval on ranking diffusion models with various configurations, including architectures, quantization levels, and sampler schedules on COCO and DiffusionDB datasets. Our searched 50-item subset could achieve comparable evaluation quality to the randomly sampled 500-item subset for COCO annotations on unseen models, achieving a 10x evaluation speedup. We release the condensed subset of these commonly used datasets to help facilitate diffusion algorithm design and evaluation, and open-source FlashEval as a tool for condensing future datasets, accessible at https://github.com/thu-nics/FlashEval.
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# 連続深度非依存性超音波イメージングのための残留高密度スズ変圧器

Residual Dense Swin Transformer for Continuous Depth-Independent Ultrasound Imaging ( http://arxiv.org/abs/2403.16384v1 )

ライセンス: Link先を確認
Jintong Hu, Hui Che, Zishuo Li, Wenming Yang, (参考訳) 超音波イメージングは臓器の形態と機能を評価する上で重要であるが、深度調整は画質と視野を劣化させ、深度依存ジレンマを呈する。 従来の補間ベースのズームイン技術は、細部を犠牲にしてアーティファクトを導入することが多い。 これらの課題に自然に対処するために、任意のスケールの超解像の可能性を動機として、非局所特性と超音波画像に固有の長距離依存性を捉えるために設計されたResidual Dense Swin Transformer Network (RDSTN)を提案する。 特徴強調のための線形埋め込みモジュールと、非局所性モデリングのためのシフトウインドウアテンダ付きエンコーダと、連続的な詳細再構築のためのMPPデコーダとを備える。 この戦略は、従来の手法よりも優れたテクスチャを提供する画像品質と視野のバランスを合理化する。 RDSTNは、パラメータを少なくしながら既存のアプローチより優れている。 結論として,RDSTNは従来の補間手法の限界を克服し,深度非依存のイメージングを実現することにより,超音波画像強調の有望な可能性を示す。

Ultrasound imaging is crucial for evaluating organ morphology and function, yet depth adjustment can degrade image quality and field-of-view, presenting a depth-dependent dilemma. Traditional interpolation-based zoom-in techniques often sacrifice detail and introduce artifacts. Motivated by the potential of arbitrary-scale super-resolution to naturally address these inherent challenges, we present the Residual Dense Swin Transformer Network (RDSTN), designed to capture the non-local characteristics and long-range dependencies intrinsic to ultrasound images. It comprises a linear embedding module for feature enhancement, an encoder with shifted-window attention for modeling non-locality, and an MLP decoder for continuous detail reconstruction. This strategy streamlines balancing image quality and field-of-view, which offers superior textures over traditional methods. Experimentally, RDSTN outperforms existing approaches while requiring fewer parameters. In conclusion, RDSTN shows promising potential for ultrasound image enhancement by overcoming the limitations of conventional interpolation-based methods and achieving depth-independent imaging.
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# ステップバイステップの合成:Reasoning-based Chart VQAのデータジェネレータとしてのツール,テンプレート,LLM

Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA ( http://arxiv.org/abs/2403.16385v1 )

ライセンス: Link先を確認
Li Zhuowan, Jasani Bhavan, Tang Peng, Ghadar Shabnam, (参考訳) チャートやプロットのようなデータの視覚化を理解するには、ビジュアル要素と数値の両方について推論する必要がある。 抽出的質問では強いが、現在のチャートの視覚的質問応答(チャートVQA)モデルは複雑な推論問題に悩まされる。 本研究では,データ拡張による推論能力の欠如に対処する。 我々は,グラフ画像に対する問合せアノテーションを生成する自動データアノテータとして,推論能力の強い大規模言語モデル(LLM)を活用している。 LLMベースのデータジェネレータは、複雑な質問をステップバイステップのサブクエスト(有理数)に分解して、外部ツール、すなわちPythonを使って最終回答を導出します。 このステップワイズ生成手順は、テンプレートベースのQA生成パイプラインを用いて生成された合成データに基づいて訓練される。 実験結果は,提案したステップバイステップ生成の重要性を浮き彫りにした。 LLM拡張データ(LAMENDA)を用いてトレーニングすることにより、チャートVQAモデルを大幅に強化し、ChartQAおよびPlotQAデータセットの最先端精度を達成する。 具体的には,従来の最先端アプローチの精度を,強い推論を必要とするChartQAデータセットの人間による質問では38%から54%に向上させる。 我々の研究は、合成データの可能性を強調し、LLMを用いたさらなるデータ拡張を推し進めることを期待しています。

Understanding data visualizations like charts and plots requires reasoning about both visual elements and numerics. Although strong in extractive questions, current chart visual question answering (chart VQA) models suffer on complex reasoning questions. In this work, we address the lack of reasoning ability by data augmentation. We leverage Large Language Models (LLMs), which have shown to have strong reasoning ability, as an automatic data annotator that generates question-answer annotations for chart images. The key innovation in our method lies in the Synthesize Step-by-Step strategy: our LLM-based data generator learns to decompose the complex question into step-by-step sub-questions (rationales), which are then used to derive the final answer using external tools, i.e. Python. This step-wise generation procedure is trained on synthetic data generated using a template-based QA generation pipeline. Experimental results highlight the significance of the proposed step-by-step generation. By training with the LLM-augmented data (LAMENDA), we significantly enhance the chart VQA models, achieving the state-of-the-art accuracy on the ChartQA and PlotQA datasets. In particular, our approach improves the accuracy of the previous state-of-the-art approach from 38% to 54% on the human-written questions in the ChartQA dataset, which needs strong reasoning. We hope our work underscores the potential of synthetic data and encourages further exploration of data augmentation using LLMs for reasoning-heavy tasks.
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# Dia-LLaMA:大規模言語モデル駆動型CTレポート生成に向けて

Dia-LLaMA: Towards Large Language Model-driven CT Report Generation ( http://arxiv.org/abs/2403.16386v1 )

ライセンス: Link先を確認
Zhixuan Chen, Luyang Luo, Yequan Bie, Hao Chen, (参考訳) 医療報告の生成は目覚ましい進歩を遂げているが、いくつかの課題に直面している。 第一に、正常なケースと異常なケースの分布における固有の不均衡は、モデルが正常なサンプルに偏りを示し、信頼性の低い診断をもたらす可能性がある。 第二に、報告に共通するテンプレート文が頻繁に発生することは、重大な異常情報を圧倒する可能性がある。 既存の研究は2次元胸部X線に焦点をあてており、CT画像の高次元的性質とCT-Reportペアの限定的利用により、CTレポートの生成が過小評価されている。 近年、LCMは、上記の課題に対処する上で、適切なプロンプトで信頼性の高い回答を生成できる優れた能力を示している。 本稿では,診断情報をガイダンスとして組み込んだLLaMA2-7BをCTレポート生成に適用するためのフレームワークであるDia-LLaMAを提案する。 我々は,CTの高次元を考慮し,事前学習したVT3Dと知覚器を併用して視覚情報を抽出する。 報告生成のためのLCMを調整し,異常を強調するために,トレーニング中に更新した病原体メモリバンクを参照して,追加の診断情報を抽出し,一般的な疾患の表現を捉える。 さらに,異なる疾患に対する注意度をモデルが調整できるようにするために,疾患認識型注意度を導入する。 胸部CTデータセットを用いた実験により,提案手法は従来の方法よりも優れており,臨床効果と自然言語生成の指標の両面で最先端の手法が得られた。 コードは一般公開される予定だ。

Medical report generation has achieved remarkable advancements yet has still been faced with several challenges. First, the inherent imbalance in the distribution of normal and abnormal cases may lead models to exhibit a biased focus on normal samples, resulting in unreliable diagnoses. Second, the frequent occurrence of common template sentences in the reports may overwhelm the critical abnormal information. Moreover, existing works focus on 2D chest X-rays, leaving CT report generation underexplored due to the high-dimensional nature of CT images and the limited availability of CT-report pairs. Recently, LLM has shown a great ability to generate reliable answers with appropriate prompts, which shed light on addressing the aforementioned challenges. In this paper, we propose Dia-LLaMA, a framework to adapt the LLaMA2-7B for CT report generation by incorporating diagnostic information as guidance prompts. Considering the high dimension of CT, we leverage a pre-trained ViT3D with perceiver to extract the visual information. To tailor the LLM for report generation and emphasize abnormality, we extract additional diagnostic information by referring to a disease prototype memory bank, which is updated during training to capture common disease representations. Furthermore, we introduce disease-aware attention to enable the model to adjust attention for different diseases. Experiments on the chest CT dataset demonstrated that our proposed method outperformed previous methods and achieved state-of-the-art on both clinical efficacy performance and natural language generation metrics. The code will be made publically available.
翻訳日:2024-03-26 16:17:05 公開日:2024-03-25
# Text-IF: 劣化認識と対話型画像融合のためのセマンティックテキストガイダンスの活用

Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion ( http://arxiv.org/abs/2403.16387v1 )

ライセンス: Link先を確認
Xunpeng Yi, Han Xu, Hao Zhang, Linfeng Tang, Jiayi Ma, (参考訳) 画像融合は、異なるソースイメージからの情報を組み合わせて、包括的に代表的なイメージを作成することを目的としている。 既存の融合法は、通常、低品質のソース画像の劣化に対処するのに役立ちません。 そこで本研究では,テキストIFと呼ばれる劣化認識・対話型画像融合タスクにおいて,意味的テキスト誘導画像融合モデルを活用する新しい手法を提案する。 古典画像融合をテキストガイド画像融合に革新的に拡張し、融合中の劣化や相互作用の問題に調和して対処する。 テキストセマンティックエンコーダとセマンティックインタラクションフュージョンデコーダを通じて、Text-IFはオールインワンの赤外線および可視画像劣化処理およびインタラクティブなフレキシブルフュージョン結果にアクセスできる。 このように、Text-IFはマルチモーダル画像融合だけでなく、マルチモーダル情報融合も実現している。 画像融合性能と劣化処理におけるSOTA法に対して,本提案のテキストガイド画像融合戦略が明らかに有利であることを示す。 コードはhttps://github.com/XunpengYi/Text-IFで公開されている。

Image fusion aims to combine information from different source images to create a comprehensively representative image. Existing fusion methods are typically helpless in dealing with degradations in low-quality source images and non-interactive to multiple subjective and objective needs. To solve them, we introduce a novel approach that leverages semantic text guidance image fusion model for degradation-aware and interactive image fusion task, termed as Text-IF. It innovatively extends the classical image fusion to the text guided image fusion along with the ability to harmoniously address the degradation and interaction issues during fusion. Through the text semantic encoder and semantic interaction fusion decoder, Text-IF is accessible to the all-in-one infrared and visible image degradation-aware processing and the interactive flexible fusion outcomes. In this way, Text-IF achieves not only multi-modal image fusion, but also multi-modal information fusion. Extensive experiments prove that our proposed text guided image fusion strategy has obvious advantages over SOTA methods in the image fusion performance and degradation treatment. The code is available at https://github.com/XunpengYi/Text-IF.
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# 物理インフォームドRLによる最大安全確率推定

Physics-informed RL for Maximal Safety Probability Estimation ( http://arxiv.org/abs/2403.16391v1 )

ライセンス: Link先を確認
Hikaru Hoshino, Yorie Nakahira, (参考訳) 正確なリスク定量化と到達可能性分析は、安全な制御と学習に不可欠であるが、稀な事象、リスクのある状態、長期的軌道からのサンプリングは、違法にコストがかかる可能性がある。 本研究の目的は,リスクのある状態や長期軌道からのサンプルを十分にカバーすることなく,最大安全行動の長期安全確率を推定する方法である。 制御と学習における最大安全性確率の使用は、リスクの過度な近似による保守的な行動を避けることが期待されている。 本稿では,時間的に乗算可能な長期安全確率を付加コストに変換し,標準強化学習法を用いて解決できることを最初に示す。 次に、この確率を偏微分方程式(PDE)の解として導出し、PIRLアルゴリズムを提案する。 提案手法は, 物理制約が近隣のリスク情報を伝達するのに有効であるため, スパース報酬を用いて学習することができる。 これは、効率的な学習のためにより多くの情報を抽出するために、物理学的な制約が報酬形成の代替となることを示唆している。 提案手法は,短期サンプルを用いて長期リスクを推定し,未サンプリング状態のリスクを推定する。 この機能は、十分なデータカバレッジを必要とする、制約のないディープRLとは対照的である。 提案手法の利点を数値シミュレーションで示す。

Accurate risk quantification and reachability analysis are crucial for safe control and learning, but sampling from rare events, risky states, or long-term trajectories can be prohibitively costly. Motivated by this, we study how to estimate the long-term safety probability of maximally safe actions without sufficient coverage of samples from risky states and long-term trajectories. The use of maximal safety probability in control and learning is expected to avoid conservative behaviors due to over-approximation of risk. Here, we first show that long-term safety probability, which is multiplicative in time, can be converted into additive costs and be solved using standard reinforcement learning methods. We then derive this probability as solutions of partial differential equations (PDEs) and propose Physics-Informed Reinforcement Learning (PIRL) algorithm. The proposed method can learn using sparse rewards because the physics constraints help propagate risk information through neighbors. This suggests that, for the purpose of extracting more information for efficient learning, physics constraints can serve as an alternative to reward shaping. The proposed method can also estimate long-term risk using short-term samples and deduce the risk of unsampled states. This feature is in stark contrast with the unconstrained deep RL that demands sufficient data coverage. These merits of the proposed method are demonstrated in numerical simulation.
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# 大規模言語モデルに対する同時言語誤り検出(CLED)

Concurrent Linguistic Error Detection (CLED) for Large Language Models ( http://arxiv.org/abs/2403.16393v1 )

ライセンス: Link先を確認
Jinhua Zhu, Javier Conde, Zhen Gao, Pedro Reviriego, Shanshan Liu, Fabrizio Lombardi, (参考訳) LLM(Large Language Model)が広く採用されているため、その信頼性が懸念される。 エラー検出はシステムへの影響を軽減するための最初のステップであり、LLMの効率的なエラー検出は重要な問題である。 多くの設定において、LCMは内部ノードにアクセスできないブラックボックスであると考えられており、モデルの内部ノードへのアクセスを必要とする多くのエラー検出スキームの使用を妨げている。 興味深い観察は、誤りのない操作におけるLLMの出力が有効であり、通常のテキストであることである。 したがって、テキストが有効でない場合や、通常のテキストと大きく異なる場合、誤りがある可能性が高い。 本手法では,LLMが生成したテキストの言語的特徴を抽出し,エラーを検出する並列分類器に供給する。 提案したエラー検出機構はモデルの出力のみに依存するため、内部ノードにアクセスできないLCMでも使用できる。 提案手法は,ニュース要約時にT5モデル,翻訳時にOPUS-MTモデルで評価されている。 どちらの場合も、同じ言語的特徴セットが、特定の場合を超えて提案手法の適用可能性を示すために、エラー検出に使用されている。 その結果、CLEDはオーバーヘッドの少ないペナルティでほとんどのエラーを検出できることがわかった。 同時分類器を使用することで、エラー検出の有効性と関連するオーバーヘッドとのトレードオフが可能になり、デザイナに柔軟性を提供する。

The wide adoption of Large language models (LLMs) makes their dependability a pressing concern. Detection of errors is the first step to mitigating their impact on a system and thus, efficient error detection for LLMs is an important issue. In many settings, the LLM is considered as a black box with no access to the internal nodes; this prevents the use of many error detection schemes that need access to the model's internal nodes. An interesting observation is that the output of LLMs in error-free operation should be valid and normal text. Therefore, when the text is not valid or differs significantly from normal text, it is likely that there is an error. Based on this observation we propose to perform Concurrent Linguistic Error Detection (CLED); this scheme extracts some linguistic features of the text generated by the LLM and feeds them to a concurrent classifier that detects errors. Since the proposed error detection mechanism only relies on the outputs of the model, then it can be used on LLMs in which there is no access to the internal nodes. The proposed CLED scheme has been evaluated on the T5 model when used for news summarization and on the OPUS-MT model when used for translation. In both cases, the same set of linguistic features has been used for error detection to illustrate the applicability of the proposed scheme beyond a specific case. The results show that CLED can detect most of the errors at a low overhead penalty. The use of the concurrent classifier also enables a trade-off between error detection effectiveness and its associated overhead, so providing flexibility to a designer.
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# テキスト・画像生成における現象空間Hinder一般化のスキュー

Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation ( http://arxiv.org/abs/2403.16394v1 )

ライセンス: Link先を確認
Yingshan Chang, Yasi Zhang, Zhiyuan Fang, Yingnian Wu, Yonatan Bisk, Feng Gao, (参考訳) テキスト・ツー・イメージ・ジェネレーションに関する文献は、人間関係を忠実に構成する問題に悩まされている。 しかし、エンティティ・リレーション・コンポジションをどのように効果的に学習するかという正式な理解は欠如している。 さらに、問題構造を有意に反映する基礎となる現象空間は明確に定義されておらず、大規模な事前学習から一般化が現れることを期待して、大量のデータに対するアームレースに繋がる。 我々は,その基礎となる現象的範囲が比例的に拡大されていないことを仮定し,一般化を損なう現象のスキューに繋がった。 本稿では,関係学習用データセットの言語的スキューと視覚的スキューの両方を定量化する統計指標を導入し,テキスト・画像生成の一般化失敗が不完全あるいは不均衡な現象論的カバレッジの直接的な結果であることを示す。 まず、合成領域で実験を行い、系統的に制御されたメトリクスが一般化性能を強く予測できることを実証する。 そして、自然画像へ移動し、我々の理論に照らされた単純な分布摂動が、絶対的なデータサイズを大きくすることなく一般化を促進することを示す。 この研究は、データの多様性の向上や、絶対的なサイズのスケールアップに直交するバランスの確保に向けて、重要な方向を示します。 私たちの議論は重要なオープンな疑問を指摘する 1)生成したエンティティ関連組成物の評価と評価 2)抽象的関係を考慮した推論モデルの改善。

The literature on text-to-image generation is plagued by issues of faithfully composing entities with relations. But there lacks a formal understanding of how entity-relation compositions can be effectively learned. Moreover, the underlying phenomenon space that meaningfully reflects the problem structure is not well-defined, leading to an arms race for larger quantities of data in the hope that generalization emerges out of large-scale pretraining. We hypothesize that the underlying phenomenological coverage has not been proportionally scaled up, leading to a skew of the presented phenomenon which harms generalization. We introduce statistical metrics that quantify both the linguistic and visual skew of a dataset for relational learning, and show that generalization failures of text-to-image generation are a direct result of incomplete or unbalanced phenomenological coverage. We first perform experiments in a synthetic domain and demonstrate that systematically controlled metrics are strongly predictive of generalization performance. Then we move to natural images and show that simple distribution perturbations in light of our theories boost generalization without enlarging the absolute data size. This work informs an important direction towards quality-enhancing the data diversity or balance orthogonal to scaling up the absolute size. Our discussions point out important open questions on 1) Evaluation of generated entity-relation compositions, and 2) Better models for reasoning with abstract relations.
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# 視覚追跡のためのマルチアテンションアソシエイト予測ネットワーク

Multi-attention Associate Prediction Network for Visual Tracking ( http://arxiv.org/abs/2403.16395v1 )

ライセンス: Link先を確認
Xinglong Sun, Haijiang Sun, Shan Jiang, Jiacheng Wang, Xilai Wei, Zhonghe Hu, (参考訳) 分類回帰予測ネットワークは、いくつかの現代のディープトラッカーにおいて驚くべき成功を収めている。 しかし、分類タスクと回帰タスクには固有の違いがあり、特徴マッチングに対する要求さえも様々である。 既存のモデルは、常に重要な問題を無視し、2つのタスクブランチで統一されたマッチングブロックのみを使用し、決定品質を低下させます。 さらに、これらのモデルは意思決定のミスアライメント状況にも苦戦している。 本稿では,上記の問題に対処するマルチアテンションアソシエイト予測ネットワーク(MAPNet)を提案する。 具体的には, まず, 自己, 横断, チャネル, 空間的注意を有機的に統合して特徴比較を行う。 分類のためのカテゴリ関連セマンティクスと回帰のための局所空間コンテキストをそれぞれ完全に捉えることができる。 次に,2つの分岐間の対応性を高めるための2つのアライメントモジュールを提案する。 最後に,提案した予測ネットワーク上に構築されたSiameseトラッカーについて述べる。LaSOT, TrackingNet, GOT-10k, TNL2k, UAV123 の5つのトラッキングベンチマークにおいて,他の最先端のアプローチを上回るパフォーマンスを実現する。

Classification-regression prediction networks have realized impressive success in several modern deep trackers. However, there is an inherent difference between classification and regression tasks, so they have diverse even opposite demands for feature matching. Existed models always ignore the key issue and only employ a unified matching block in two task branches, decaying the decision quality. Besides, these models also struggle with decision misalignment situation. In this paper, we propose a multi-attention associate prediction network (MAPNet) to tackle the above problems. Concretely, two novel matchers, i.e., category-aware matcher and spatial-aware matcher, are first designed for feature comparison by integrating self, cross, channel or spatial attentions organically. They are capable of fully capturing the category-related semantics for classification and the local spatial contexts for regression, respectively. Then, we present a dual alignment module to enhance the correspondences between two branches, which is useful to find the optimal tracking solution. Finally, we describe a Siamese tracker built upon the proposed prediction network, which achieves the leading performance on five tracking benchmarks, consisting of LaSOT, TrackingNet, GOT-10k, TNL2k and UAV123, and surpasses other state-of-the-art approaches.
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# 情報抽出への一モデル全アプローチは存在するか? : タスク定義バイアスの再検討

Is There a One-Model-Fits-All Approach to Information Extraction? Revisiting Task Definition Biases ( http://arxiv.org/abs/2403.16396v1 )

ライセンス: Link先を確認
Wenhao Huang, Qianyu He, Zhixu Li, Jiaqing Liang, Yanghua Xiao, (参考訳) 定義バイアスは、モデルを誤解させる可能性のある負の現象である。 情報抽出における定義バイアスは、異なるドメインからのデータセットだけでなく、同じドメインを共有するデータセットにも現れる。 IEでは、情報抽出データセット間のバイアスと、情報抽出データセットとインストラクションチューニングデータセット間のバイアスの2つの定義バイアスを識別する。 定義バイアスを体系的に研究するために,3つの探索実験を行い,その定量的解析を行い,定義バイアスの解法における統合情報抽出と大規模言語モデルの限界を明らかにする。 本稿では,情報抽出における定義バイアスを軽減するために,定義バイアス測定,バイアスを考慮した微調整,タスク固有のバイアス軽減からなる多段階フレームワークを提案する。 実験の結果,定義バイアスに対処するための枠組みの有効性が示された。 本論文の資料はhttps://github.com/EZ-hwh/definition-biasで見ることができる。

Definition bias is a negative phenomenon that can mislead models. Definition bias in information extraction appears not only across datasets from different domains but also within datasets sharing the same domain. We identify two types of definition bias in IE: bias among information extraction datasets and bias between information extraction datasets and instruction tuning datasets. To systematically investigate definition bias, we conduct three probing experiments to quantitatively analyze it and discover the limitations of unified information extraction and large language models in solving definition bias. To mitigate definition bias in information extraction, we propose a multi-stage framework consisting of definition bias measurement, bias-aware fine-tuning, and task-specific bias mitigation. Experimental results demonstrate the effectiveness of our framework in addressing definition bias. Resources of this paper can be found at https://github.com/EZ-hwh/definition-bias
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# RadioGAT: グラフアテンションネットワークによるマルチバンド無線地図再構成のための統合モデルとデータ駆動フレームワーク

RadioGAT: A Joint Model-based and Data-driven Framework for Multi-band Radiomap Reconstruction via Graph Attention Networks ( http://arxiv.org/abs/2403.16397v1 )

ライセンス: Link先を確認
Xiaojie Li, Songyang Zhang, Hang Li, Xiaoyang Li, Lexi Xu, Haigao Xu, Hui Mei, Guangxu Zhu, Nan Qi, Ming Xiao, (参考訳) マルチバンド無線マップ再構成(MB-RMR)は、スペクトル管理やネットワーク計画といったタスクのための無線通信において重要な要素である。 しかし、シミュレーションデータや完全に構造化された真実に依存する従来の機械学習ベースのMB-RMRメソッドは、重大なデプロイメント課題に直面している。 これらの課題は、シミュレーションデータと実際のデータの違い、および実世界の測定の不足に起因する。 これらの課題に対処するために,1つの領域でMB-RMRに適したグラフ注意ネットワーク(GAT)に基づく新しいフレームワークであるRadioGATを提案する。 RadioGATは、データ駆動ラジオマップの一般化とモデルベースの空間スペクトル相関符号化を革新的に融合し、広範囲なデータソースへの依存を最小限に抑える。 このフレームワークは、電波伝搬モデルを利用してデータ固有の空間-スペクトル相関をキャプチャする革新的な符号化戦略を通じて、スパースマルチバンドデータをグラフ構造に変換することから始まる。 このグラフベースの表現は、データハンドリングを単純化するだけでなく、トレーニング中の適切なラベルサンプリングを可能にし、フレームワークのデプロイメント適応性を大幅に向上させる。 その後、GATは様々な周波数帯域で無線マップ情報を一般化するために使用される。 実環境に基づくレイトレーシングデータセットを用いた大規模な実験は、RadioGATの教師付き学習設定における精度の向上と半教師付きシナリオにおける堅牢性を示している。 これらの結果は、限られたデータ可用性を持つ環境でのMB-RMRの有効性と実用性を裏付けるものである。

Multi-band radiomap reconstruction (MB-RMR) is a key component in wireless communications for tasks such as spectrum management and network planning. However, traditional machine-learning-based MB-RMR methods, which rely heavily on simulated data or complete structured ground truth, face significant deployment challenges. These challenges stem from the differences between simulated and actual data, as well as the scarcity of real-world measurements. To address these challenges, our study presents RadioGAT, a novel framework based on Graph Attention Network (GAT) tailored for MB-RMR within a single area, eliminating the need for multi-region datasets. RadioGAT innovatively merges model-based spatial-spectral correlation encoding with data-driven radiomap generalization, thus minimizing the reliance on extensive data sources. The framework begins by transforming sparse multi-band data into a graph structure through an innovative encoding strategy that leverages radio propagation models to capture the spatial-spectral correlation inherent in the data. This graph-based representation not only simplifies data handling but also enables tailored label sampling during training, significantly enhancing the framework's adaptability for deployment. Subsequently, The GAT is employed to generalize the radiomap information across various frequency bands. Extensive experiments using raytracing datasets based on real-world environments have demonstrated RadioGAT's enhanced accuracy in supervised learning settings and its robustness in semi-supervised scenarios. These results underscore RadioGAT's effectiveness and practicality for MB-RMR in environments with limited data availability.
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# 非IIDデータを用いたフェデレーション型教師なし学習における表現の再考

Rethinking the Representation in Federated Unsupervised Learning with Non-IID Data ( http://arxiv.org/abs/2403.16398v1 )

ライセンス: Link先を確認
Xinting Liao, Weiming Liu, Chaochao Chen, Pengyang Zhou, Fengyuan Yu, Huabin Zhu, Binhui Yao, Tao Wang, Xiaolin Zheng, Yanchao Tan, (参考訳) フェデレーション学習は、分散データのモデリングにおいて効果的なパフォーマンスを達成する。 実際には、クライアントデータは十分にラベル付けされていないため、非IIDデータとの非教師なし学習(FUSL)の可能性を秘めている。 しかし、既存のFUSL法の性能は、(1)局所モデルと大域モデルの間の表現崩壊絡み合い、(2)局所モデル間の不整合表現空間などの表現不足に悩まされている。 前者は、局所モデルにおける表現の崩壊が、後にグローバルモデルや他の局所モデルに影響を及ぼすことを示している。 後者は、クライアントが監視信号の欠如により、一貫性のないパラメータでデータ表現をモデル化することを意味する。 本研究では,非IIDデータを用いたFUSLにおける一様および一様表現を生成するFedU2を提案する。 具体的には、FedU2は柔軟な統一正規化器(FUR)と効率的な統一集約器(EUA)から構成される。 各クライアントのFURは、サンプルを均一に分散することで表現の崩壊を回避し、サーバのEUAは一貫したクライアントモデルの更新を制約することによって統一表現を促進する。 FedU2の性能を広範囲に検証するため、我々はCIFAR10とCIFAR100という2つのベンチマークデータセット上でクロスデバイスおよびクロスサイロ評価実験を行った。

Federated learning achieves effective performance in modeling decentralized data. In practice, client data are not well-labeled, which makes it potential for federated unsupervised learning (FUSL) with non-IID data. However, the performance of existing FUSL methods suffers from insufficient representations, i.e., (1) representation collapse entanglement among local and global models, and (2) inconsistent representation spaces among local models. The former indicates that representation collapse in local model will subsequently impact the global model and other local models. The latter means that clients model data representation with inconsistent parameters due to the deficiency of supervision signals. In this work, we propose FedU2 which enhances generating uniform and unified representation in FUSL with non-IID data. Specifically, FedU2 consists of flexible uniform regularizer (FUR) and efficient unified aggregator (EUA). FUR in each client avoids representation collapse via dispersing samples uniformly, and EUA in server promotes unified representation by constraining consistent client model updating. To extensively validate the performance of FedU2, we conduct both cross-device and cross-silo evaluation experiments on two benchmark datasets, i.e., CIFAR10 and CIFAR100.
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# ASDF:6次元ポス推定の統合による後期核融合を利用したアセンブリ状態検出

ASDF: Assembly State Detection Utilizing Late Fusion by Integrating 6D Pose Estimation ( http://arxiv.org/abs/2403.16400v1 )

ライセンス: Link先を確認
Hannah Schieber, Shiyu Li, Niklas Corell, Philipp Beckerle, Julian Kreimeier, Daniel Roth, (参考訳) 医療・産業分野では、組み立てプロセスのガイダンスを提供することが効率と安全性の確保に不可欠である。 組立のエラーは、手術期間の延長、製造業における製造期間の延長や保守期間の延長など、重大な結果をもたらす可能性がある。 アセンブリシナリオは、インサイトARビジュアライゼーションの恩恵を受け、ガイダンスを提供し、アセンブリ時間を短縮し、エラーを最小限にする。 その場での視覚化6Dポーズ推定を活用できるようにする。 既存の6Dポーズ推定技術は主に個々のオブジェクトと静的キャプチャに焦点を当てている。 しかしながら、アセンブリのシナリオには、アセンブリ中の閉塞やアセンブリオブジェクトの外観の動的など、さまざまなダイナミクスがある。 既存の作業では、オブジェクト検出/6Dのポーズ推定とアセンブリ状態検出を組み合わせて、純粋なディープラーニングベースのアプローチ、あるいはアセンブリ状態検出をビルディングブロックに制限する。 組立状態検出と組み合わせた6次元ポーズ推定の課題に対処するため,我々のアプローチはリアルタイムに実行可能なオブジェクト検出フレームワークであるYOLOv8の強みに基づいている。 我々は、このフレームワークを拡張し、オブジェクトのポーズを洗練し、ネットワーク検出されたポーズ情報で知識を融合する。 Pose2Stateモジュールの後期融合を利用することで、洗練された6Dポーズ推定とアセンブリ状態検出が可能になります。 ポーズ情報と状態情報を組み合わせることで、Pose2Stateモジュールは最終的なアセンブリ状態を精度で予測します。 我々のASDFデータセットに対する評価は、Pose2Stateモジュールがアセンブリ状態の検出を改善し、アセンブリ状態の改善により、より堅牢な6Dポーズ推定が可能になることを示している。 さらに、GBOTデータセットでは、純粋なディープラーニングベースのネットワークよりも優れており、ハイブリッドと純粋なトラッキングベースのアプローチよりも優れています。

In medical and industrial domains, providing guidance for assembly processes is critical to ensure efficiency and safety. Errors in assembly can lead to significant consequences such as extended surgery times, and prolonged manufacturing or maintenance times in industry. Assembly scenarios can benefit from in-situ AR visualization to provide guidance, reduce assembly times and minimize errors. To enable in-situ visualization 6D pose estimation can be leveraged. Existing 6D pose estimation techniques primarily focus on individual objects and static captures. However, assembly scenarios have various dynamics including occlusion during assembly and dynamics in the assembly objects appearance. Existing work, combining object detection/6D pose estimation and assembly state detection focuses either on pure deep learning-based approaches, or limit the assembly state detection to building blocks. To address the challenges of 6D pose estimation in combination with assembly state detection, our approach ASDF builds upon the strengths of YOLOv8, a real-time capable object detection framework. We extend this framework, refine the object pose and fuse pose knowledge with network-detected pose information. Utilizing our late fusion in our Pose2State module results in refined 6D pose estimation and assembly state detection. By combining both pose and state information, our Pose2State module predicts the final assembly state with precision. Our evaluation on our ASDF dataset shows that our Pose2State module leads to an improved assembly state detection and that the improvement of the assembly state further leads to a more robust 6D pose estimation. Moreover, on the GBOT dataset, we outperform the pure deep learning-based network, and even outperform the hybrid and pure tracking-based approaches.
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# 複数分散低曲率モデルの統合によるアンサンブル対角防御

Ensemble Adversarial Defense via Integration of Multiple Dispersed Low Curvature Models ( http://arxiv.org/abs/2403.16405v1 )

ライセンス: Link先を確認
Kaikang Zhao, Xi Chen, Wei Huang, Liuxin Ding, Xianglong Kong, Fan Zhang, (参考訳) 深層学習モデルのアンサンブルの統合は、敵の攻撃に対する防御を強化するために広く研究されてきた。 サブモデル間の多様性により、アンサンブルの大部分を欺くのに必要な攻撃コストが増大し、敵の堅牢性が向上する。 既存のアプローチは主に入力に関する特徴表現の多様性の増大や一階勾配の分散に重点を置いているが、これらの多様性指標と敵の堅牢性の間の限定的な相関は、アンサンブル対防御の性能を制約している。 本研究では,攻撃伝達性を低減し,アンサンブルの多様性を高めることを目的とする。 損失曲率を表す2階勾配を, 対向的強靭性の重要な要因として同定する。 2階勾配に関わるヘッセン行列の計算は計算に高価である。 これを解決するために、微分近似を用いてヘッセンベクトル積を近似する。 異なるサブモデル間の曲率の影響を考慮し,低曲率が優れたロバスト性をもたらすことを考慮して,アンサンブルモデルの設計を行った。 本稿では,複数変数の低曲率ネットワークモデルをトレーニングするための新しい正規化器を提案する。 様々なデータセットにわたる大規模な実験により、我々のアンサンブルモデルは様々な攻撃に対して優れた堅牢性を示し、我々のアプローチの有効性を裏付けている。

The integration of an ensemble of deep learning models has been extensively explored to enhance defense against adversarial attacks. The diversity among sub-models increases the attack cost required to deceive the majority of the ensemble, thereby improving the adversarial robustness. While existing approaches mainly center on increasing diversity in feature representations or dispersion of first-order gradients with respect to input, the limited correlation between these diversity metrics and adversarial robustness constrains the performance of ensemble adversarial defense. In this work, we aim to enhance ensemble diversity by reducing attack transferability. We identify second-order gradients, which depict the loss curvature, as a key factor in adversarial robustness. Computing the Hessian matrix involved in second-order gradients is computationally expensive. To address this, we approximate the Hessian-vector product using differential approximation. Given that low curvature provides better robustness, our ensemble model was designed to consider the influence of curvature among different sub-models. We introduce a novel regularizer to train multiple more-diverse low-curvature network models. Extensive experiments across various datasets demonstrate that our ensemble model exhibits superior robustness against a range of attacks, underscoring the effectiveness of our approach.
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# 長大映像生成に関する調査 : 課題, 方法, 展望

A Survey on Long Video Generation: Challenges, Methods, and Prospects ( http://arxiv.org/abs/2403.16407v1 )

ライセンス: Link先を確認
Chengxuan Li, Di Huang, Zeyu Lu, Yang Xiao, Qingqi Pei, Lei Bai, (参考訳) ビデオ生成は急速に進歩する研究分野であり、幅広い応用のために大きな注目を集めている。 この分野における重要な側面の1つは、ユニークな挑戦と機会を提供する長編ビデオの生成である。 本稿では,時間的自己回帰の分割と克服という2つの重要なパラダイムにまとめる。 ネットワーク設計やコンディショニングなど,各パラダイムで使用される共通モデルについて検討する。 さらに,長期ビデオ生成研究の進展に欠かせないデータセットと評価指標の包括的概要と分類について述べる。 既存の研究の概要をまとめて、このダイナミックな分野における新たな課題と今後の方向性についても論じる。 この調査が、長いビデオ生成の領域における研究者や実践者にとって不可欠な参考になることを期待している。

Video generation is a rapidly advancing research area, garnering significant attention due to its broad range of applications. One critical aspect of this field is the generation of long-duration videos, which presents unique challenges and opportunities. This paper presents the first survey of recent advancements in long video generation and summarises them into two key paradigms: divide and conquer temporal autoregressive. We delve into the common models employed in each paradigm, including aspects of network design and conditioning techniques. Furthermore, we offer a comprehensive overview and classification of the datasets and evaluation metrics which are crucial for advancing long video generation research. Concluding with a summary of existing studies, we also discuss the emerging challenges and future directions in this dynamic field. We hope that this survey will serve as an essential reference for researchers and practitioners in the realm of long video generation.
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# Spike-NeRF:スパイクカメラによるニューラル放射場

Spike-NeRF: Neural Radiance Field Based On Spike Camera ( http://arxiv.org/abs/2403.16410v1 )

ライセンス: Link先を確認
Yijia Guo, Yuanxi Bai, Liwen Hu, Mianzhi Liu, Ziyi Guo, Lei Ma, Tiejun Huang, (参考訳) 時間分解能の高いニューロモルフィックセンサとして、スパイクカメラは、高速光推定、深度推定、物体追跡などの高速視覚応用において、従来のカメラよりも顕著な利点がある。 スパイクカメラの成功に触発されて、スパイクデータから導出される最初のニューラルレージアンス場であるSpike-NeRFを提案し、高速シーンの3次元再構成と新しい視点合成を実現した。 NeRFと同時に撮影されたマルチビュー画像の代わりに、Spike-NeRFの入力は、非常に短時間で動くスパイクカメラによってキャプチャされた連続的なスパイクストリームである。 高周波だが不安定なスパイクデータから正しい安定な3Dシーンを再構成するために, スパイクマスクを特徴的損失関数とともに考案した。 本研究では,スパイクカメラシミュレータを用いたミキサーによる合成シーンの定性的・数値的評価を行った。 その結果,Spike-NeRFは既存の手法や高速シーンで提案したベースラインよりも視覚的に魅力的な結果が得られることがわかった。 コードとデータはまもなく公開されるでしょう。

As a neuromorphic sensor with high temporal resolution, spike cameras offer notable advantages over traditional cameras in high-speed vision applications such as high-speed optical estimation, depth estimation, and object tracking. Inspired by the success of the spike camera, we proposed Spike-NeRF, the first Neural Radiance Field derived from spike data, to achieve 3D reconstruction and novel viewpoint synthesis of high-speed scenes. Instead of the multi-view images at the same time of NeRF, the inputs of Spike-NeRF are continuous spike streams captured by a moving spike camera in a very short time. To reconstruct a correct and stable 3D scene from high-frequency but unstable spike data, we devised spike masks along with a distinctive loss function. We evaluate our method qualitatively and numerically on several challenging synthetic scenes generated by blender with the spike camera simulator. Our results demonstrate that Spike-NeRF produces more visually appealing results than the existing methods and the baseline we proposed in high-speed scenes. Our code and data will be released soon.
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# 教師なしテンプレート支援点雲形状対応ネットワーク

Unsupervised Template-assisted Point Cloud Shape Correspondence Network ( http://arxiv.org/abs/2403.16412v1 )

ライセンス: Link先を確認
Jiacheng Deng, Jiahao Lu, Tianzhu Zhang, (参考訳) 教師なしの点雲形状対応は、ソースとターゲットの点雲の間の点幅対応を確立することを目的としている。 既存の方法では、点雲間の点的特徴類似性を計算することによって、直接対応を得る。 しかし、非剛体物体は強い変形性と特異な形状を有しており、従来とは異なる形状の点雲間の対応を直接確立することが長年の課題である。 この課題に対処するために,テンプレート生成モジュールとテンプレート支援モジュールを含むTANetと呼ばれる,教師なしテンプレート支援点雲形状対応ネットワークを提案する。 提案されたTANetにはいくつかのメリットがある。 まず、テンプレート生成モジュールは、明示的な構造を持つ学習可能なテンプレートのセットを確立する。 第二に、複数の視点からより正確な形状対応を確立するために、生成されたテンプレートを広範囲に活用するテンプレート支援モジュールを導入する。 4つの人間と動物のデータセットに対する大規模な実験は、TANetが最先端の手法に対して好適なパフォーマンスを達成することを示した。

Unsupervised point cloud shape correspondence aims to establish point-wise correspondences between source and target point clouds. Existing methods obtain correspondences directly by computing point-wise feature similarity between point clouds. However, non-rigid objects possess strong deformability and unusual shapes, making it a longstanding challenge to directly establish correspondences between point clouds with unconventional shapes. To address this challenge, we propose an unsupervised Template-Assisted point cloud shape correspondence Network, termed TANet, including a template generation module and a template assistance module. The proposed TANet enjoys several merits. Firstly, the template generation module establishes a set of learnable templates with explicit structures. Secondly, we introduce a template assistance module that extensively leverages the generated templates to establish more accurate shape correspondences from multiple perspectives. Extensive experiments on four human and animal datasets demonstrate that TANet achieves favorable performance against state-of-the-art methods.
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# 時空間光渦パルスによるγ$-光子と横軌道角運動量を持つペアの生成

Generation of $γ$-photons and pairs with transverse orbital angular momentum via spatiotemporal optical vortex pulse ( http://arxiv.org/abs/2403.16414v1 )

ライセンス: Link先を確認
Cui-Wen Zhang, De-Sheng Zhang, Bai-Song Xie, (参考訳) 我々は、高エネルギー電子ビームを内在するTOAM(STOV)パルスのヘッドオン衝突により、高収率の$\gamma$-photonsと外向軌道角運動量(TOAM)のペアを生成する。 STOVパルスのTOAMはほとんど変化せず、TOAMはCMF(Central-of-mass frame)に保存されている。 さらに、高エネルギー電子ビームの初期位置が異なる場合、CMFおよび実験室フレーム(LF)における粒子TOAMの双対性を示す。 さらに、CMF中の$\gamma$-photonsのTOAMは増加し、STOVパルスのトポロジカル電荷が増加するにつれてポジトロンのTOAMは減少し、LFでは$\gamma$-photonsとpositronsのTOAMは減少する。 そして、同じパルス強度以下の結果は、同じパルスエネルギー以下の結果よりも優れている。 高エネルギー電子の初期エネルギーの増加は、両方のフレームにおける$\gamma$-photons と positrons の両方に対するTOAMの増強につながる。 TOAMを新しい自由度とする$$\gamma$-photonsと電子/陽電子は、光学通信、天体物理学、ナノマテリアルなどに幅広い応用をもたらす可能性がある。

We present the generation of well-collimated $\gamma$-photons and pairs with extrinsic transverse orbital angular momentum (TOAM) through the head-on collision of an intense spatiotemporal optical vortex (STOV) pulse carrying intrinsic TOAM with a high-energy electron beam. It is found that the TOAM of STOV pulse remains almost unchanged, and the TOAM is conserved in the center-of-mass frame (CMF). Moreover, there exhibits duality for particles TOAM in the CMF and laboratory frame (LF) when the initial location of high-energy electron beam is different. Furthermore, the TOAM of $\gamma$-photons in the CMF increases while that of positrons decreases as the topological charge of STOV pulse increases, whereas in the LF, the TOAM of both $\gamma$-photons and positrons decreases. And the result under the same pulse intensity is better than that under the same pulse energy. The increase in the initial energy of high-energy electrons leads to an enhancement of the TOAM for both $\gamma$-photons and positrons in both frames. $\gamma$-photons and electrons/positrons with TOAM as a new degree of freedom maybe have an extensive applications in optical communication, astrophysics and nanomaterials and so on.
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# シミュレーションはどの程度信頼性が高いか? : 会話推薦のための現在のLCMベースユーザシミュレータの限界の分析

How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation ( http://arxiv.org/abs/2403.16416v1 )

ライセンス: Link先を確認
Lixi Zhu, Xiaowen Huang, Jitao Sang, (参考訳) Conversational Recommender System (CRS)は、自然言語を使ってユーザの好みを理解し、リアルタイムにパーソナライズされたレコメンデーションを提供する。 CRSは大きな可能性を示しており、研究者はより現実的で信頼性の高いユーザーシミュレータの開発を重要視している。 近年、LLM(Large Language Models)の能力は様々な分野で注目を集めている。 同時に、LLMをベースとしたユーザシミュレータの構築も進められている。 これらの作品はイノベーションを示す一方で、注意を要する一定の制限も伴っている。 本研究では,LCS のユーザシミュレータ構築における LLM の使用限界を分析し,今後の研究を導くことを目的とする。 この目的を達成するために、我々は注目すべき業績であるiEvaLMの分析的検証を行う。 会話レコメンデーションの分野で広く使われている2つのデータセットに関する複数の実験を通じて、LLMに基づくユーザシミュレータの現在の評価手法に関するいくつかの問題点を強調した。 2) CRSレコメンデーションの成功は,ユーザシミュレータからの応答よりも,会話履歴の可用性と品質に大きく依存する。 (3) ユーザシミュレータの出力を単一のプロンプトテンプレートで制御することは困難である。 これらの制限を克服するため,SimpleUserSimを提案する。 本研究は,CRSモデルによるインタラクション情報の利用能力を検証し,推奨結果を大幅に改善するものである。

Conversational Recommender System (CRS) interacts with users through natural language to understand their preferences and provide personalized recommendations in real-time. CRS has demonstrated significant potential, prompting researchers to address the development of more realistic and reliable user simulators as a key focus. Recently, the capabilities of Large Language Models (LLMs) have attracted a lot of attention in various fields. Simultaneously, efforts are underway to construct user simulators based on LLMs. While these works showcase innovation, they also come with certain limitations that require attention. In this work, we aim to analyze the limitations of using LLMs in constructing user simulators for CRS, to guide future research. To achieve this goal, we conduct analytical validation on the notable work, iEvaLM. Through multiple experiments on two widely-used datasets in the field of conversational recommendation, we highlight several issues with the current evaluation methods for user simulators based on LLMs: (1) Data leakage, which occurs in conversational history and the user simulator's replies, results in inflated evaluation results. (2) The success of CRS recommendations depends more on the availability and quality of conversational history than on the responses from user simulators. (3) Controlling the output of the user simulator through a single prompt template proves challenging. To overcome these limitations, we propose SimpleUserSim, employing a straightforward strategy to guide the topic toward the target items. Our study validates the ability of CRS models to utilize the interaction information, significantly improving the recommendation results.
翻訳日:2024-03-26 16:07:18 公開日:2024-03-25
# 大規模言語モデルを活用したCRISPEフレームワークを用いたメタヒューリスティックアルゴリズム

Leveraging Large Language Model to Generate a Novel Metaheuristic Algorithm with CRISPE Framework ( http://arxiv.org/abs/2403.16417v1 )

ライセンス: Link先を確認
Rui Zhong, Yuefeng Xu, Chao Zhang, Jun Yu, (参考訳) 本稿では,新たなメタヒューリスティックアルゴリズム (MA) を少量の入力で自動かつ迅速に設計するために,大規模言語モデル(LLM) ChatGPT-3.5 を借りる。 動物にインスパイアされた新しい動物探索最適化(ZSO)は、継続的な最適化問題を解決するための動物の集団行動からインスピレーションを得ている。 特に、基本的なZSOアルゴリズムは、探索と悪用のバランスをとるために、捕食者相互作用演算子と社会的群れ演算子という2つの探索演算子を含んでいる。 さらに、標準的なプロンプトエンジニアリングフレームワークであるCRISPE(Capacity and Role、Insight、Statement、Personality、Experiment)が、特定のプロンプト設計に責任を負う。 さらに,ZSOアルゴリズムの4つの変種を微調整で設計した。 CEC2014ベンチマーク関数、CEC2022ベンチマーク関数、および6つのエンジニアリング最適化問題に対するZSOアルゴリズムの性能を総合的に検討した。 コンペティターとして20の人気と最先端のMAが採用されている。 実験結果と統計的解析により,ZSO由来のアルゴリズムの有効性と有効性が確認された。 本稿の最後には, LLM時代のメタヒューリスティックスコミュニティの発展の可能性を探る。

In this paper, we borrow the large language model (LLM) ChatGPT-3.5 to automatically and quickly design a new metaheuristic algorithm (MA) with only a small amount of input. The novel animal-inspired MA named zoological search optimization (ZSO) draws inspiration from the collective behaviors of animals for solving continuous optimization problems. Specifically, the basic ZSO algorithm involves two search operators: the prey-predator interaction operator and the social flocking operator to balance exploration and exploitation well. Besides, the standard prompt engineering framework CRISPE (i.e., Capacity and Role, Insight, Statement, Personality, and Experiment) is responsible for the specific prompt design. Furthermore, we designed four variants of the ZSO algorithm with slight human-interacted adjustment. In numerical experiments, we comprehensively investigate the performance of ZSO-derived algorithms on CEC2014 benchmark functions, CEC2022 benchmark functions, and six engineering optimization problems. 20 popular and state-of-the-art MAs are employed as competitors. The experimental results and statistical analysis confirm the efficiency and effectiveness of ZSO-derived algorithms. At the end of this paper, we explore the prospects for the development of the metaheuristics community under the LLM era.
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# バランスルール学習のためのインクリメンタルMaxSATモデル

An incremental MaxSAT-based model to learn balanced rules ( http://arxiv.org/abs/2403.16418v1 )

ライセンス: Link先を確認
Antônio Carlos Souza Ferreira Júnior, Thiago Alves Rocha, (参考訳) 機械学習の分野での進歩は、精度の高い予測を伴う幅広い問題に効果的に対処する多くのアプリケーションの開発に繋がった。 しかし、場合によっては精度だけでは不十分である。 多くの現実世界の問題は、予測の背後にある説明と解釈可能性も要求する。 最も一般的な解釈可能なモデルの1つは分類規則である。 本研究の目的は,IMLIB と呼ばれる MaxSAT に基づく解釈可能かつバランスの取れたルールを学習するための漸進的モデルを提案することである。 この新モデルは2つのアプローチに基づいており、1つはSAT、もう1つはMaxSATをベースとしている。 SATに基づくものは、生成された各ルールのサイズを制限し、それらのバランスをとることができる。 このようなルールの集合は、大きなルールと小さなルールの混合よりも理解しやすいように思われる。 MaxSATをベースとしたアプローチは、IMLIと呼ばれ、データセットにモデルを漸進的に適用することで一連のルールを学習するパフォーマンスを向上させるテクニックを提供する。 最後に、IMLIBとIMLIは多様なデータベースを用いて比較される。 IMLIBは精度の観点からIMLIに匹敵する結果を得た。

The increasing advancements in the field of machine learning have led to the development of numerous applications that effectively address a wide range of problems with accurate predictions. However, in certain cases, accuracy alone may not be sufficient. Many real-world problems also demand explanations and interpretability behind the predictions. One of the most popular interpretable models that are classification rules. This work aims to propose an incremental model for learning interpretable and balanced rules based on MaxSAT, called IMLIB. This new model was based on two other approaches, one based on SAT and the other on MaxSAT. The one based on SAT limits the size of each generated rule, making it possible to balance them. We suggest that such a set of rules seem more natural to be understood compared to a mixture of large and small rules. The approach based on MaxSAT, called IMLI, presents a technique to increase performance that involves learning a set of rules by incrementally applying the model in a dataset. Finally, IMLIB and IMLI are compared using diverse databases. IMLIB obtained results comparable to IMLI in terms of accuracy, generating more balanced rules with smaller sizes.
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# テキスト・ツー・イメージ生成の精細化 : グリフ強調画像生成の精度向上を目指して

Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation ( http://arxiv.org/abs/2403.16422v1 )

ライセンス: Link先を確認
Sanyam Lakhanpal, Shivang Chopra, Vinija Jain, Aman Chadha, Man Luo, (参考訳) 近年,拡散モデルに基づくテキスト・ツー・イメージ(T2I)生成手法が注目されている。 しかしながら、バニラ拡散モデルは、生成された画像内に表示されるテキストのスペルの不正確さに悩まされることが多い。 視覚テキストを生成する能力は重要であり、学術的関心と幅広い実践的応用の両方を提供する。 正確なビジュアルテキスト画像を作成するために、最先端技術は、テキストレイアウト生成器と、生成されたテキストレイアウトに条件付けされた画像生成器とからなるグリフ制御画像生成アプローチを採用する。 それにもかかわらず、我々の研究はこれらのモデルが依然として3つの主要な課題に直面していることを明らかにし、将来の研究を促進するためのテストベッドの開発を促した。 我々はLenCom-Evalというベンチマークを導入し、Lengthy と Complex Visual Text を用いて画像を生成するモデルの性能をテストする。 次に,2段階生成アプローチを強化するためのトレーニングフリーフレームワークを提案する。 LenCom-Eval と MARIO-Eval のベンチマークによるアプローチの有効性を検証し,CLIPScore や OCR の精度,リコール,F1 スコア,精度,編集距離スコアなど,様々な評価指標において顕著な改善点を示した。 例えば,提案フレームワークは,LenCom-Eval 上の OCR ワード F1 と MARIO-Eval のそれぞれで 23\% 以上, 13.5\% 以上のバックボーンモデルである TextDiffuser を改善した。 我々の研究は、既存の文献が未発見のニッチである長文・希文画像の生成に焦点をあてて、この分野にユニークな貢献をしている。

Over the past few years, Text-to-Image (T2I) generation approaches based on diffusion models have gained significant attention. However, vanilla diffusion models often suffer from spelling inaccuracies in the text displayed within the generated images. The capability to generate visual text is crucial, offering both academic interest and a wide range of practical applications. To produce accurate visual text images, state-of-the-art techniques adopt a glyph-controlled image generation approach, consisting of a text layout generator followed by an image generator that is conditioned on the generated text layout. Nevertheless, our study reveals that these models still face three primary challenges, prompting us to develop a testbed to facilitate future research. We introduce a benchmark, LenCom-Eval, specifically designed for testing models' capability in generating images with Lengthy and Complex visual text. Subsequently, we introduce a training-free framework to enhance the two-stage generation approaches. We examine the effectiveness of our approach on both LenCom-Eval and MARIO-Eval benchmarks and demonstrate notable improvements across a range of evaluation metrics, including CLIPScore, OCR precision, recall, F1 score, accuracy, and edit distance scores. For instance, our proposed framework improves the backbone model, TextDiffuser, by more than 23\% and 13.5\% in terms of OCR word F1 on LenCom-Eval and MARIO-Eval, respectively. Our work makes a unique contribution to the field by focusing on generating images with long and rare text sequences, a niche previously unexplored by existing literature
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# LCSH科目におけるChatGPTの使用実験

An Experiment with the Use of ChatGPT for LCSH Subject Assignment on Electronic Theses and Dissertations ( http://arxiv.org/abs/2403.16424v1 )

ライセンス: Link先を確認
Eric H. C. Chow, TJ Kao, Xiaoli Li, (参考訳) 本研究は,Large Language Models (LLMs) をLCSH(Community of Congress Subject Headings) に活用することを目的としたものである。 著者らはChatGPTを使用して、タイトルと要約に基づいて電子的論文や論文(ETD)の主題的見出しを生成する。 その結果, 生成した被験者の見出しは有効であったが, 具体性や消耗性に問題があることがわかった。 この研究は、LCSHを迅速に生成するためのコスト効率の良いアプローチも提供しながら、学術図書館でカタログ化を待っている項目のバックログに対する戦略的応答として機能することを示します。 それでも、LCSHの妥当性、徹底性、特異性を検証するためには、人間のカタログは依然として不可欠である。

This study delves into the potential use of Large Language Models (LLMs) for generating Library of Congress Subject Headings (LCSH). The authors employed ChatGPT to generate subject headings for electronic theses and dissertations (ETDs) based on their titles and summaries. The results revealed that although some generated subject headings were valid, there were issues regarding specificity and exhaustiveness. The study showcases that LLMs can serve as a strategic response to the backlog of items awaiting cataloging in academic libraries, while also offering a cost-effective approach for promptly generating LCSH. Nonetheless, human catalogers remain essential for verifying and enhancing the validity, exhaustiveness, and specificity of LCSH generated by LLMs.
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# イベントカメラにおける高速・低速適応バイアスによる視覚的位置認識の強化

Enhancing Visual Place Recognition via Fast and Slow Adaptive Biasing in Event Cameras ( http://arxiv.org/abs/2403.16425v1 )

ライセンス: Link先を確認
Gokul B. Nair, Michael Milford, Tobias Fischer, (参考訳) イベントカメラは、低レイテンシ、エネルギー効率、高ダイナミックレンジなどの利点があるため、ロボット工学でますます人気がある。 それでも、そのダウンストリームタスク性能はバイアスパラメータの最適化に大きく影響されている。 これらのパラメータは、例えば、イベントをトリガーするために必要な光強度の変化を規制します。 本稿では,2つのインタラクション手法を用いて,バイアスパラメータを自動調整するフィードバック制御アルゴリズムを提案する。 1)連続イベント間の最小間隔を設定する耐火期間の即時、即時、即時、即時、即時、即時適応 2)屈折周期を繰り返し変更しても、イベントレートが指定された境界を超えた場合、制御部は、全画素にわたる短いノイズイベントの後に安定化する画素帯域幅とイベントしきい値に適応する(緩やかな適応)。 本評価では,入力されたクエリイメージを参照データベースと比較する視覚的位置認識タスクに着目した。 アルゴリズムの適応フィードバック制御の総合的な評価をリアルタイムで行った。 そこで我々は,DAVIS346イベントカメラストリームを含むQCR-Fast-and-Slowデータセットを,100mの室内実験室を走行するScout Miniロボットの366回の走行から収集した。 提案したフィードバックコントローラは,標準バイアス設定や事前フィードバック制御手法と比較して,優れた性能を示す。 また, 偏差調整がタスク性能に及ぼす影響や, 高速・低速適応機構に関する特徴緩和研究について詳述した。

Event cameras are increasingly popular in robotics due to their beneficial features, such as low latency, energy efficiency, and high dynamic range. Nevertheless, their downstream task performance is greatly influenced by the optimization of bias parameters. These parameters, for instance, regulate the necessary change in light intensity to trigger an event, which in turn depends on factors such as the environment lighting and camera motion. This paper introduces feedback control algorithms that automatically tune the bias parameters through two interacting methods: 1) An immediate, on-the-fly fast adaptation of the refractory period, which sets the minimum interval between consecutive events, and 2) if the event rate exceeds the specified bounds even after changing the refractory period repeatedly, the controller adapts the pixel bandwidth and event thresholds, which stabilizes after a short period of noise events across all pixels (slow adaptation). Our evaluation focuses on the visual place recognition task, where incoming query images are compared to a given reference database. We conducted comprehensive evaluations of our algorithms' adaptive feedback control in real-time. To do so, we collected the QCR-Fast-and-Slow dataset that contains DAVIS346 event camera streams from 366 repeated traversals of a Scout Mini robot navigating through a 100 meter long indoor lab setting (totaling over 35km distance traveled) in varying brightness conditions with ground truth location information. Our proposed feedback controllers result in superior performance when compared to the standard bias settings and prior feedback control methods. Our findings also detail the impact of bias adjustments on task performance and feature ablation studies on the fast and slow adaptation mechanisms.
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# 超伝導NISQプロセッサにおける非線形量子ダイナミクス

Nonlinear Quantum Dynamics in Superconducting NISQ Processors ( http://arxiv.org/abs/2403.16426v1 )

ライセンス: Link先を確認
Muhammad Umer, Eleftherios Mastorakis, Sofia Evangelou, Dimitris G. Angelakis, (参考訳) 最近提案された変分量子アルゴリズムは、変分量子コンピューティングの地平線を非線形物理学や流体力学に拡張した。 本研究では, このアルゴリズムを用いて, 二次ポテンシャルを持つ非線形シュルンディンガー方程式の基底状態を求め, 超伝導量子プロセッサ上に実装する。 実振幅アンサッツの表現性を解析し,非線形性の強度の変化を特徴とする様々な相互作用系における非線形系の基底状態を把握する。 本研究により, 量子ハードウェアノイズはエネルギーコスト関数の評価を損なうが, 問題の小さな事例は基底状態に連続的に収束することがわかった。 我々は、IBM Qデバイスに様々な問題インスタンスを実装し、量子ハードウェアノイズに起因するエネルギーコスト関数評価における類似の相違を報告する。 後者は州の忠実度推定に欠落している。 我々の包括的分析は、非線形量子力学のための変分アルゴリズムの実践的実装と進歩に関する貴重な知見を提供する。

A recently proposed variational quantum algorithm has expanded the horizon of variational quantum computing to nonlinear physics and fluid dynamics. In this work, we employ this algorithm to find the ground state of the nonlinear Schr\"{o}dinger equation with a quadratic potential and implement it on the cloud superconducting quantum processors. We analyze the expressivity of real-amplitude ansatz to capture the ground state of the nonlinear system across various interaction regimes characterized by varying strengths of nonlinearity. Our investigation reveals that although quantum hardware noise impairs the evaluation of the energy cost function, small instances of the problem consistently converge to the ground state. We implement a variety of problem instances on IBM Q devices and report analogous discrepancies in the energy cost function evaluation attributable to quantum hardware noise. The latter are absent in the state fidelity estimation. Our comprehensive analysis offers valuable insights into the practical implementation and advancement of the variational algorithms for nonlinear quantum dynamics.
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# Re2LLM: セッションベースのレコメンデーションのためのリフレクティブ強化大言語モデル

Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation ( http://arxiv.org/abs/2403.16427v1 )

ライセンス: Link先を確認
Ziyan Wang, Yingpeng Du, Zhu Sun, Haoyan Chua, Kaidong Feng, Wenya Wang, Jie Zhang, (参考訳) 大規模言語モデル (LLMs) はセッションベースレコメンデーション(SBR)を強化するための有望なアプローチとして登場し, プロンプトベースと微調整ベースの両方の手法が広く研究されている。 しかし、従来の手法では、タスク固有のフィードバックが欠如しているため、LLMの正しい推論を引き出すための最適なプロンプトに苦しむため、不満足なレコメンデーションが生じる。 後者の手法はドメイン固有の知識でLLMを微調整しようとするが、高い計算コストやオープンソースのバックボーンへの依存といった制限に直面している。 このような問題に対処するため、我々はSBRのための \underline{Re}flective \underline{Re}inforcement \underline{L}arge \underline{L}anguage \underline{M}odel (Re2LLM)を提案する。 特に,LLMが理解しやすく,消化しやすい知識を効果的に抽出するために,まず反射探索モジュールを設計する。 具体的には,LLMに対して自己回帰による推薦誤りの検証を指示し,これらの誤りを修正可能なヒントを含む知識ベース(KB)を構築する。 さらに,LLMの正しい推論を効率的に行うために,軽量検索エージェントを訓練するための強化利用モジュールを考案する。 タスク固有のフィードバックに基づいて、構築されたKBからヒントを選択することを学び、そこでヒントは、より良いレコメンデーションのためにLLMの推論を修正するためのガイダンスとして役立ちます。 複数の実世界のデータセットに対する大規模な実験は、我々の手法が常に最先端の手法より優れていることを示した。

Large Language Models (LLMs) are emerging as promising approaches to enhance session-based recommendation (SBR), where both prompt-based and fine-tuning-based methods have been widely investigated to align LLMs with SBR. However, the former methods struggle with optimal prompts to elicit the correct reasoning of LLMs due to the lack of task-specific feedback, leading to unsatisfactory recommendations. Although the latter methods attempt to fine-tune LLMs with domain-specific knowledge, they face limitations such as high computational costs and reliance on open-source backbones. To address such issues, we propose a \underline{Re}flective \underline{Re}inforcement \underline{L}arge \underline{L}anguage \underline{M}odel (Re2LLM) for SBR, guiding LLMs to focus on specialized knowledge essential for more accurate recommendations effectively and efficiently. In particular, we first design the Reflective Exploration Module to effectively extract knowledge that is readily understandable and digestible by LLMs. To be specific, we direct LLMs to examine recommendation errors through self-reflection and construct a knowledge base (KB) comprising hints capable of rectifying these errors. To efficiently elicit the correct reasoning of LLMs, we further devise the Reinforcement Utilization Module to train a lightweight retrieval agent. It learns to select hints from the constructed KB based on the task-specific feedback, where the hints can serve as guidance to help correct LLMs reasoning for better recommendations. Extensive experiments on multiple real-world datasets demonstrate that our method consistently outperforms state-of-the-art methods.
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# Egocentric Hand Interactions with Objects における Pose Estimation のベンチマークと課題

Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects ( http://arxiv.org/abs/2403.16428v1 )

ライセンス: Link先を確認
Zicong Fan, Takehiko Ohkawa, Linlin Yang, Nie Lin, Zhishan Zhou, Shihao Zhou, Jiajun Liang, Zhong Gao, Xuanyang Zhang, Xue Zhang, Fei Li, Liu Zheng, Feng Lu, Karim Abou Zeid, Bastian Leibe, Jeongwan On, Seungryul Baek, Aditya Prakash, Saurabh Gupta, Kun He, Yoichi Sato, Otmar Hilliges, Hyung Jin Chang, Angela Yao, (参考訳) 私たちは自分の手で世界と対話し、自分達の(自我中心の)視点でそれを見るのです。 ロボット工学、AR/VR、行動認識、動き生成のタスクにおいて、自我中心の視点からこのような相互作用を総合的に理解することが重要である。 このような相互作用を3Dで正確に再構築することは、重閉塞、視点バイアス、カメラ歪み、頭部運動からの運動ぼけなどにより困難である。 この目的のために、慎重に設計されたトレーニングとテストの分割により、アセンブリHandsとARCTICデータセットに基づいたHANDS23チャレンジを設計しました。 提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。 本分析は,自己中心型カメラに特有の歪みに対処し,複雑な手動物体の相互作用を学習するために高容量トランスフォーマーを採用し,異なる視点から予測を融合させることの有効性を示した。 本研究は,手の動きの速さ,自我中心の狭い視点からの物体再構成,両手と物体の密接な接触など,最先端の手法で難解なシナリオを明らかにした。 我々の取り組みは、コミュニティの知識基盤を充実させ、エゴセントリックな手-物間相互作用に関する将来の手の研究を促進する。

We interact with the world with our hands and see it through our own (egocentric) perspective. A holistic 3D understanding of such interactions from egocentric views is important for tasks in robotics, AR/VR, action recognition and motion generation. Accurately reconstructing such interactions in 3D is challenging due to heavy occlusion, viewpoint bias, camera distortion, and motion blur from the head movement. To this end, we designed the HANDS23 challenge based on the AssemblyHands and ARCTIC datasets with carefully designed training and testing splits. Based on the results of the top submitted methods and more recent baselines on the leaderboards, we perform a thorough analysis on 3D hand(-object) reconstruction tasks. Our analysis demonstrates the effectiveness of addressing distortion specific to egocentric cameras, adopting high-capacity transformers to learn complex hand-object interactions, and fusing predictions from different views. Our study further reveals challenging scenarios intractable with state-of-the-art methods, such as fast hand motion, object reconstruction from narrow egocentric views, and close contact between two hands and objects. Our efforts will enrich the community's knowledge foundation and facilitate future hand studies on egocentric hand-object interactions.
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# DOCTR:ポイントシーン理解のためのオブジェクト中心変換器

DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding ( http://arxiv.org/abs/2403.16431v1 )

ライセンス: Link先を確認
Xiaoxuan Yu, Hao Wang, Weiming Li, Qiang Wang, Soonyong Cho, Younghun Sung, (参考訳) ポイントシーン理解は、各オブジェクトをセグメント化し、そのポーズを推定し、メッシュを同時に再構築することを目的とした、現実世界のシーンポイントクラウドを処理するための難しいタスクである。 最近の最先端の手法はまず各オブジェクトを分割し、次に異なるサブタスクの複数のステージで独立に処理する。 これにより、最適化のための複雑なパイプラインが発生し、複数のオブジェクト間の関係制約の活用が困難になる。 本研究では,複数のサブタスクに対する複数のオブジェクトによる学習を統一的に行うために,オブジェクト中心の表現を探索するDECTR(Disentangled Object-Centric TRansformer)を提案する。 各オブジェクトはクエリとして表現され、Transformerデコーダはその関係を含む全てのクエリを反復的に最適化する。 特に,セマンティック・ジオメトリ・ディコンタングルド・クエリ (SGDQ) の設計を導入し,クエリ特徴が対応するサブタスクに関連するセマンティック情報や幾何学情報に別々に参加できるようにする。 トレーニング中にすべてのサブタスクの監督をうまく利用するために、ハイブリッドなバイパートイトマッチングモジュールが使用される。 定性的かつ定量的な実験結果から,本手法が課題であるScanNetデータセットの最先端性能を実現することを示す。 コードはhttps://github.com/SAITPublic/DOCTRで入手できる。

Point scene understanding is a challenging task to process real-world scene point cloud, which aims at segmenting each object, estimating its pose, and reconstructing its mesh simultaneously. Recent state-of-the-art method first segments each object and then processes them independently with multiple stages for the different sub-tasks. This leads to a complex pipeline to optimize and makes it hard to leverage the relationship constraints between multiple objects. In this work, we propose a novel Disentangled Object-Centric TRansformer (DOCTR) that explores object-centric representation to facilitate learning with multiple objects for the multiple sub-tasks in a unified manner. Each object is represented as a query, and a Transformer decoder is adapted to iteratively optimize all the queries involving their relationship. In particular, we introduce a semantic-geometry disentangled query (SGDQ) design that enables the query features to attend separately to semantic information and geometric information relevant to the corresponding sub-tasks. A hybrid bipartite matching module is employed to well use the supervisions from all the sub-tasks during training. Qualitative and quantitative experimental results demonstrate that our method achieves state-of-the-art performance on the challenging ScanNet dataset. Code is available at https://github.com/SAITPublic/DOCTR.
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# $\textit{LinkPrompt}$: Promptベースの言語モデルに対する自然および普遍的敵攻撃

$\textit{LinkPrompt}$: Natural and Universal Adversarial Attacks on Prompt-based Language Models ( http://arxiv.org/abs/2403.16432v1 )

ライセンス: Link先を確認
Yue Xu, Wenjie Wang, (参考訳) Promptベースの学習は、プレトレーニング言語モデル(PLM)を下流タスクに適応させる新しい言語モデルトレーニングパラダイムである。 モデルの微調整に固定プロンプトテンプレートを使う代わりに、最適化によるプロンプト探索の有効性を示す研究もある。 PLM上でのプロンプトベースの学習の迅速な最適化プロセスはまた、モデルを誤解させる敵のプロンプトの生成に関する洞察を与え、このパラダイムの敵の脆弱性に対する懸念を提起する。 近年の研究では、UAT(Universal adversarial triggers)が生成され、対象のPLMの予測だけでなく、プロンプトベースのファインチューニングモデル(PFM)の予測も変更可能であることが示されている。 しかし、以前の作品に見られるUATは、しばしば読めないトークンや文字であり、適応的な防御を持つ自然なテキストと容易に区別できる。 本研究では,UAT の自然性を考察し,ターゲット PLM や PFM を効果的に攻撃するだけでなく,トリガトークン間の自然性も維持する勾配に基づくビーム探索アルゴリズムによりUAT を生成する逆攻撃アルゴリズムである $\textit{LinkPrompt}$ を開発する。 さらに, オープンソースのLarge Language Model (LLM) Llama2 と API アクセス LLM GPT-3.5-turbo への UAT の転送性についても検討した。

Prompt-based learning is a new language model training paradigm that adapts the Pre-trained Language Models (PLMs) to downstream tasks, which revitalizes the performance benchmarks across various natural language processing (NLP) tasks. Instead of using a fixed prompt template to fine-tune the model, some research demonstrates the effectiveness of searching for the prompt via optimization. Such prompt optimization process of prompt-based learning on PLMs also gives insight into generating adversarial prompts to mislead the model, raising concerns about the adversarial vulnerability of this paradigm. Recent studies have shown that universal adversarial triggers (UATs) can be generated to alter not only the predictions of the target PLMs but also the prediction of corresponding Prompt-based Fine-tuning Models (PFMs) under the prompt-based learning paradigm. However, UATs found in previous works are often unreadable tokens or characters and can be easily distinguished from natural texts with adaptive defenses. In this work, we consider the naturalness of the UATs and develop $\textit{LinkPrompt}$, an adversarial attack algorithm to generate UATs by a gradient-based beam search algorithm that not only effectively attacks the target PLMs and PFMs but also maintains the naturalness among the trigger tokens. Extensive results demonstrate the effectiveness of $\textit{LinkPrompt}$, as well as the transferability of UATs generated by \textit{LinkPrompt} to open-sourced Large Language Model (LLM) Llama2 and API-accessed LLM GPT-3.5-turbo.
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# InstUPR : 大規模言語モデルを用いた指導に基づく教師なしパス

InstUPR : Instruction-based Unsupervised Passage Reranking with Large Language Models ( http://arxiv.org/abs/2403.16435v1 )

ライセンス: Link先を確認
Chao-Wei Huang, Yun-Nung Chen, (参考訳) 本稿では,大規模言語モデル (LLM) に基づく教師なしパスリグレード手法であるInstUPRを紹介する。 クエリドキュメントペアや検索固有の命令を用いた広範囲なトレーニングを頼りにしている既存のアプローチとは違い,命令調整型LLMの命令追従機能を活用して,追加の微調整を行わない。 これを実現するために,ソフトスコアアグリゲーション手法を導入し,教師なしパスリグレードにペアワイズ・リグレードを採用する。 BEIRベンチマークの実験では、InstUPRは教師なしベースラインと命令調整されたリランカよりも優れており、その効果と優位性を強調している。 すべての実験を再現するソースコードはhttps://github.com/MiuLab/InstUPRで公開されている。

This paper introduces InstUPR, an unsupervised passage reranking method based on large language models (LLMs). Different from existing approaches that rely on extensive training with query-document pairs or retrieval-specific instructions, our method leverages the instruction-following capabilities of instruction-tuned LLMs for passage reranking without any additional fine-tuning. To achieve this, we introduce a soft score aggregation technique and employ pairwise reranking for unsupervised passage reranking. Experiments on the BEIR benchmark demonstrate that InstUPR outperforms unsupervised baselines as well as an instruction-tuned reranker, highlighting its effectiveness and superiority. Source code to reproduce all experiments is open-sourced at https://github.com/MiuLab/InstUPR
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# DevOpsの課題に関する混合手法の研究

A Mixed Method Study of DevOps Challenges ( http://arxiv.org/abs/2403.16436v1 )

ライセンス: Link先を確認
Minaoar Hossain Tanzil, Masud Sarker, Gias Uddin, Anindya Iqbal, (参考訳) コンテキスト: DevOpsプラクティスはソフトウェア開発とIT運用を組み合わせたものです。 人気のオンライン開発者フォーラムStack Overflow(SO)には、DevOps関連の記事が増えている。 以前の調査では、ビルド/リリースエンジニアリングに関するSOポストを分析していましたが、DevOpsに関する議論に特に注目する研究はありませんでした。 目的: 現在利用可能なDevOpsツールとテクニックとDevOpsプラクティスの組織的課題を使用して、開発者が直面する課題を学ぶこと。 方法:DevOpsに関する議論を含む174K SOポストにトピックモデリングを適用することで、実証的研究を行う。 次に、専門家のDevOps実践者21人を対象に、実証的研究結果の検証と拡張を行いました。 結果: 1) クラウドとCI/CDツール,インフラストラクチャ・アズ・コード,コンテナとオーケストレーション,品質保証の4つのカテゴリにグループ化された,23のDevOpsトピックがある。 2) トピックカテゴリ Cloud & CI/CD Tools には,データセットの全質問の48.6%をカバーするトピック (10) が最も多く,次いで Infrastructure as Code (28.9%) が含まれている。 (3) ファイル管理が最も一般的なトピックはJenkins Pipelineで、一方、インフラ的な例外処理とJenkins分散アーキテクチャは最も難しいトピック(最低でも受け入れられる回答)である。 (4) 調査では、開発者は現在のDevOpsツールが容易に考慮される前に、ハンズオンエクスペリエンスが必要であると言及している。 彼らは、急速に変化するDevOpsツールやテクニックを学ぶために、より良いドキュメンテーションと学習リソースの必要性を高めた。 実践者はDevOpsスキル開発のための組織による正式なトレーニングアプローチも強調した。 結論: アーキテクトとマネージャは、この研究の成果を使って適切なDevOps技術を採用することができ、組織はツールを設計したり、特定のDevOpsトレーニングプログラムを処理したりすることができます。

Context: DevOps practices combine software development and IT operations. There is a growing number of DevOps related posts in popular online developer forum Stack Overflow (SO). While previous research analyzed SO posts related to build/release engineering, we are aware of no research that specifically focused on DevOps related discussions. Objective: To learn the challenges developers face while using the currently available DevOps tools and techniques along with the organizational challenges in DevOps practices. Method: We conduct an empirical study by applying topic modeling on 174K SO posts that contain DevOps discussions. We then validate and extend the empirical study findings with a survey of 21 professional DevOps practitioners. Results: We find that: (1) There are 23 DevOps topics grouped into four categories: Cloud & CI/CD Tools, Infrastructure as Code, Container & Orchestration, and Quality Assurance. (2) The topic category Cloud & CI/CD Tools contains the highest number of topics (10) which cover 48.6% of all questions in our dataset, followed by the category Infrastructure as Code (28.9%). (3) File management is the most popular topic followed by Jenkins Pipeline, while infrastructural Exception Handling and Jenkins Distributed Architecture are the most difficult topics (with least accepted answers). (4) In the survey, developers mention that it requires hands-on experience before current DevOps tools can be considered easy. They raised the needs for better documentation and learning resources to learn the rapidly changing DevOps tools and techniques. Practitioners also emphasized on the formal training approach by the organizations for DevOps skill development. Conclusion: Architects and managers can use the findings of this research to adopt appropriate DevOps technologies, and organizations can design tool or process specific DevOps training programs.
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# プログラム実行時の動作を考慮した大規模言語モデルの評価

Evaluating Large Language Models with Runtime Behavior of Program Execution ( http://arxiv.org/abs/2403.16437v1 )

ライセンス: Link先を確認
Junkai Chen, Zhiyuan Pan, Xing Hu, Zhenhao Li, Ge Li, Xin Xia, (参考訳) コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。 コードLLMの性能を様々な面で評価するために、多くのベンチマーク(HumanEvalやClassEvalなど)が提案されている。 コード推論は、コードLLMの最も重要な能力の1つであるが、コード推論のための既存のベンチマークでは不十分である。 通常、プログラムの実行中の中間動作の評価を無視して、プログラムの入力と出力を予測することに重点を置いており、論理的一貫性(例えば、実行経路の予測が間違っている場合は、モデルが正しい出力を与えるべきではない)を推論する。 本稿では,コード推論能力とプログラム実行によるLLMの整合性を評価するためのフレームワークであるRevalを提案する。 既存のコードベンチマークを利用して、フレームワーク内の新しいベンチマークに適応しています。 大規模な実証実験を行い、ほとんどのLCMは実行時行動推論(平均精度44.4%)とインクリメンタル一貫性評価(平均ICスコア10.3)の両方で満足できない性能を示す。 現在のコードLLMの評価結果は、コードLLMのコード推論能力を強化するために、コミュニティが緊急に必要なことを反映している。

Large language models for code (i.e., code LLMs) have shown strong code understanding and generation capabilities. To evaluate the capabilities of code LLMs in various aspects, many benchmarks have been proposed (e.g., HumanEval and ClassEval). Code reasoning is one of the most essential abilities of code LLMs, but existing benchmarks for code reasoning are not sufficient. Typically, they focus on predicting the input and output of a program, ignoring the evaluation of the intermediate behavior during program execution, as well as the logical consistency (e.g., the model should not give the correct output if the prediction of execution path is wrong) when performing the reasoning. To address these problems, in this paper, we propose a framework, namely REval, for evaluating code reasoning abilities and consistency of code LLMs with program execution. We utilize existing code benchmarks and adapt them to new benchmarks within our framework. A large-scale empirical study is conducted and most LLMs show unsatisfactory performance on both Runtime Behavior Reasoning (i.e., an average accuracy of 44.4%) and Incremental Consistency Evaluation (i.e., an average IC score of 10.3). Evaluation results of current code LLMs reflect the urgent need for the community to strengthen the code reasoning capability of code LLMs.
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# 電圧イメージングのためのリアルタイムニューロンセグメンテーション

Real-time Neuron Segmentation for Voltage Imaging ( http://arxiv.org/abs/2403.16438v1 )

ライセンス: Link先を確認
Yosuke Bando, Ramdas Pillai, Atsushi Kajita, Farhan Abdul Hakeem, Yves Quemener, Hua-an Tseng, Kiryl D. Piatkevich, Changyang Linghu, Xue Han, Edward S. Boyden, (参考訳) 電圧イメージングでは、蛍光顕微鏡を用いて、個々のニューロンの膜電位が毎秒数百から数千フレームに記録されるため、データ処理が課題となる。 画像サイズが制限された1分でも、数万フレームからなるビデオデータのギガバイトが生成されるため、処理に時間を要する可能性がある。 さらに、ミリ秒レベルの短い露光は、特にノイズ信号が背景蛍光に埋もれている深脳標本において、ノイズのあるビデオフレーム、特にニューロンのフットプリントを隠蔽する。 この課題に対処するため、我々は、複数の重重なりうる、ノイズの多いビデオフレームからニューロンをスパイクする高速ニューロンセグメンテーション法を提案し、GPU加速度運動補正とともに、提案したセグメンテーション法を組み込んだデータ処理パイプラインを実装した。 我々のパイプラインは、既存のデータセットや新しいデータセットをテストすることで、散らかったデータセットからでも人間のアノテーションによく一致するニューロンのフットプリントを抽出し、単一のデスクトップコンピュータ上で初めて電圧画像データのリアルタイム処理を実演する。

In voltage imaging, where the membrane potentials of individual neurons are recorded at from hundreds to thousand frames per second using fluorescence microscopy, data processing presents a challenge. Even a fraction of a minute of recording with a limited image size yields gigabytes of video data consisting of tens of thousands of frames, which can be time-consuming to process. Moreover, millisecond-level short exposures lead to noisy video frames, obscuring neuron footprints especially in deep-brain samples where noisy signals are buried in background fluorescence. To address this challenge, we propose a fast neuron segmentation method able to detect multiple, potentially overlapping, spiking neurons from noisy video frames, and implement a data processing pipeline incorporating the proposed segmentation method along with GPU-accelerated motion correction. By testing on existing datasets as well as on new datasets we introduce, we show that our pipeline extracts neuron footprints that agree well with human annotation even from cluttered datasets, and demonstrate real-time processing of voltage imaging data on a single desktop computer for the first time.
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# 軌道予測におけるオンラインマップの不確かさの生成と活用

Producing and Leveraging Online Map Uncertainty in Trajectory Prediction ( http://arxiv.org/abs/2403.16439v1 )

ライセンス: Link先を確認
Xunjiang Gu, Guanyu Song, Igor Gilitschenski, Marco Pavone, Boris Ivanovic, (参考訳) ハイデフィニション(HD)マップは、高度に関連付けられたラベル付けとメンテナンスコストにもかかわらず、現代の自動運転車(AV)スタックの開発において重要な役割を担っている。 その結果,センサデータからHDマップをオンラインに推定する手法が提案されている。 しかし、現在のオンラインマップ推定手法は下流タスクを分離して開発されており、AVスタックへの統合が複雑である。 特に、不確実性や信頼性の見積は発生しない。 本研究では、複数の最先端オンラインマップ推定手法を拡張し、不確実性をさらに推定し、トラジェクティブ予測とオンラインマップをより緊密に統合する方法を示す。 これにより、不確実性の導入はトレーニング収束を最大50%高速化し、実世界のnuScenes駆動データセット上での予測性能が最大15%向上することがわかった。

High-definition (HD) maps have played an integral role in the development of modern autonomous vehicle (AV) stacks, albeit with high associated labeling and maintenance costs. As a result, many recent works have proposed methods for estimating HD maps online from sensor data, enabling AVs to operate outside of previously-mapped regions. However, current online map estimation approaches are developed in isolation of their downstream tasks, complicating their integration in AV stacks. In particular, they do not produce uncertainty or confidence estimates. In this work, we extend multiple state-of-the-art online map estimation methods to additionally estimate uncertainty and show how this enables more tightly integrating online mapping with trajectory forecasting. In doing so, we find that incorporating uncertainty yields up to 50% faster training convergence and up to 15% better prediction performance on the real-world nuScenes driving dataset.
翻訳日:2024-03-26 15:57:31 公開日:2024-03-25
# RCBEVDet:3次元物体検出のための鳥眼視におけるレーダーカメラフュージョン

RCBEVDet: Radar-camera Fusion in Bird's Eye View for 3D Object Detection ( http://arxiv.org/abs/2403.16440v1 )

ライセンス: Link先を確認
Zhiwei Lin, Zhe Liu, Zhongyu Xia, Xinhao Wang, Yongtao Wang, Shengxiang Qi, Yang Dong, Nan Dong, Le Zhang, Ce Zhu, (参考訳) 3次元物体検出は、自律運転における重要な課題の1つである。 低コストで3Dオブジェクト検出が可能なマルチビューカメラが提案され,LiDARセンサの代替となる。 しかし,カメラのみに頼って高精度で頑健な3次元物体検出を実現することは困難である。 この問題に対する効果的な解決策は、マルチビューカメラと経済的ミリ波レーダーセンサーを組み合わせることで、より信頼性の高いマルチモーダル3Dオブジェクト検出を実現することである。 本稿では,鳥眼ビュー(BEV)におけるレーダーカメラ融合3次元物体検出手法であるRTBEVDetを紹介する。 具体的には、レーダBEV特徴抽出のためのRadarBEVNetを最初に設計する。 RadarBEVNetは、デュアルストリームレーダーバックボーンとRadar Cross-Section (RCS)対応のBEVエンコーダで構成される。 デュアルストリームレーダバックボーンでは,2つのエンコーダ間の通信を容易にするインジェクションおよび抽出モジュールを用いて,点ベースのエンコーダと変圧器ベースのエンコーダを抽出する。 RCS対応のBEVエンコーダは、BEVの点特徴を散乱する前にRCSをオブジェクトサイズとする。 さらに,マルチモーダルBEV機能をレーダーやカメラから自動調整するクロスアテンション多層核融合モジュールを提案し,その特徴をチャネル層と空間融合層で融合させる。 実験の結果,RTBEVDet は nuScenes と View-of-delft (VoD) 3D オブジェクト検出ベンチマーク上で,最先端のレーダカメラ融合を達成できた。 さらに、RCBEVDetは、21〜28FPSの高速な推論速度で、全リアルタイムカメラとレーダーカメラの3Dオブジェクト検出器よりも優れた3D検出結果が得られる。 ソースコードはhttps://github.com/VDIGPKU/RCBEVDet.comで公開される。

Three-dimensional object detection is one of the key tasks in autonomous driving. To reduce costs in practice, low-cost multi-view cameras for 3D object detection are proposed to replace the expansive LiDAR sensors. However, relying solely on cameras is difficult to achieve highly accurate and robust 3D object detection. An effective solution to this issue is combining multi-view cameras with the economical millimeter-wave radar sensor to achieve more reliable multi-modal 3D object detection. In this paper, we introduce RCBEVDet, a radar-camera fusion 3D object detection method in the bird's eye view (BEV). Specifically, we first design RadarBEVNet for radar BEV feature extraction. RadarBEVNet consists of a dual-stream radar backbone and a Radar Cross-Section (RCS) aware BEV encoder. In the dual-stream radar backbone, a point-based encoder and a transformer-based encoder are proposed to extract radar features, with an injection and extraction module to facilitate communication between the two encoders. The RCS-aware BEV encoder takes RCS as the object size prior to scattering the point feature in BEV. Besides, we present the Cross-Attention Multi-layer Fusion module to automatically align the multi-modal BEV feature from radar and camera with the deformable attention mechanism, and then fuse the feature with channel and spatial fusion layers. Experimental results show that RCBEVDet achieves new state-of-the-art radar-camera fusion results on nuScenes and view-of-delft (VoD) 3D object detection benchmarks. Furthermore, RCBEVDet achieves better 3D detection results than all real-time camera-only and radar-camera 3D object detectors with a faster inference speed at 21~28 FPS. The source code will be released at https://github.com/VDIGPKU/RCBEVDet.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# 条件変位ゲートを持つウィグナー負性体積と非ガウス絡みの証明可能な下界

Certifiable lower bounds of Wigner negativity volume and non-Gaussian entanglement with conditional displacement gates ( http://arxiv.org/abs/2403.16441v1 )

ライセンス: Link先を確認
Lin Htoo Zaw, (参考訳) 制御量子ビットが高品質な要素キャビティに分散結合された回路およびキャビティ量子力学装置において、キャビティ状態の特徴関数はエコー条件変位(ECD)ゲートで直接プローブすることができる。 本研究では,ECDゲートとキュービットリードアウトのみを用いて,キャビティ間の非ガウス的絡み合いを認証する手法を提案する。 ECDの証人は、ボッヒナーの定理を、還元ウィグナー函数の定理と部分転置の定理という2つの負性の間の驚くべき関係に応用することから生じる。 フォトンを抽出した2モードの懸濁液と絡み合った猫のような、いくつかの共通状態の非ガウス的絡み合いは、特徴関数の4点まで測定することで検出できる。 さらに、証人の期待値は、ウィグナー負の体積と、部分的転位負の予想される絡み合いの幾何学的測度とを同時に下限とする。 負性度はそれぞれ非ガウス性および絡み合いの強いモノトンであるため、ECDの目撃者は、空洞状態のトモグラフィーを必要とせずに、これらのモノトンに関連する量に対して実験的に到達可能な下界を与える。

In circuit and cavity quantum electrodynamics devices where control qubits are dispersively coupled to high quality-factor cavities, characteristic functions of cavity states can be directly probed with echoed conditional displacement (ECD) gates. In this work, I propose a method to certify non-Gaussian entanglement between cavities using only ECD gates and qubit readouts. The ECD witness arises from an application of Bochner's theorem to a surprising connection between two negativities: that of the reduced Wigner function, and that of the partial transpose. Non-Gaussian entanglement of some common states, like photon-subtracted two-mode squeezed vacua and entangled cats, can be detected by measuring as few as four points of the characteristic function. Furthermore, the expectation value of the witness is a simultaneous lower bound to the Wigner negativity volume and a geometric measure of entanglement conjectured to be the partial transpose negativity. Both negativities are strong monotones of non-Gaussianity and entanglement respectively, so the ECD witness provides experimentally-accessible lower bounds to quantities related to these monotones without the need for tomography on the cavity states.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# もしCLIPが話すなら: 優先概念記述による視覚言語モデル表現の理解

If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions ( http://arxiv.org/abs/2403.16442v1 )

ライセンス: Link先を確認
Reza Esfandiarpoor, Cristina Menghini, Stephen H. Bach, (参考訳) 近年の研究では、視覚言語モデル(VLM)の表現が形状のような視覚的属性に基づいていると仮定されている。 しかしながら、VLMが概念を表現するためにこの情報をどの程度優先順位付けしているかは定かではない。 本稿では,VLM の重要なテキスト特徴を特徴付ける新しい手法である Extract and Explore (EX2) を提案する。 EX2は強化学習を使用して、大きな言語モデルとVLMの好みを一致させ、VLMの重要な特徴を組み込んだ記述を生成する。 次に、VLM表現に寄与する特徴を特定するために、記述を検査する。 有用な情報を提供していないにもかかわらず、VLM表現において急激な記述が重要な役割を担っていることがわかった。 さらに重要なことは、視覚的概念を表現するために、VLMは生息地のような非視覚的属性に大きく依存していることである。 また,本分析の結果から,異なるVLMが表現の異なる属性を優先していることが判明した。 全体として,VLMは画像とシーン記述とを単純に一致させるのではなく,視覚的でない,あるいは刺激的でない記述が表現に大きく影響していることが示される。

Recent works often assume that Vision-Language Model (VLM) representations are based on visual attributes like shape. However, it is unclear to what extent VLMs prioritize this information to represent concepts. We propose Extract and Explore (EX2), a novel approach to characterize important textual features for VLMs. EX2 uses reinforcement learning to align a large language model with VLM preferences and generates descriptions that incorporate the important features for the VLM. Then, we inspect the descriptions to identify the features that contribute to VLM representations. We find that spurious descriptions have a major role in VLM representations despite providing no helpful information, e.g., Click to enlarge photo of CONCEPT. More importantly, among informative descriptions, VLMs rely significantly on non-visual attributes like habitat to represent visual concepts. Also, our analysis reveals that different VLMs prioritize different attributes in their representations. Overall, we show that VLMs do not simply match images to scene descriptions and that non-visual or even spurious descriptions significantly influence their representations.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# CodeS: マルチレイヤスケッチによる自然言語からコードリポジトリ

CodeS: Natural Language to Code Repository via Multi-Layer Sketch ( http://arxiv.org/abs/2403.16443v1 )

ライセンス: Link先を確認
Daoguang Zan, Ailun Yu, Wei Liu, Dong Chen, Bo Shen, Wei Li, Yafen Yao, Yongshun Gong, Xiaolin Chen, Bei Guan, Zhiguang Yang, Yongji Wang, Qianxiang Wang, Lizhen Cui, (参考訳) コード関連タスクにおける大規模言語モデル(LLM)の印象的なパフォーマンスは、完全に自動化されたソフトウェア開発の可能性を示している。 これを踏まえ、我々は、自然言語をコードリポジトリ(NL2Repo)に導入する新しいソフトウェアエンジニアリングタスクを紹介します。 このタスクは、自然言語要求からコードリポジトリ全体を生成することを目的としている。 この課題に対処するために,NL2Repoを複数のサブタスクに分割する,シンプルで効果的なフレームワークであるCodeSを提案する。 具体的には、CodeSにはRepoSketcher、FileSketcher、SketchFillerの3つのモジュールが含まれている。 RepoSketcherは、まず所定の要求に対してリポジトリのディレクトリ構造を生成し、FileSketcherは、生成された構造内の各ファイルのファイルスケッチを生成し、SketchFillerは、生成されたファイルスケッチ内の各関数の詳細を最終的に埋める。 NL2Repoタスク上でCodeSを厳格に評価するために,自動ベンチマークと手動フィードバック解析の両方を用いて評価を行う。 ベンチマークに基づく評価では、リポジトリ指向のベンチマークであるSketchEvalを作成し、評価指標であるSketchBLEUを設計する。 フィードバックに基づく評価では、CodeS用のVSCodeプラグインを開発し、30人の参加者が経験的研究に従事している。 大規模な実験は、NL2RepoタスクにおけるCodeSの有効性と実用性を証明する。

The impressive performance of large language models (LLMs) on code-related tasks has shown the potential of fully automated software development. In light of this, we introduce a new software engineering task, namely Natural Language to code Repository (NL2Repo). This task aims to generate an entire code repository from its natural language requirements. To address this task, we propose a simple yet effective framework CodeS, which decomposes NL2Repo into multiple sub-tasks by a multi-layer sketch. Specifically, CodeS includes three modules: RepoSketcher, FileSketcher, and SketchFiller. RepoSketcher first generates a repository's directory structure for given requirements; FileSketcher then generates a file sketch for each file in the generated structure; SketchFiller finally fills in the details for each function in the generated file sketch. To rigorously assess CodeS on the NL2Repo task, we carry out evaluations through both automated benchmarking and manual feedback analysis. For benchmark-based evaluation, we craft a repository-oriented benchmark, SketchEval, and design an evaluation metric, SketchBLEU. For feedback-based evaluation, we develop a VSCode plugin for CodeS and engage 30 participants in conducting empirical studies. Extensive experiments prove the effectiveness and practicality of CodeS on the NL2Repo task.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# KIT-19:大韓民国語モデル作成のための総合的韓国語指導ツールキット

KIT-19: A Comprehensive Korean Instruction Toolkit on 19 Tasks for Fine-Tuning Korean Large Language Models ( http://arxiv.org/abs/2403.16444v1 )

ライセンス: Link先を確認
Dongjun Jang, Sungjoo Byun, Hyemi Jo, Hyopil Shin, (参考訳) 大規模言語モデルのインストラクションチューニングは、モデルが正常に機能し、特定のタスクで高いパフォーマンスを達成するための重要なプロセスである。 そのため、英語などの主流言語では、命令ベースのデータセットが構築され、公開されている。 韓国の場合、一般に利用可能なモデルとデータセットはすべて、ChatGPTの出力または英語で構築されたデータセットの翻訳に頼っている。 本稿では,韓国における LLM 開発のための指導データセットとして \textit{KIT-19} を紹介する。 \textit{KIT-19}は、韓国のNLPタスクのための19の既存のオープンソースデータセットからなる、命令形式で作成されたデータセットである。 本稿では,韓国の事前学習型LLMをtextit{KIT-19} を用いて訓練し,その効果を実証する。 実験の結果, <textit{KIT-19} で訓練したモデルは, 既存の韓国の LLM よりも有意に優れていた。 本稿では,その品質と実証結果に基づいて,韓国のLLMの性能向上に大きく貢献する可能性を示唆する。

Instruction Tuning on Large Language Models is an essential process for model to function well and achieve high performance in specific tasks. Accordingly, in mainstream languages such as English, instruction-based datasets are being constructed and made publicly available. In the case of Korean, publicly available models and datasets all rely on using the output of ChatGPT or translating datasets built in English. In this paper, We introduce \textit{KIT-19} as an instruction dataset for the development of LLM in Korean. \textit{KIT-19} is a dataset created in an instruction format, comprising 19 existing open-source datasets for Korean NLP tasks. In this paper, we train a Korean Pretrained LLM using \textit{KIT-19} to demonstrate its effectiveness. The experimental results show that the model trained on \textit{KIT-19} significantly outperforms existing Korean LLMs. Based on the its quality and empirical results, this paper proposes that \textit{KIT-19} has the potential to make a substantial contribution to the future improvement of Korean LLMs' performance.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# LLMの臨床能力の自動評価に向けて:メトリクス,データ,アルゴリズム

Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm ( http://arxiv.org/abs/2403.16446v1 )

ライセンス: Link先を確認
Lei Liu, Xiaoyan Yang, Fangzhou Li, Chenfei Chi, Yue Shen, Shiwei Lyu Ming Zhang, Xiaowei Ma, Xiangguo Lyu, Liya Ma, Zhiqiang Zhang, Wei Xue, Yiran Huang, Jinjie Gu, (参考訳) 大規模言語モデル(LLM)は、自然言語のモデリングにおける前例のない業績のため、医療診断における臨床効率向上への関心が高まっている。 安全で信頼性の高い臨床応用を保証し、LLMの評価は、幻覚などの潜在的なリスクを緩和するために、実際に重要である。 しかし、現在の評価手法は、人間優先の判断を達成するために、労働集約型の人的参加に大きく依存している。 この課題を克服するため,臨床サービス,例えば疾患診断,治療におけるLCMの能力を評価するための自動評価パラダイムを提案する。 評価パラダイムには、メトリック、データ、アルゴリズムの3つの基本的な要素が含まれている。 具体的には、専門的な臨床実践経路にインスパイアされ、LCP(LCP)を定式化し、医師が持つべき臨床能力を定義する。 そして、評価のための医療データ収集ガイドラインとして、医学教育の標準化患者(SP)を導入し、評価手順の完全性を確実にする。 そこで我々は,SPと医師エージェントの対話的環境をシミュレートするマルチエージェントフレームワークを開発し,医師エージェントの行動がLCPに従っているかどうかを判断する検索・拡張評価(RAE)を備えている。 上記のパラダイムは、LLMの医療能力を自動的に評価するために、同様の臨床シナリオに拡張することができる。 このようなパラダイムを応用して,LCP,SPsデータセット,自動RAEなど,オーロロジーの分野における評価ベンチマークを構築した。 提案手法の有効性を実証するために大規模な実験を行い, 臨床実践におけるLLMの安全かつ信頼性の高い展開について, より深い知見を提供する。

Large language models (LLMs) are gaining increasing interests to improve clinical efficiency for medical diagnosis, owing to their unprecedented performance in modelling natural language. Ensuring the safe and reliable clinical applications, the evaluation of LLMs indeed becomes critical for better mitigating the potential risks, e.g., hallucinations. However, current evaluation methods heavily rely on labor-intensive human participation to achieve human-preferred judgements. To overcome this challenge, we propose an automatic evaluation paradigm tailored to assess the LLMs' capabilities in delivering clinical services, e.g., disease diagnosis and treatment. The evaluation paradigm contains three basic elements: metric, data, and algorithm. Specifically, inspired by professional clinical practice pathways, we formulate a LLM-specific clinical pathway (LCP) to define the clinical capabilities that a doctor agent should possess. Then, Standardized Patients (SPs) from the medical education are introduced as the guideline for collecting medical data for evaluation, which can well ensure the completeness of the evaluation procedure. Leveraging these steps, we develop a multi-agent framework to simulate the interactive environment between SPs and a doctor agent, which is equipped with a Retrieval-Augmented Evaluation (RAE) to determine whether the behaviors of a doctor agent are in accordance with LCP. The above paradigm can be extended to any similar clinical scenarios to automatically evaluate the LLMs' medical capabilities. Applying such paradigm, we construct an evaluation benchmark in the field of urology, including a LCP, a SPs dataset, and an automated RAE. Extensive experiments are conducted to demonstrate the effectiveness of the proposed approach, providing more insights for LLMs' safe and reliable deployments in clinical practice.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# GLUEベンチマークの構文的および意味的タスクにおける語彙カテゴリに対するBERTモデルの注意スコアの認識に関する研究

A Study on How Attention Scores in the BERT Model are Aware of Lexical Categories in Syntactic and Semantic Tasks on the GLUE Benchmark ( http://arxiv.org/abs/2403.16447v1 )

ライセンス: Link先を確認
Dongjun Jang, Sungjoo Byun, Hyopil Shin, (参考訳) 本研究では,下流タスクの微調整過程において,BERTモデルのトークン間の注意スコアが語彙カテゴリによって大きく異なるかを検討する。 人間の言語処理において、構文情報と意味情報は異なるパースされるという概念から着想を得た上で、それらの語彙カテゴリーに応じて文中のトークンを分類し、これらのカテゴリ間の注意点の変化に焦点を当てる。 本仮説は, 意味情報を優先する下流作業においては, 内容語を中心とした注意スコアが強化され, 統語的情報を重視する場合には, 機能語を中心とした注意スコアが強化されることを示唆する。 GLUEベンチマークデータセットから6つのタスクを実験することにより、微調整プロセスに関する仮説を裏付ける。 さらに,タスクによらず,特定の語彙カテゴリーに偏りを常に割り当てるBERT層の存在を明らかにし,課題非依存の語彙カテゴリー選好の存在を強調した。

This study examines whether the attention scores between tokens in the BERT model significantly vary based on lexical categories during the fine-tuning process for downstream tasks. Drawing inspiration from the notion that in human language processing, syntactic and semantic information is parsed differently, we categorize tokens in sentences according to their lexical categories and focus on changes in attention scores among these categories. Our hypothesis posits that in downstream tasks that prioritize semantic information, attention scores centered on content words are enhanced, while in cases emphasizing syntactic information, attention scores centered on function words are intensified. Through experimentation conducted on six tasks from the GLUE benchmark dataset, we substantiate our hypothesis regarding the fine-tuning process. Furthermore, our additional investigations reveal the presence of BERT layers that consistently assign more bias to specific lexical categories, irrespective of the task, highlighting the existence of task-agnostic lexical category preferences.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# 監視されていない人物の再識別のためのカメラ対応ラベルリファインメント

Camera-aware Label Refinement for Unsupervised Person Re-identification ( http://arxiv.org/abs/2403.16450v1 )

ライセンス: Link先を確認
Pengna Li, Kangyi Wu, Wenli Huang, Sanping Zhou, Jinjun Wang, (参考訳) 教師なしの人物再識別は、特定人物のイメージを識別ラベルなしで検索することを目的としている。 最近の非教師なしRe-IDアプローチでは、クラスタリングベースの手法を用いて、クラスタに画像を大まかに分割するために、クロスカメラの特徴的類似性を計測している。 カメラ領域のギャップによって引き起こされる特徴分布の不一致を無視し、必然的に性能劣化を引き起こす。 カメラ情報は通常利用可能であり、単一カメラの特徴分布は通常、個人の外観に重点を置いており、個人間のばらつきは少ない。 本稿では,カメラ内の類似性をクラスタ化することで,カメラの差を小さくするフレームワークについて紹介する。 具体的には、カメラ内トレーニングを用いて、各カメラ内の信頼できるローカルな擬似ラベルを取得し、カメラ間クラスタリングによって生成されたグローバルなラベルを洗練し、より信頼性の高いグローバルな擬似ラベルをセルフペーストして識別モデルを訓練する。 一方,異なるカメラで特徴分布を調整できるカメラアライメントモジュールを開発した。 大規模実験により,提案手法の最先端手法に対する優位性を検証した。 コードはhttps://github.com/leeBooMla/CALRでアクセスできる。

Unsupervised person re-identification aims to retrieve images of a specified person without identity labels. Many recent unsupervised Re-ID approaches adopt clustering-based methods to measure cross-camera feature similarity to roughly divide images into clusters. They ignore the feature distribution discrepancy induced by camera domain gap, resulting in the unavoidable performance degradation. Camera information is usually available, and the feature distribution in the single camera usually focuses more on the appearance of the individual and has less intra-identity variance. Inspired by the observation, we introduce a \textbf{C}amera-\textbf{A}ware \textbf{L}abel \textbf{R}efinement~(CALR) framework that reduces camera discrepancy by clustering intra-camera similarity. Specifically, we employ intra-camera training to obtain reliable local pseudo labels within each camera, and then refine global labels generated by inter-camera clustering and train the discriminative model using more reliable global pseudo labels in a self-paced manner. Meanwhile, we develop a camera-alignment module to align feature distributions under different cameras, which could help deal with the camera variance further. Extensive experiments validate the superiority of our proposed method over state-of-the-art approaches. The code is accessible at https://github.com/leeBooMla/CALR.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# Deep Machining: Latheマシンの加工誤差のオンライン予測

DeepMachining: Online Prediction of Machining Errors of Lathe Machines ( http://arxiv.org/abs/2403.16451v1 )

ライセンス: Link先を確認
Xiang-Li Lu, Hwai-Jung Hsu, Che-Wei Chou, H. T. Kung, Chen-Hsin Lee, (参考訳) 深層学習に基づくAIシステムDeepMachiningについて述べる。 我々は工場の生産データに基づいてDeepMachiningを構築し評価した。 具体的には、まず、与えられた旋盤の操作に対して深層学習モデルを事前訓練し、加工状態の健全な特徴を学習する。 そして、トレーニング済みのモデルを微調整して、特定の加工タスクに適応する。 我々はDeepMachiningが、異なるワークピースやカットツールを含む複数のタスクに対して高い予測精度を実現することを実証した。 我々の知る限りでは、この研究は、学習済みの深層学習モデルを用いて、機械の加工誤差を予測する最初の工場実験の1つである。

We describe DeepMachining, a deep learning-based AI system for online prediction of machining errors of lathe machine operations. We have built and evaluated DeepMachining based on manufacturing data from factories. Specifically, we first pretrain a deep learning model for a given lathe machine's operations to learn the salient features of machining states. Then, we fine-tune the pretrained model to adapt to specific machining tasks. We demonstrate that DeepMachining achieves high prediction accuracy for multiple tasks that involve different workpieces and cutting tools. To the best of our knowledge, this work is one of the first factory experiments using pre-trained deep-learning models to predict machining errors of lathe machines.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# 畳み込みニューラルネットワークを用いた学習における収束率について

On the rates of convergence for learning with convolutional neural networks ( http://arxiv.org/abs/2403.16459v1 )

ライセンス: Link先を確認
Yunfei Yang, Han Feng, Ding-Xuan Zhou, (参考訳) 畳み込みニューラルネットワーク(CNN)の近似と学習能力について検討した。 最初の結果は、重みに一定の制約を課したCNNに対する新しい近似を証明した。 2つ目の結果は、CNNを特殊なケースとして含むフィードフォワードニューラルネットワークのカバー数に関する新しい分析結果である。 この分析は、重量の大きさを慎重に考慮し、いくつかの状況において既存の文献よりも優れた境界を与える。 これら2つの結果を用いて,多くの学習問題におけるCNNに基づく推定器の収束率を導出することができる。 特に、非パラメトリック回帰設定における滑らかな関数を学習するためのCNNに基づいて、最小二乗の最小収束率を確立する。 バイナリ分類では, ヒンジ損失とロジスティック損失を有するCNN分類器の収束率を導出する。 また、得られたレートは、いくつかの設定でミニマックス最適であることが示されている。

We study the approximation and learning capacities of convolutional neural networks (CNNs). Our first result proves a new approximation bound for CNNs with certain constraint on the weights. Our second result gives a new analysis on the covering number of feed-forward neural networks, which include CNNs as special cases. The analysis carefully takes into account the size of the weights and hence gives better bounds than existing literature in some situations. Using these two results, we are able to derive rates of convergence for estimators based on CNNs in many learning problems. In particular, we establish minimax optimal convergence rates of the least squares based on CNNs for learning smooth functions in the nonparametric regression setting. For binary classification, we derive convergence rates for CNN classifiers with hinge loss and logistic loss. It is also shown that the obtained rates are minimax optimal in several settings.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# FedAC: 異種データのための適応的クラスタ化フェデレーション学習フレームワーク

FedAC: A Adaptive Clustered Federated Learning Framework for Heterogeneous Data ( http://arxiv.org/abs/2403.16460v1 )

ライセンス: Link先を確認
Yuxin Zhang, Haoyu Chen, Zheng Lin, Zhe Chen, Jin Zhao, (参考訳) CFL(Clustered Federated Learning)は、クラスタワイドモデルトレーニングのために類似のクライアントをグループ化することにより、フェデレートラーニング(FL)におけるデータ不均一性に起因する性能劣化を軽減するために提案される。 しかし、現在のCFL法は、クラスタ内知識の不十分な統合と効率的なオンラインモデル類似度指標の欠如により、クラスタカウントを固定されたハイパーパラメータとして扱い、柔軟性と堅牢性を制限している。 本稿では,(1)ニューラルネットワークの疎結合によるクラスタ内学習にグローバル知識を効率よく統合し,各サブモジュールに対する個別のアグリゲーション手法を利用する適応型CFLフレームワークを提案する。(2)次元削減に基づく費用対効果の高いオンラインモデル類似度指標,(3)複雑な異種環境における適応性と拡張性を改善するためのクラスタ数微調整モジュールを組み込んだ。 CIFAR-10とCIFAR-100データセットにおいて、SOTA法と比較して異なる非IID条件下で、FedACは試験精度を約1.82%向上し、12.67%向上する。

Clustered federated learning (CFL) is proposed to mitigate the performance deterioration stemming from data heterogeneity in federated learning (FL) by grouping similar clients for cluster-wise model training. However, current CFL methods struggle due to inadequate integration of global and intra-cluster knowledge and the absence of an efficient online model similarity metric, while treating the cluster count as a fixed hyperparameter limits flexibility and robustness. In this paper, we propose an adaptive CFL framework, named FedAC, which (1) efficiently integrates global knowledge into intra-cluster learning by decoupling neural networks and utilizing distinct aggregation methods for each submodule, significantly enhancing performance; (2) includes a costeffective online model similarity metric based on dimensionality reduction; (3) incorporates a cluster number fine-tuning module for improved adaptability and scalability in complex, heterogeneous environments. Extensive experiments show that FedAC achieves superior empirical performance, increasing the test accuracy by around 1.82% and 12.67% on CIFAR-10 and CIFAR-100 datasets, respectively, under different non-IID settings compared to SOTA methods.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# 重ね合わせ概念識別による名前付きエンティティ認識

Few-shot Named Entity Recognition via Superposition Concept Discrimination ( http://arxiv.org/abs/2403.16463v1 )

ライセンス: Link先を確認
Jiawei Chen, Hongyu Lin, Xianpei Han, Yaojie Lu, Shanshan Jiang, Bin Dong, Le Sun, (参考訳) Few-shot NERは、限られた数のイラストレーターインスタンスでターゲット型のエンティティを識別することを目的としている。 残念なことに、少数ショットのNERは、固有の正確な一般化問題、すなわち情報不足に起因するあいまいさによる所望のターゲットタイプを正確に決定することは困難である。 本稿では,この課題をアクティブな学習パラダイムを用いて解決するスーパーポジション概念判別器(SuperCD)を提案する。 具体的には、概念抽出器が最初に導入され、図形のインスタンスから重ね合わせの概念を識別し、各概念は一般化境界に対応する。 次に、重畳インスタンス検索器を適用して、これらの重畳概念の対応するインスタンスを大規模テキストコーパスから検索する。 最後に、アノテータは検索したインスタンスにアノテートするよう求められ、これらのアノテートされたインスタンスと元のイラストレーターインスタンスはFS-NERモデルを学習するために使用される。 そこで我々は,大規模に公開されている知識ベースを用いて,普遍的な概念抽出と重ね合わせのインスタンス検索を学習する。 実験の結果、SuperCDはイラストレーターインスタンスから重ね合わせの概念を効果的に識別し、大規模コーパスから重ね合わせインスタンスを検索し、最小限の追加努力で数発のNER性能を大幅に改善できることがわかった。

Few-shot NER aims to identify entities of target types with only limited number of illustrative instances. Unfortunately, few-shot NER is severely challenged by the intrinsic precise generalization problem, i.e., it is hard to accurately determine the desired target type due to the ambiguity stemming from information deficiency. In this paper, we propose Superposition Concept Discriminator (SuperCD), which resolves the above challenge via an active learning paradigm. Specifically, a concept extractor is first introduced to identify superposition concepts from illustrative instances, with each concept corresponding to a possible generalization boundary. Then a superposition instance retriever is applied to retrieve corresponding instances of these superposition concepts from large-scale text corpus. Finally, annotators are asked to annotate the retrieved instances and these annotated instances together with original illustrative instances are used to learn FS-NER models. To this end, we learn a universal concept extractor and superposition instance retriever using a large-scale openly available knowledge bases. Experiments show that SuperCD can effectively identify superposition concepts from illustrative instances, retrieve superposition instances from large-scale corpus, and significantly improve the few-shot NER performance with minimal additional efforts.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# Augmentation-Conditional Discriminator を用いた限られたデータを用いた生成逆ネットワークベースヴォコーダの訓練

Training Generative Adversarial Network-Based Vocoder with Limited Data Using Augmentation-Conditional Discriminator ( http://arxiv.org/abs/2403.16464v1 )

ライセンス: Link先を確認
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, (参考訳) 対数判別器で訓練されたGANベースの生成逆数ネットワークは、その高速で軽量で高品質な特徴から、音声合成に一般的に使用される。 しかし、このデータ駆動モデルは、高いデータ収集コストをもたらす大量のトレーニングデータを必要とする。 この事実は、限られたデータでGANベースのボコーダをトレーニングする動機となります。 有望な解決策は、過度な適合を避けるためにトレーニングデータを増強することだ。 しかし、標準的な判別器は無条件であり、データ増大による分布変化には敏感である。 したがって、拡張音声(これは異例である)は実音声と見なすことができる。 この問題に対処するため,AugCondD(AugCondD)を提案する。AugCondD(AugCondD)は,AugCondD(AugCondD)を音声に加えて入力として受信し,AugCondD(AugCondD)の学習を阻害することなく,AugCondD(AugCondD)の入力音声を評価する。 実験結果から,AugCondDは十分なデータ条件下では同等の音声品質を達成しつつ,限られたデータ条件下での音声品質を向上させることが示唆された。 オーディオサンプルはhttps://www.kecl.ntt.co.jp/people/ Kaneko.takuhiro/projects/augcondd/で入手できる。

A generative adversarial network (GAN)-based vocoder trained with an adversarial discriminator is commonly used for speech synthesis because of its fast, lightweight, and high-quality characteristics. However, this data-driven model requires a large amount of training data incurring high data-collection costs. This fact motivates us to train a GAN-based vocoder on limited data. A promising solution is to augment the training data to avoid overfitting. However, a standard discriminator is unconditional and insensitive to distributional changes caused by data augmentation. Thus, augmented speech (which can be extraordinary) may be considered real speech. To address this issue, we propose an augmentation-conditional discriminator (AugCondD) that receives the augmentation state as input in addition to speech, thereby assessing the input speech according to the augmentation state, without inhibiting the learning of the original non-augmented distribution. Experimental results indicate that AugCondD improves speech quality under limited data conditions while achieving comparable speech quality under sufficient data conditions. Audio samples are available at https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/augcondd/.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# ワンショット非触媒分散純度蒸留

One-Shot Non-Catalytic Distributed Purity Distillation ( http://arxiv.org/abs/2403.16466v1 )

ライセンス: Link先を確認
Sayantan Chakraborty, Rahul Jain, Pranab Sen, (参考訳) 純状態は多くの量子情報処理プロトコルにおいて重要なリソースである。 しかし、固定された純粋状態(例えば$|0\rangle$)を作る場合でさえ、実験室ではかなりの労力を要する。 多くの場合、古典的な記述が知られている混合状態$\rho$で終わる。 したがって、既知の混合状態から固定された純状態を抽出するプロトコルを開発することが重要である。 本研究では、固定された純状態 $|0\rangle^{A'} |0\rangle^{B'}$ を既知の純状態 $\rho^{AB}$ から抽出する問題を研究する。 ここで、$A'$, $B'$は$A$, $B$の部分空間であり、抽出された純度総量は$\log |A'| + \log |B'|$である。 パーティはローカルの純粋なアンシラを借りて、ローカルのユニタリ操作を適用し、デファージングチャネルを通じて$A$から$B$のメッセージを送信することができる。 地元の純粋なアシラを借用する場合は、抽出した純度を適切に考慮し、減らさなければならない。 提案プロトコルにより得られた局所的アンシラの速度から, 1ショットの分散純度抽出における最も効率的な達成可能な境界値を得るとともに, 純量子ビットを最もよく知られた速度で蒸留する。 私たちのプロトコルはほとんど地元の純粋なアシラを借りません。 私たちの限界は、この問題の既存の限界を1ショットと漸近的なID設定の両方で改善します。 特に、デヴェタクとクロヴィ・デヴェタクの全ての漸近性イデオロギーの結果を仮定する。 さらに, 達成可能な限界にほぼ一致する1ショット設定における蒸留速度の上限を導出する。

Pure states are an important resource in many quantum information processing protocols. However, even making a fixed pure state, say $|0\rangle$, in the laboratory requires a considerable amount of effort. Often one ends up with a mixed state $\rho$ whose classical description is nevertheless known. Hence it is important to develop protocols that extract a fixed pure state from a known mixed state. In this work, we study the problem of extracting a fixed pure state $|0\rangle^{A'} |0\rangle^{B'}$ from a known pure state $\rho^{AB}$ distributed between two parties $A$ and $B$. Here, $A'$, $B'$ are subspaces of $A$, $B$ and the total amount of purity extracted is $\log |A'| + \log |B'|$. The parties can borrow local pure ancilla, apply local unitary operations and send a message from $A$ to $B$ through a dephasing channel. If local pure ancilla is borrowed, it must be subtracted in order to properly account for the purity extracted. We obtain the most efficient achievable bounds on one shot distributed purity extraction, in terms of the rate of local ancilla borrowed by the protocol, while distilling pure qubits at the best known rate. Our protocols borrow little to no local pure ancilla. Our bounds improve upon the existing bounds for this problem in both one shot as well as asymptotic iid settings. In particular they subsume all the asymptotic iid results of Devetak and Krovi-Devetak. In addition, we derive upper bounds for the rate of distillation in the one shot setting, which nearly match our achievable bounds.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# 長期データのためのレジンラベルからの学習

Learning from Reduced Labels for Long-Tailed Data ( http://arxiv.org/abs/2403.16469v1 )

ライセンス: Link先を確認
Meng Wei, Zhongnian Li, Yong Zhou, Xinzheng Xu, (参考訳) 長い尾のデータは現実世界の分類タスクで一般的であり、教師付き情報に大きく依存しているため、アノテーションプロセスは労働集約的で時間を要する。 残念ながら、ラベリングコストを軽減するための一般的なアプローチであるにもかかわらず、既存の弱教師付き学習手法は、テールサンプルの教師付き情報を適切に保存するのに苦労し、テールクラスの精度が低下する。 この問題を緩和するために、Reduced Labelと呼ばれる、弱教師付きラベル設定を導入する。 提案したラベリング設定は、テールサンプルの監視情報の減少を回避するだけでなく、ロングテールデータに関連するラベリングコストを低減させる。 さらに,これらのリダクションラベルから学習するための理論的保証が強い,単純かつ高効率な非バイアス付きフレームワークを提案する。 ImageNetを含むベンチマークデータセットで行った大規模な実験は、我々のアプローチの有効性を検証し、最先端の弱教師付き手法の性能を上回った。

Long-tailed data is prevalent in real-world classification tasks and heavily relies on supervised information, which makes the annotation process exceptionally labor-intensive and time-consuming. Unfortunately, despite being a common approach to mitigate labeling costs, existing weakly supervised learning methods struggle to adequately preserve supervised information for tail samples, resulting in a decline in accuracy for the tail classes. To alleviate this problem, we introduce a novel weakly supervised labeling setting called Reduced Label. The proposed labeling setting not only avoids the decline of supervised information for the tail samples, but also decreases the labeling costs associated with long-tailed data. Additionally, we propose an straightforward and highly efficient unbiased framework with strong theoretical guarantees to learn from these Reduced Labels. Extensive experiments conducted on benchmark datasets including ImageNet validate the effectiveness of our approach, surpassing the performance of state-of-the-art weakly supervised methods.
翻訳日:2024-03-26 15:47:46 公開日:2024-03-25
# 周波数情報埋め込みによるプライバシー保護型医用画像解析のための平文自由深層学習

Plaintext-Free Deep Learning for Privacy-Preserving Medical Image Analysis via Frequency Information Embedding ( http://arxiv.org/abs/2403.16473v1 )

ライセンス: Link先を確認
Mengyu Sun, Ziyuan Yang, Maosong Ran, Zhiwen Wang, Hui Yu, Yi Zhang, (参考訳) 医療画像解析の分野では,Deep Learning(DL)ベースの手法が大きな成功を収めている。 しかし、これらの手法は、特に医療データの機密領域において、プライバシの懸念を高めるため、トレーニングと推論の段階で平文データを必要とする。 これらの問題に対処するため,本論文では,平文画像の必要性を排除し,サロゲート画像を解析に用いる新しいフレームワークを提案する。 このアプローチは、周波数領域交換スタイル融合(FESF)と呼ばれる。 このフレームワークには、Image Hidden Module (IHM) と Image Quality Enhancement Module~ (IQEM) の2つの主要コンポーネントが含まれている。 IHMは周波数領域で動作し、平文の医療画像の特徴をホストの医療画像にブレンドし、IQEMと組み合わせて画像を改善し、効果的にサロゲートを作成する。 診断モデルトレーニングプロセスでは、代理画像のみを使用し、トレーニングと推論の両方の段階で、平文データなしで匿名解析を可能にする。 広範に評価した結果,本フレームワークは医療画像のプライバシを効果的に保ち,DLモデルの診断精度を比較的高いレベルで維持し,各種データセットやDLベースモデルに対して有効性を証明している。

In the fast-evolving field of medical image analysis, Deep Learning (DL)-based methods have achieved tremendous success. However, these methods require plaintext data for training and inference stages, raising privacy concerns, especially in the sensitive area of medical data. To tackle these concerns, this paper proposes a novel framework that uses surrogate images for analysis, eliminating the need for plaintext images. This approach is called Frequency-domain Exchange Style Fusion (FESF). The framework includes two main components: Image Hidden Module (IHM) and Image Quality Enhancement Module~(IQEM). The~IHM performs in the frequency domain, blending the features of plaintext medical images into host medical images, and then combines this with IQEM to improve and create surrogate images effectively. During the diagnostic model training process, only surrogate images are used, enabling anonymous analysis without any plaintext data during both training and inference stages. Extensive evaluations demonstrate that our framework effectively preserves the privacy of medical images and maintains diagnostic accuracy of DL models at a relatively high level, proving its effectiveness across various datasets and DL-based models.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# モデルレスは最良のモデル: デバイス上のDLモデルを置き換えるために純粋なコード実装を生成する

Model-less Is the Best Model: Generating Pure Code Implementations to Replace On-Device DL Models ( http://arxiv.org/abs/2403.16479v1 )

ライセンス: Link先を確認
Mingyi Zhou, Xiang Gao, Pei Liu, John Grundy, Chunyang Chen, Xiao Chen, Li Li, (参考訳) 近年の研究では、テザーフローライト(TFLite)のようなデプロイされたディープラーニング(DL)モデルが、攻撃者によって現実世界のアプリケーションやデバイスから容易に抽出され、敵攻撃のような様々な種類の攻撃が生成されることが示されている。 デバイス上で配置されたDLモデルの確保は注目されているが、前述の脅威を完全に防止できる既存の手法は存在しない。 従来のソフトウェア保護技術は広く研究されており、デバイス上のモデルがC++のような純粋なコードを使って実装できれば、既存のソフトウェア保護テクニックを再利用する可能性が開ける。 しかし、DLモデルの複雑さのため、DLモデルを純粋なコードに変換する自動メソッドは存在しない。 このギャップを埋めるために、デバイス上のモデル情報を自動的に抽出し、広範囲のDLモデルに対してカスタマイズ可能なプログラムを合成するCustomDLCoderを提案する。 CustomDLCoderはまずDLモデルを解析し、バックエンドの計算ユニットを抽出し、計算ユニットをグラフに設定し、その後、明示的なモデル表現なしでMLソリューションの実装とデプロイのためにカスタマイズされたコードを生成する。 合成プログラムは、明示的なモデル表現を保持する必要がなく、DLモデルに対する多くの攻撃を防止するため、DLデプロイメント環境のモデル情報を隠蔽する。 さらに、カスタマイズされたコードがモデル解析と前処理のステップを削除し、データ処理プロセスのみを保持するため、MLのパフォーマンスが向上する。 実験の結果,CustomDLCoderはデバイス上でのモデルスニッフィングを無効にすることで,モデルのセキュリティを向上させることがわかった。 原型オンデバイスプラットフォーム(TFLite)と比較すると,x86-64とARM64でそれぞれモデル推論を21.0%,24.3%高速化できる。 最も重要なことは、x86-64とARM64プラットフォームでそれぞれ68.8%と36.0%のメモリ消費を大幅に削減できることである。

Recent studies show that deployed deep learning (DL) models such as those of Tensor Flow Lite (TFLite) can be easily extracted from real-world applications and devices by attackers to generate many kinds of attacks like adversarial attacks. Although securing deployed on-device DL models has gained increasing attention, no existing methods can fully prevent the aforementioned threats. Traditional software protection techniques have been widely explored, if on-device models can be implemented using pure code, such as C++, it will open the possibility of reusing existing software protection techniques. However, due to the complexity of DL models, there is no automatic method that can translate the DL models to pure code. To fill this gap, we propose a novel method, CustomDLCoder, to automatically extract the on-device model information and synthesize a customized executable program for a wide range of DL models. CustomDLCoder first parses the DL model, extracts its backend computing units, configures the computing units to a graph, and then generates customized code to implement and deploy the ML solution without explicit model representation. The synthesized program hides model information for DL deployment environments since it does not need to retain explicit model representation, preventing many attacks on the DL model. In addition, it improves ML performance because the customized code removes model parsing and preprocessing steps and only retains the data computing process. Our experimental results show that CustomDLCoder improves model security by disabling on-device model sniffing. Compared with the original on-device platform (i.e., TFLite), our method can accelerate model inference by 21.0% and 24.3% on x86-64 and ARM64 platforms, respectively. Most importantly, it can significantly reduce memory consumption by 68.8% and 36.0% on x86-64 and ARM64 platforms, respectively.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# REFRAME: モバイルデバイスの反射面リアルタイムレンダリング

REFRAME: Reflective Surface Real-Time Rendering for Mobile Devices ( http://arxiv.org/abs/2403.16481v1 )

ライセンス: Link先を確認
Chaojie Ji, Yufeng Li, Yiyi Liao, (参考訳) 本研究は、高反射性オブジェクトや非有界屋外シーンなど、様々な場面でリアルタイムの新規ビュー合成を実現するという課題に取り組む。 既存のリアルタイムレンダリング手法、特にメッシュに基づくレンダリングは、リッチなビュー依存の外観を持つモデリングサーフェスにおいて、サブパーパフォーマンスを持つことが多い。 私たちのキーとなるアイデアは、ビュー依存情報をパラメータ化するための新しいアプローチを取り入れながら、メッシュをレンダリングアクセラレーションに活用することにあります。 色を拡散およびスペクトルに分解し、ニューラル環境マップに基づいて反射方向のスペクトル色をモデル化する。 提案手法は,スマートフォンなどのエッジデバイス上でのリアルタイムレンダリングを効率よく実現しつつ,最先端のオフライン手法と比較して,反射面の再現性が高いことを示す。

This work tackles the challenging task of achieving real-time novel view synthesis on various scenes, including highly reflective objects and unbounded outdoor scenes. Existing real-time rendering methods, especially those based on meshes, often have subpar performance in modeling surfaces with rich view-dependent appearances. Our key idea lies in leveraging meshes for rendering acceleration while incorporating a novel approach to parameterize view-dependent information. We decompose the color into diffuse and specular, and model the specular color in the reflected direction based on a neural environment map. Our experiments demonstrate that our method achieves comparable reconstruction quality for highly reflective surfaces compared to state-of-the-art offline methods, while also efficiently enabling real-time rendering on edge devices such as smartphones.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# 類似性に基づくプロンプトによる複数ラベル学習の決定

Determined Multi-Label Learning via Similarity-Based Prompt ( http://arxiv.org/abs/2403.16482v1 )

ライセンス: Link先を確認
Meng Wei, Zhongnian Li, Peng Ying, Yong Zhou, Xinzheng Xu, (参考訳) マルチラベル分類では、各トレーニングインスタンスは複数のクラスラベルに同時に関連付けられている。 残念ながら、トレーニングインスタンス毎の完全なクラスラベルの収集には、実世界のアプリケーションには時間と労力がかかります。 この問題を軽減するために, DMLL (textit{Determined Multi-Label Learning}) と呼ばれる新しいラベリング設定を提案し, マルチラベルタスクに固有のラベリングコストを効果的に軽減することを目的とした。 この新しいラベル設定では、各トレーニングインスタンスは、提供されたクラスラベルを含むかどうかを示す \textit{determined label} ("Yes" または "No" のいずれか)に関連付けられている。 提供されたクラスラベルは、候補ラベルセット全体からランダムに均一に選択される。 さらに、各トレーニングインスタンスは一度だけ決定する必要があるため、マルチラベルデータセットのラベル付けタスクのアノテーションコストが大幅に削減される。 本稿では,これらの判定されたラベル付きトレーニングデータから多ラベル分類器を学習するためのリスク一貫性推定器を理論的に導出する。 さらに,よりリッチな意味情報を持つ補足的プロンプトを学習するために,大規模事前学習モデルのリスク持続的損失を最小限に抑える,類似性に基づくプロンプト学習手法を初めて導入する。 提案手法の有効性を実証し,既存の最先端手法と比較して優れた性能を示した。

In multi-label classification, each training instance is associated with multiple class labels simultaneously. Unfortunately, collecting the fully precise class labels for each training instance is time- and labor-consuming for real-world applications. To alleviate this problem, a novel labeling setting termed \textit{Determined Multi-Label Learning} (DMLL) is proposed, aiming to effectively alleviate the labeling cost inherent in multi-label tasks. In this novel labeling setting, each training instance is associated with a \textit{determined label} (either "Yes" or "No"), which indicates whether the training instance contains the provided class label. The provided class label is randomly and uniformly selected from the whole candidate labels set. Besides, each training instance only need to be determined once, which significantly reduce the annotation cost of the labeling task for multi-label datasets. In this paper, we theoretically derive an risk-consistent estimator to learn a multi-label classifier from these determined-labeled training data. Additionally, we introduce a similarity-based prompt learning method for the first time, which minimizes the risk-consistent loss of large-scale pre-trained models to learn a supplemental prompt with richer semantic information. Extensive experimental validation underscores the efficacy of our approach, demonstrating superior performance compared to existing state-of-the-art methods.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# Wikipediaハイパーリンクを用いた大規模ジオパーシングコーパスの自動構築

Automatic Construction of a Large-Scale Corpus for Geoparsing Using Wikipedia Hyperlinks ( http://arxiv.org/abs/2403.16483v1 )

ライセンス: Link先を確認
Keyaki Ohno, Hirotaka Kameko, Keisuke Shirai, Taichi Nishimura, Shinsuke Mori, (参考訳) ジオパーシング(Geoparsing)は、テキスト中の位置表現の緯度と経度(座標)を推定するタスクである。 ジオパーシングは、同じ表記の複数の位置を示す表現のあいまいさに対処しなければならない。 ジオパーシングシステムを評価するために、以前の研究でいくつかのコーパスが提案されている。 しかし、これらのコーパスは小規模であり、一般ドメインにおける位置表現のカバレッジに悩まされている。 本稿では,ウィキペディアの記事からジオパーシングするための大規模コーパスを構築するための新しい手法であるウィキペディアハイパーリンクベースの位置情報リンク(WHLL)を提案する。 WHLLはウィキペディアのハイパーリンクを利用して、座標で複数の位置表現を注釈付けする。 この手法により, ジオパーシングのための大規模コーパスであるWHLLコーパスを構築した。 WHLLコーパスは1.3Mの記事で構成され、それぞれ7.8のユニークな位置表現を含んでいる。 位置表現の45.6%は曖昧であり、同じ表記の複数の位置を指す。 各記事において、記事タイトルと他の記事へのハイパーリンクの位置表現に座標が割り当てられる。 ハイパーリンクを利用することで、テキスト中の不明瞭な位置表現であっても、位置表現を座標で正確に割り当てることができる。 実験結果から, 位置表現を曖昧にすることで, 改善の余地があることが示唆された。

Geoparsing is the task of estimating the latitude and longitude (coordinates) of location expressions in texts. Geoparsing must deal with the ambiguity of the expressions that indicate multiple locations with the same notation. For evaluating geoparsing systems, several corpora have been proposed in previous work. However, these corpora are small-scale and suffer from the coverage of location expressions on general domains. In this paper, we propose Wikipedia Hyperlink-based Location Linking (WHLL), a novel method to construct a large-scale corpus for geoparsing from Wikipedia articles. WHLL leverages hyperlinks in Wikipedia to annotate multiple location expressions with coordinates. With this method, we constructed the WHLL corpus, a new large-scale corpus for geoparsing. The WHLL corpus consists of 1.3M articles, each containing about 7.8 unique location expressions. 45.6% of location expressions are ambiguous and refer to more than one location with the same notation. In each article, location expressions of the article title and those hyperlinks to other articles are assigned with coordinates. By utilizing hyperlinks, we can accurately assign location expressions with coordinates even with ambiguous location expressions in the texts. Experimental results show that there remains room for improvement by disambiguating location expressions.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# 巨視的スピンアンサンブルのパリティ感受性不均一デファス化

Parity-sensitive inhomogeneous dephasing of macroscopic spin ensembles ( http://arxiv.org/abs/2403.16491v1 )

ライセンス: Link先を確認
Wai-Keong Mok, Steven Touzard, Leong-Chuan Kwek, (参考訳) スピンアンサンブルは、メトロジーや多体物理学のシミュレーションのような様々な量子応用において重要な役割を果たす。 近年の研究では、スピン猫状態を利用して論理量子情報を符号化し、システムサイズに合わせて拡張された集合的相互作用によって数秒の順序で潜在的に論理的寿命を持つことが提案されている。 不均質な拡張条件下でのスピン猫状態の動態を調べたところ、「パリティ感受性不均質な退化現象」とよばれる現象が明らかとなった。 さらに、駆動散逸ダイナミクスの平均場解析から、アンサンブルが臨界不均一線幅を超えて完全に非相化する同期相転移を同定する。 我々の発見は、量子技術の進歩に重要な集合スピン状態の安定性に光を当てた。

Spin ensembles play a pivotal role in various quantum applications such as metrology and simulating many-body physics. Recent research has proposed utilizing spin cat states to encode logical quantum information, with potentially logical lifetimes on the order of seconds via enhanced collective interactions that scale with system size. We investigate the dynamics of spin cat states under inhomogeneous broadening, revealing a phenomenon termed `parity-sensitive inhomogeneous dephasing': odd cat states are significantly more susceptible to inhomogeneous dephasing compared to even cat states due to parity symmetry. Additionally, from a mean-field analysis of the driven-dissipative dynamics, we identify a synchronization phase transition wherein the ensemble becomes completely dephased beyond a critical inhomogeneous linewidth. Our findings shed light on the stability of collective spin states, important for advancing quantum technologies.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# CT境界:ハイブリッド畳み込みとトランスフォーマーニューラルネットワークによるノイズ画像の高速境界推定

CT-Bound: Fast Boundary Estimation From Noisy Images Via Hybrid Convolution and Transformer Neural Networks ( http://arxiv.org/abs/2403.16494v1 )

ライセンス: Link先を確認
Wei Xu, Junjie Luo, Qi Guo, (参考訳) 本稿では,ハイブリッド畳み込みとトランスフォーマーニューラルネットワークを用いた雑音画像の高速境界推定法であるCT-Boundを提案する。 提案アーキテクチャでは,画像境界の局所的検出と大域的正規化という2つのタスクに境界推定を分解する。 まず、入力画像のみを使用して小さな受容領域内で境界構造のパラメトリック表現を推定し、入力画像にアクセスすることなくパラメータ領域の境界構造を洗練する。 このため、ネットワークの一部は、単純で合成された画像で容易に訓練でき、実際の画像に一般化され、境界の精細化が非理想的であり、画像領域にはないため、全体のアーキテクチャは計算的に効率的である。 従来の最高精度の手法と比較すると、CT-Boundは100倍高速で、比較可能な精度、高品質な境界線、カラーマップを生成する。 また、CT-Boundは、追加の微調整やリアルタイム境界マップやカラーマップを毎秒10フレームで作成することなく、実撮影画像上で境界マップとカラーマップを作成できることを実証した。

We present CT-Bound, a fast boundary estimation method for noisy images using a hybrid Convolution and Transformer neural network. The proposed architecture decomposes boundary estimation into two tasks: local detection and global regularization of image boundaries. It first estimates a parametric representation of boundary structures only using the input image within a small receptive field and then refines the boundary structure in the parameter domain without accessing the input image. Because of this, a part of the network can be easily trained using naive, synthetic images and still generalized to real images, and the entire architecture is computationally efficient as the boundary refinement is non-iterative and not in the image domain. Compared with the previous highest accuracy methods, our experiment shows that CT-Bound is 100 times faster, producing comparably accurate, high-quality boundary and color maps. We also demonstrate that CT-Bound can produce boundary and color maps on real captured images without extra fine-tuning and real-time boundary map and color map videos at ten frames per second.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# LSTTN:交通流予測のための長期変圧器を用いた時空間時空間ニューラルネットワーク

LSTTN: A Long-Short Term Transformer-based Spatio-temporal Neural Network for Traffic Flow Forecasting ( http://arxiv.org/abs/2403.16495v1 )

ライセンス: Link先を確認
Qinyao Luo, Silu He, Xing Han, Yuhan Wang, Haifeng Li, (参考訳) 正確な交通予測は、インテリジェント交通システムにおける基本的な問題であり、時空間グラフニューラルネットワーク(STGNN)によるキー情報による長距離交通表現の学習は、現在の交通流予測モデルの基本前提である。 しかし, 構造的制約のため, 既存のSTGNNは短距離交通流データしか利用できないため, モデルが交通流の複雑な傾向や周期的特徴を適切に学習することはできない。 また、長い歴史交通系列から重要な時間情報を抽出し、コンパクトな表現を得ることも困難である。 上記の問題を解決するために,歴史交通流の長期的・短期的特徴を包括的に考慮したLSTTN(Long-Short Term Transformer-based Network)フレームワークを提案する。 まず、マスク付きサブシリーズ変換器を用いて、マスク付きサブシリーズのごく一部と時間的文脈を事前学習方法で推定し、長い歴史シリーズから圧縮および文脈的サブシリーズの時間的表現を効率的に学習する。 そして、これらの学習表現に基づいて1次元拡張畳み込み層を用いて長期トレンドを抽出し、動的グラフ畳み込み層により周期的特徴を抽出する。 時間段階予測の難しさに対して、LSTTNは短期的傾向抽出器を採用して、微細な短期的特徴を学習する。 最後に、LSTTNは予測結果を得るために、長期的傾向、周期的特徴、短期的特徴を融合する。 4つの実世界のデータセットの実験により、LSTTNモデルは60分間の長期予測において、ベースラインモデルよりも5.63\%、最大16.78\%の改善を達成している。 ソースコードはhttps://github.com/GeoX-Lab/LSTTNで入手できる。

Accurate traffic forecasting is a fundamental problem in intelligent transportation systems and learning long-range traffic representations with key information through spatiotemporal graph neural networks (STGNNs) is a basic assumption of current traffic flow prediction models. However, due to structural limitations, existing STGNNs can only utilize short-range traffic flow data; therefore, the models cannot adequately learn the complex trends and periodic features in traffic flow. Besides, it is challenging to extract the key temporal information from the long historical traffic series and obtain a compact representation. To solve the above problems, we propose a novel LSTTN (Long-Short Term Transformer-based Network) framework comprehensively considering the long- and short-term features in historical traffic flow. First, we employ a masked subseries Transformer to infer the content of masked subseries from a small portion of unmasked subseries and their temporal context in a pretraining manner, forcing the model to efficiently learn compressed and contextual subseries temporal representations from long historical series. Then, based on the learned representations, long-term trend is extracted by using stacked 1D dilated convolution layers, and periodic features are extracted by dynamic graph convolution layers. For the difficulties in making time-step level prediction, LSTTN adopts a short-term trend extractor to learn fine-grained short-term temporal features. Finally, LSTTN fuses the long-term trend, periodic features and short-term features to obtain the prediction results. Experiments on four real-world datasets show that in 60-minute-ahead long-term forecasting, the LSTTN model achieves a minimum improvement of 5.63\% and a maximum improvement of 16.78\% over baseline models. The source code is available at https://github.com/GeoX-Lab/LSTTN.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# PathoTune: 病理専門医にビジュアルファウンデーションモデルを適用する

PathoTune: Adapting Visual Foundation Model to Pathological Specialists ( http://arxiv.org/abs/2403.16497v1 )

ライセンス: Link先を確認
Jiaxuan Lu, Fang Yan, Xiaofan Zhang, Yue Gao, Shaoting Zhang, (参考訳) 自然画像の理解は、訓練前ファイナチューン時代に向かっているため、病理画像の研究は同時に進化している。 病理基礎モデルの事前訓練に重点を置いているにもかかわらず、下流のタスクに基礎モデルを適応する方法はほとんど調査されていない。 下流適応には、ファンデーション・タスクギャップとタスク・インスタンスギャップという2つの領域ギャップが存在する。 このギャップを軽減するためにPathoTuneを導入する。PathoTuneは、マルチモーダル・プロンプト・チューニングにより、病理モデルや視覚的基礎モデルを病理固有のタスクに効率的に適応するように設計されたフレームワークである。 提案フレームワークは、タスク固有のVisual Promptsとタスク固有のTextual Promptsを活用して、タスクに関連する機能を特定し、インスタンス固有のVisual Promptsを1つの病理画像の特徴を符号化する。 パッチレベルとWSIレベルの複数のデータセットにまたがる結果は、単一モードのプロンプトチューニングアプローチよりも優れたパフォーマンスを示している。 重要なこととして、PathoTuneは、自然な視覚基盤モデルの病理的タスクへの直接的な適応を促進し、単純な線形探索による病理基礎モデルを大幅に上回っている。 コードは受理後利用可能になる。

As natural image understanding moves towards the pretrain-finetune era, research in pathology imaging is concurrently evolving. Despite the predominant focus on pretraining pathological foundation models, how to adapt foundation models to downstream tasks is little explored. For downstream adaptation, we propose the existence of two domain gaps, i.e., the Foundation-Task Gap and the Task-Instance Gap. To mitigate these gaps, we introduce PathoTune, a framework designed to efficiently adapt pathological or even visual foundation models to pathology-specific tasks via multi-modal prompt tuning. The proposed framework leverages Task-specific Visual Prompts and Task-specific Textual Prompts to identify task-relevant features, along with Instance-specific Visual Prompts for encoding single pathological image features. Results across multiple datasets at both patch-level and WSI-level demonstrate its superior performance over single-modality prompt tuning approaches. Significantly, PathoTune facilitates the direct adaptation of natural visual foundation models to pathological tasks, drastically outperforming pathological foundation models with simple linear probing. The code will be available upon acceptance.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# 解剖画像平面を用いた医用画像データの自己監督学習

Self-Supervised Learning for Medical Image Data with Anatomy-Oriented Imaging Planes ( http://arxiv.org/abs/2403.16499v1 )

ライセンス: Link先を確認
Tianwei Zhang, Dong Wei, Mengmeng Zhua, Shi Gu, Yefeng Zheng, (参考訳) 自己教師付き学習は、限られたアノテーションで目標タスクの学習を伝達する前に、ラベルのないデータ上でディープネットワークを事前訓練するための強力なツールとして登場した。 事前学習の前提条件と目標課題の関連性は、伝達学習の成功に不可欠である。 医用画像データ(例えば3次元画像)の特性を利用するための様々な前提課題が提案されている。 しかし、従来の研究では、解剖学的指向性イメージングプレーン(例えば、標準の心臓磁気共鳴イメージングビュー)によるデータにはほとんど注意を払わなかった。 これらのイメージングプレーンは、画像化された臓器の解剖に基づいて定義されるため、この情報を効果的に活用するプリテキストタスクは、ネットワークを事前訓練して、興味ある臓器に関する知識を得ることができる。 本研究では,画像平面の空間的関係に基づく医用画像データ群に対する2つの補完的前提課題を提案する。 1つ目は、画像平面間の相対的な向きを学習し、交差する線を後退させるように実装することである。 2つ目は、平行イメージングプレーンを利用して、スタック内の相対的なスライス位置を後退させる。 両方のプリテキストタスクは概念的には単純で実装が容易であり、マルチタスク学習と組み合わせて表現学習を改善することができる。 2つの解剖学的構造(ハートと膝)と代表的目標タスク(セマンティックセグメンテーションと分類)に関する詳細な実験は、提案したプレテキストタスクが、ターゲットタスクの大幅な性能向上と、他の最近のアプローチよりも優れた深層ネットワークの事前訓練に有効であることを示す。

Self-supervised learning has emerged as a powerful tool for pretraining deep networks on unlabeled data, prior to transfer learning of target tasks with limited annotation. The relevance between the pretraining pretext and target tasks is crucial to the success of transfer learning. Various pretext tasks have been proposed to utilize properties of medical image data (e.g., three dimensionality), which are more relevant to medical image analysis than generic ones for natural images. However, previous work rarely paid attention to data with anatomy-oriented imaging planes, e.g., standard cardiac magnetic resonance imaging views. As these imaging planes are defined according to the anatomy of the imaged organ, pretext tasks effectively exploiting this information can pretrain the networks to gain knowledge on the organ of interest. In this work, we propose two complementary pretext tasks for this group of medical image data based on the spatial relationship of the imaging planes. The first is to learn the relative orientation between the imaging planes and implemented as regressing their intersecting lines. The second exploits parallel imaging planes to regress their relative slice locations within a stack. Both pretext tasks are conceptually straightforward and easy to implement, and can be combined in multitask learning for better representation learning. Thorough experiments on two anatomical structures (heart and knee) and representative target tasks (semantic segmentation and classification) demonstrate that the proposed pretext tasks are effective in pretraining deep networks for remarkably boosted performance on the target tasks, and superior to other recent approaches.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# ビジョンランゲージモデルで人間の意思決定をガイドする学習

Learning To Guide Human Decision Makers With Vision-Language Models ( http://arxiv.org/abs/2403.16501v1 )

ライセンス: Link先を確認
Debodeep Banerjee, Stefano Teso, Burcu Sayin Grunel, Andrea Passerini, (参考訳) 意思決定品質の向上と認知歪の低減を目的として,医療診断などの「textit{high-stakes}」タスクにおける人間の意思決定を支援するAI開発への関心が高まっている。 0.1% Mainstreamは、安全な意思決定をオフロードするマシンラーニングモデルの専門家とチームを組むことで、前者が注意を要するケースに注目するようになる。 % この \textit{separation of responsibility} のセットアップは、高リスクシナリオでは不十分である。 一方、専門家は、‘textit{anchoring bias}’によってマシンの決定を過度に検討し、信頼できるAIを保証するために規制当局がますます要求している人間の監督を失う可能性がある。 一方、専門家は、モデルが棄権した(通常、最も難しい)決定について完全に助けられません。 このフレームワークは、人間の専門家から制御されるのではなく、マシンが意思決定に有用な \textit{guidance} を提供する。 %) ガイダンスが \textit{interpretable} と \textit{task-specific} であることを保証するため, 人間のフィードバックのモディカムを利用して, 視覚言語モデルからテキストガイダンスのジェネレータへと変換するアプローチである \method を開発した。 %)が課題であり,現実的な診断課題において,<method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</metho

There is increasing interest in developing AIs for assisting human decision making in \textit{high-stakes} tasks, such as medical diagnosis, for the purpose of improving decision quality and reducing cognitive strain. % Mainstream approaches team up an expert with a machine learning model to which safer decisions are offloaded, thus letting the former focus on cases that demand their attention. % This \textit{separation of responsibilities} setup, however, is inadequate for high-stakes scenarios. On the one hand, the expert may end up over-relying on the machine's decisions due to \textit{anchoring bias}, thus losing the human oversight that is increasingly being required by regulatory agencies to ensure trustworthy AI. On the other hand, the expert is left entirely unassisted on the (typically hardest) decisions on which the model abstained. % As a remedy, we introduce \textit{learning to guide} (LTG), an alternative framework in which -- rather than taking control from the human expert -- the machine provides \textit{guidance} useful for decision making, and the human is entirely responsible for coming up with a decision. % In order to ensure guidance is \textit{interpretable} and \textit{task-specific}, we develop \method, an approach for turning \textit{any} vision-language model into a capable generator of textual guidance by leveraging a modicum of human feedback. % Our empirical evaluation highlights the promise of \method on a challenging, real-world medical diagnosis task.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# 医用画像のレジストレーションと網膜画像への応用

Medical Image Registration and Its Application in Retinal Images: A Review ( http://arxiv.org/abs/2403.16502v1 )

ライセンス: Link先を確認
Qiushi Nie, Xiaoqing Zhang, Yan Hu, Mingdao Gong, Jiang Liu, (参考訳) 医用画像登録は疾患の診断と治療に不可欠であり、異なる時間、角度、モダリティで撮影される画像の多様な情報をマージする能力がある。 いくつかの調査では医用画像登録の開発をレビューしているが、これらの調査は既存の医用画像登録方法の方法論を体系的に要約していない。 この目的のために,これらの手法を従来型および深層学習の方向から総合的にレビューし,医療画像の登録を迅速に理解することを目的とした。 特に,各節末部における網膜画像登録の最近の進歩を概観するが,あまり注目されていない。 また、網膜画像登録の現在の課題についても論じ、今後の研究への洞察と展望を提供する。

Medical image registration is vital for disease diagnosis and treatment with its ability to merge diverse information of images, which may be captured under different times, angles, or modalities. Although several surveys have reviewed the development of medical image registration, these surveys have not systematically summarized methodologies of existing medical image registration methods. To this end, we provide a comprehensive review of these methods from traditional and deep learning-based directions, aiming to help audiences understand the development of medical image registration quickly. In particular, we review recent advances in retinal image registration at the end of each section, which has not attracted much attention. Additionally, we also discuss the current challenges of retinal image registration and provide insights and prospects for future research.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# イベントホライゾン様特異性と量子相転移

Event-Horizon-Like Singularities and Quantum Phase Transitions ( http://arxiv.org/abs/2403.16503v1 )

ライセンス: Link先を確認
Chia-Yi Ju, Fu-Hsiang Huang, Guang-Yin Chen, (参考訳) 最近の研究では、量子系が連続的なパラメータに依存する場合、時間に加えて、創発的な進化次元が引き起こされることが示されている。 創発的進化次元の進化は、(擬-)リーマン幾何学における測地線に類似した最も近いファイバー束である平行輸送によって記述される。 それでも、創発次元の進化はしばしば臨界点における特異な振る舞いを示す。 本研究では、これらの特異点が量子相転移の指標であることを示す。 すると、ブラックホールの事象の地平線のようなこれらの特異点が局所的に除去できることが示される。

A recent study shows that an emergent evolution dimension, in addition to time, can be induced if the quantum system depends on a continuous parameter. The evolution in the emergent evolution dimension is described by a parallel transport, the closest fiber bundle analog to a geodesic in (pseudo-)Riemannian geometry. Nevertheless, the evolution in the emergent dimension often exhibits some singular behaviors at critical points. In this work, we demonstrate that these singularities can be indications of quantum phase transitions. We then show that these singularities, like those at the black hole event horizon, can be removed locally.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# LARA:多段階インテント分類のための言語適応型検索型LLM

LARA: Linguistic-Adaptive Retrieval-Augmented LLMs for Multi-Turn Intent Classification ( http://arxiv.org/abs/2403.16504v1 )

ライセンス: Link先を確認
Liu Junhua, Tan Yong Keat, Fu Bin, (参考訳) 大規模言語モデル(LLM)の重要な成果に続き、研究者はテキスト分類タスクにコンテキスト内学習を採用している。 しかし、これらの研究は単言語、単旋律の分類タスクに焦点をあてた。 本稿では,LARA(Linguistic-Adaptive Retrieval-Augmented Language Models)を提案する。 会話コンテキストの複雑さと進化の性質のため、多ターン意図分類は特に困難である。 LARAは、細調整された小さなモデルと、LLMのアーキテクチャに組み込まれた検索拡張機構を組み合わせることで、これらの問題に対処する。 この統合により、LARAは過去の対話や関連する意図を動的に活用し、コンテキストの理解を改善することができる。 さらに, 適応検索技術により, LLMの言語横断能力が向上し, 広範囲なリトレーニングや微調整が不要となった。 総合的な実験により、LARAはマルチターン意図分類タスクにおいて最先端のパフォーマンスを達成し、既存の手法と比較して平均精度を3.67%向上することを示した。

Following the significant achievements of large language models (LLMs), researchers have employed in-context learning for text classification tasks. However, these studies focused on monolingual, single-turn classification tasks. In this paper, we introduce LARA (Linguistic-Adaptive Retrieval-Augmented Language Models), designed to enhance accuracy in multi-turn classification tasks across six languages, accommodating numerous intents in chatbot interactions. Multi-turn intent classification is notably challenging due to the complexity and evolving nature of conversational contexts. LARA tackles these issues by combining a fine-tuned smaller model with a retrieval-augmented mechanism, integrated within the architecture of LLMs. This integration allows LARA to dynamically utilize past dialogues and relevant intents, thereby improving the understanding of the context. Furthermore, our adaptive retrieval techniques bolster the cross-lingual capabilities of LLMs without extensive retraining and fine-tune. Comprehensive experiments demonstrate that LARA achieves state-of-the-art performance on multi-turn intent classification tasks, enhancing the average accuracy by 3.67% compared to existing methods.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# Return to Tradition: 古典的機械学習による信頼性のあるヒューリスティックス学習

Return to Tradition: Learning Reliable Heuristics with Classical Machine Learning ( http://arxiv.org/abs/2403.16508v1 )

ライセンス: Link先を確認
Dillon Z. Chen, Felipe Trevizan, Sylvie Thiébaux, (参考訳) 計画学習の現在のアプローチは、いくつかの領域における古典的プランナーとの競争的なパフォーマンスを達成できていない。 本研究では,持ち上げ計画タスクのグラフ表現を新たに構築し,WLアルゴリズムを用いて特徴量を生成する。 これらの機能は、パラメータを最大2桁まで減らし、計画モデルのための最先端のディープラーニングよりも最大3桁高速にトレーニングする古典的な機械学習手法で使用される。 我々の新しいアプローチであるWL-GOOSEは、スクラッチからヒューリスティックを確実に学習し、公正競争環境では$h^{\text{FF}}$ヒューリスティックを上回ります。 LAMAは10ドメイン中4ドメイン、プラン品質では10ドメイン中7ドメインでパフォーマンスや関連性も優れています。 WL-GOOSEはこれらの成果を達成するための計画モデルの最初の学習である。 さらに,提案する新たなWL特徴生成手法と,従来の理論的に難解な学習アーキテクチャと,計画のための記述論理特徴との関連性について検討した。

Current approaches for learning for planning have yet to achieve competitive performance against classical planners in several domains, and have poor overall performance. In this work, we construct novel graph representations of lifted planning tasks and use the WL algorithm to generate features from them. These features are used with classical machine learning methods which have up to 2 orders of magnitude fewer parameters and train up to 3 orders of magnitude faster than the state-of-the-art deep learning for planning models. Our novel approach, WL-GOOSE, reliably learns heuristics from scratch and outperforms the $h^{\text{FF}}$ heuristic in a fair competition setting. It also outperforms or ties with LAMA on 4 out of 10 domains on coverage and 7 out of 10 domains on plan quality. WL-GOOSE is the first learning for planning model which achieves these feats. Furthermore, we study the connections between our novel WL feature generation method, previous theoretically flavoured learning architectures, and Description Logic Features for planning.
翻訳日:2024-03-26 15:37:57 公開日:2024-03-25
# Human Understanding AI Paper Challenge 2024 -- データセット設計

Human Understanding AI Paper Challenge 2024 -- Dataset Design ( http://arxiv.org/abs/2403.16509v1 )

ライセンス: Link先を確認
Se Won Oh, Hyuntae Jeong, Jeong Mook Lim, Seungeun Chung, Kyoung Ju Noh, (参考訳) 2024年には、人間の日常生活を理解する人工知能技術の研究・開発のための研究論文コンテスト(第3回人間理解AI論文コンテスト)を開催します。 この文書では、コンペの参加者に提供されるデータセットを紹介し、データ処理と学習モデル開発において考慮すべき問題を要約する。

In 2024, we will hold a research paper competition (the third Human Understanding AI Paper Challenge) for the research and development of artificial intelligence technologies to understand human daily life. This document introduces the datasets that will be provided to participants in the competition, and summarizes the issues to consider in data processing and learning model development.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# Make-Your-Anchor:拡散型2次元アバター生成フレームワーク

Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework ( http://arxiv.org/abs/2403.16510v1 )

ライセンス: Link先を確認
Ziyao Huang, Fan Tang, Yong Zhang, Xiaodong Cun, Juan Cao, Jintao Li, Tong-Yee Lee, (参考訳) トーキーベースのアバター作成ソリューションの驚くべきプロセスにもかかわらず、フルボディモーションでアンカースタイルの動画を直接生成することは依然として難しい。 本研究では,訓練対象者の1分間のビデオクリップのみを必要とする新しいシステムであるMake-Your-Anchorを提案する。 具体的には、3次元メッシュ条件を人間の外見に反映させるため、入力ビデオ上に構造誘導拡散モデルを提案する。 拡散モデルに2段階のトレーニング戦略を適用し,動作を特定の外観と効果的に結合する。 任意の長時間ビデオを生成するために,フレームワイド拡散モデルにおける2次元U-Netを,追加のトレーニングコストを伴わずに3次元スタイルに拡張する。 最後に、出力ビデオにおける顔領域の視覚的品質を改善するために、新しい識別特化顔強調モジュールを導入する。 比較実験は、SOTA拡散/非拡散法よりも優れた視覚的品質、時間的コヒーレンス、アイデンティティ保存の観点から、システムの有効性と優位性を示す。 プロジェクトページ: \url{https://github.com/ICTMCG/Make-Your-Anchor}。

Despite the remarkable process of talking-head-based avatar-creating solutions, directly generating anchor-style videos with full-body motions remains challenging. In this study, we propose Make-Your-Anchor, a novel system necessitating only a one-minute video clip of an individual for training, subsequently enabling the automatic generation of anchor-style videos with precise torso and hand movements. Specifically, we finetune a proposed structure-guided diffusion model on input video to render 3D mesh conditions into human appearances. We adopt a two-stage training strategy for the diffusion model, effectively binding movements with specific appearances. To produce arbitrary long temporal video, we extend the 2D U-Net in the frame-wise diffusion model to a 3D style without additional training cost, and a simple yet effective batch-overlapped temporal denoising module is proposed to bypass the constraints on video length during inference. Finally, a novel identity-specific face enhancement module is introduced to improve the visual quality of facial regions in the output videos. Comparative experiments demonstrate the effectiveness and superiority of the system in terms of visual quality, temporal coherence, and identity preservation, outperforming SOTA diffusion/non-diffusion methods. Project page: \url{https://github.com/ICTMCG/Make-Your-Anchor}.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# LLMは、インコンテクストの低リソース言語学習者がほとんどいない

LLMs Are Few-Shot In-Context Low-Resource Language Learners ( http://arxiv.org/abs/2403.16512v1 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Holy Lovenia, Pascale Fung, (参考訳) In-context Learning (ICL) は、大規模な言語モデル(LLM)に対して、短いインコンテキスト情報のみを使用して、不足言語で多様なタスクを実行する権限を与え、高リソースと低リソースの言語間のギャップを狭めるための重要な手段を提供する。 それにもかかわらず、低リソース言語のためのICLを探究する研究はごくわずかであり、そのほとんどはフランス語やスペイン語のような比較的高リソース言語に焦点を当てている。 本研究では,25の低リソース言語と7の比較的高リソース言語に対して,ICLとその言語間変動(X-ICL)を広範囲に研究する。 本研究は、低リソース言語におけるILCとLLMの有効性を評価するだけでなく、テキスト内ラベルアライメントの欠点を識別し、より効果的な代替手段であるクエリアライメントを導入する。 さらに、低リソース言語に対するICLの様々な側面に関する貴重な洞察を提供する。 本研究は,LLMの低リソース理解の質を高めるために,目的言語における言語ギャップを閉じ,目標とする低リソースと高リソース言語とのセマンティクスを整合させることにより,意味的関連情報を通じて,低リソース理解の質を高めることの重要性を結論づける。 我々の研究は、特に低リソース言語において、ICL研究を進めることの重要性を強調しています。

In-context learning (ICL) empowers large language models (LLMs) to perform diverse tasks in underrepresented languages using only short in-context information, offering a crucial avenue for narrowing the gap between high-resource and low-resource languages. Nonetheless, there is only a handful of works explored ICL for low-resource languages with most of them focusing on relatively high-resource languages, such as French and Spanish. In this work, we extensively study ICL and its cross-lingual variation (X-ICL) on 25 low-resource and 7 relatively higher-resource languages. Our study not only assesses the effectiveness of ICL with LLMs in low-resource languages but also identifies the shortcomings of in-context label alignment, and introduces a more effective alternative: query alignment. Moreover, we provide valuable insights into various facets of ICL for low-resource languages. Our study concludes the significance of few-shot in-context information on enhancing the low-resource understanding quality of LLMs through semantically relevant information by closing the language gap in the target language and aligning the semantics between the targeted low-resource and the high-resource language that the model is proficient in. Our work highlights the importance of advancing ICL research, particularly for low-resource languages.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# 現実のイメージを判断者として、生成モデルで合成された偽画像を見つける

Let Real Images be as a Judger, Spotting Fake Images Synthesized with Generative Models ( http://arxiv.org/abs/2403.16513v1 )

ライセンス: Link先を確認
Ziyou Liang, Run Wang, Weifeng Liu, Yuyang Zhang, Wenyuan Yang, Lina Wang, Xingkai Wang, (参考訳) ここ数年、生成モデルは、品質と多様性(顔画像、自然被写体)の両方で現実的なイメージを合成する強力な能力を示してきた。 残念なことに、異なる生成モデルで合成された偽画像のアーティファクトパターンは矛盾しており、現実と偽の微妙な違いを見つけることに依存する過去の研究の失敗につながっている。 予備実験では, 疑似画像のアーティファクトは生成モデルの発展に伴って常に変化し, 自然画像は安定した統計特性を示すことがわかった。 本稿では,実画像でのみ共有される自然なトレースを,検出器内の新たな予測対象として採用する。 具体的には、野生の実画像から自然痕跡を学習し、実画像に近づき、さらに偽画像から遠ざけるように教師付きコントラスト学習を導入する。 これにより、検出器は自然なトレースへの画像の近接に基づいて決定を行う。 総合的な実験を行うため、6つのGANと6つの拡散モデルからなる生成モデルを含む高品質で多様なデータセットを構築し、未知の偽造技法を一般化し、生き残った異なる変換における堅牢性を評価する。 実験の結果,提案手法は96.1%のmAPがベースラインを著しく上回ることがわかった。 広く認知されているプラットフォームであるMidjourneyで実施された大規模な実験により,提案手法が78.4%を超える精度を実現し,実世界のアプリケーション展開における実用性を実証した。 ソースコードと部分的な自己構築データセットは補足資料で利用できる。

In the last few years, generative models have shown their powerful capabilities in synthesizing realistic images in both quality and diversity (i.e., facial images, and natural subjects). Unfortunately, the artifact patterns in fake images synthesized by different generative models are inconsistent, leading to the failure of previous research that relied on spotting subtle differences between real and fake. In our preliminary experiments, we find that the artifacts in fake images always change with the development of the generative model, while natural images exhibit stable statistical properties. In this paper, we employ natural traces shared only by real images as an additional predictive target in the detector. Specifically, the natural traces are learned from the wild real images and we introduce extended supervised contrastive learning to bring them closer to real images and further away from fake ones. This motivates the detector to make decisions based on the proximity of images to the natural traces. To conduct a comprehensive experiment, we built a high-quality and diverse dataset that includes generative models comprising 6 GAN and 6 diffusion models, to evaluate the effectiveness in generalizing unknown forgery techniques and robustness in surviving different transformations. Experimental results show that our proposed method gives 96.1% mAP significantly outperforms the baselines. Extensive experiments conducted on the widely recognized platform Midjourney reveal that our proposed method achieves an accuracy exceeding 78.4%, underscoring its practicality for real-world application deployment. The source code and partial self-built dataset are available in supplementary material.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# 文書インテリジェンスのためのビジュアルガイド生成テキストレイアウト事前学習

Visually Guided Generative Text-Layout Pre-training for Document Intelligence ( http://arxiv.org/abs/2403.16516v1 )

ライセンス: Link先を確認
Zhiming Mao, Haoli Bai, Lu Hou, Jiansheng Wei, Xin Jiang, Qun Liu, Kam-Fai Wong, (参考訳) 以前の研究では、事前学習技術が視覚的文書理解(VDU)の性能を向上させることが示されており、通常は、文書テキストとレイアウト(例えば、テキストの位置やテーブルセル)の両方を知覚し、推論する能力を持つモデルを必要とする。 そこで本稿では,ViTLPと名づけられた生成テキストの事前学習を視覚的に指導する手法を提案する。 文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。 また,トランスフォーマーによる長文処理の制限に対処するため,VTLPが任意の長さの単語集約文書を処理できるように,単純かつ効果的な多節生成事前学習方式を導入する。 ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。 さらに、VTLPは様々な下流VDUタスクに効果的に適用できる。 大規模な実験により、VTLPは、情報抽出、文書分類、文書質問応答など、既存のVDUタスクのベースラインよりも競合する性能を達成している。

Prior study shows that pre-training techniques can boost the performance of visual document understanding (VDU), which typically requires models to gain abilities to perceive and reason both document texts and layouts (e.g., locations of texts and table-cells). To this end, we propose visually guided generative text-layout pre-training, named ViTLP. Given a document image, the model optimizes hierarchical language and layout modeling objectives to generate the interleaved text and layout sequence. In addition, to address the limitation of processing long documents by Transformers, we introduce a straightforward yet effective multi-segment generative pre-training scheme, facilitating ViTLP to process word-intensive documents of any length. ViTLP can function as a native OCR model to localize and recognize texts of document images. Besides, ViTLP can be effectively applied to various downstream VDU tasks. Extensive experiments show that ViTLP achieves competitive performance over existing baselines on benchmark VDU tasks, including information extraction, document classification, and document question answering.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# CMViM:AD分類のための3次元マルチモーダル表現学習のためのコントラシティブマスク付きビムオートエンコーダ

CMViM: Contrastive Masked Vim Autoencoder for 3D Multi-modal Representation Learning for AD classification ( http://arxiv.org/abs/2403.16520v1 )

ライセンス: Link先を確認
Guangqian Yang, Kangrui Du, Zhihan Yang, Ye Du, Yongping Zheng, Shujun Wang, (参考訳) アルツハイマー病(英語: Alzheimer's disease, AD)は、認知機能低下につながる神経変性疾患である。 治療法が欠如していることから、迅速かつ正確なAD診断は不可欠であり、複雑なプロセスは複数の因子とマルチモーダルデータに依存する。 マルチモーダル表現学習を医療データセットに統合する試みは成功したが、3次元医用画像に注意が向けられている。 本稿では,3次元マルチモーダルデータに適した最初の効率的な表現学習法であるContrastive Masked Vim Autoencoder (CMViM)を提案する。 提案手法はマスク付きVimオートエンコーダ上に構築され,3次元医用画像に含まれるマルチモーダル表現と長期依存性を統一的に学習する。 また、同モードにおける識別特徴をモデル化するためのマルチモーダルVimエンコーダの能力を高めるためのモーダル内コントラスト学習モジュールと、モーダル間の不整合表現を緩和するモーダル間コントラスト学習モジュールも導入する。 私たちのフレームワークは2つの主要なステップで構成されています。 1)Vision Mamba(Vim)をマスクオートエンコーダに組み込んで、3Dマスクされたマルチモーダルデータを効率的に再構築する。 2)マルチモーダル表現は,モーダル内およびモーダル間の両方から,コントラスト学習機構と整合する。 本フレームワークは,ADNI2データセットの事前学習および検証を行い,AD分類のための下流タスクで検証する。 提案したCMViMは、他の最先端手法と比較してAUC性能が2.7\%向上する。

Alzheimer's disease (AD) is an incurable neurodegenerative condition leading to cognitive and functional deterioration. Given the lack of a cure, prompt and precise AD diagnosis is vital, a complex process dependent on multiple factors and multi-modal data. While successful efforts have been made to integrate multi-modal representation learning into medical datasets, scant attention has been given to 3D medical images. In this paper, we propose Contrastive Masked Vim Autoencoder (CMViM), the first efficient representation learning method tailored for 3D multi-modal data. Our proposed framework is built on a masked Vim autoencoder to learn a unified multi-modal representation and long-dependencies contained in 3D medical images. We also introduce an intra-modal contrastive learning module to enhance the capability of the multi-modal Vim encoder for modeling the discriminative features in the same modality, and an inter-modal contrastive learning module to alleviate misaligned representation among modalities. Our framework consists of two main steps: 1) incorporate the Vision Mamba (Vim) into the mask autoencoder to reconstruct 3D masked multi-modal data efficiently. 2) align the multi-modal representations with contrastive learning mechanisms from both intra-modal and inter-modal aspects. Our framework is pre-trained and validated ADNI2 dataset and validated on the downstream task for AD classification. The proposed CMViM yields 2.7\% AUC performance improvement compared with other state-of-the-art methods.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# 経路解析を用いた高次累積を用いたポアソン分岐構造因果モデルからの因果発見

Causal Discovery from Poisson Branching Structural Causal Model Using High-Order Cumulant with Path Analysis ( http://arxiv.org/abs/2403.16523v1 )

ライセンス: Link先を確認
Jie Qiao, Yu Xiang, Zhengming Chen, Ruichu Cai, Zhifeng Hao, (参考訳) カウントデータは、金融、神経科学、疫学など多くの分野で自然に発生し、カウントデータ中の因果構造を発見することは、様々な科学的・産業的なシナリオにおいて重要な課題である。 カウントデータの最も一般的な特徴の1つは、二項化演算子によって記述される固有の分岐構造と、分岐とノイズの両方をキャプチャする独立なポアソン分布である。 例えば、人口増加のシナリオでは、死亡率と移民数はベルヌーイの分布に従っており、移民はポアソンの分布に従っている。 しかし、そのようなデータからの因果発見は、識別不可能な問題のために困難である:単一の因果対がマルコフ同値、すなわち$X\rightarrow Y$と$Y\rightarrow X$は分散同値である。 幸いなことに、この研究で、$X$からその子$Y$への因果順序は、$X$がルート頂点であり、少なくとも$Y$への指示パスが2つあるか、または$X$に最も指示パスがある$X$の祖先が$X$を渡さずに$Y$への指示パスを持っているかどうかを特定できることがわかった。 具体的には,ポアソン分岐構造因果モデル(PB-SCM)を提案し,高次累積を用いたPB-SCMの経路解析を行う。 理論的結果は、経路と累積物との接続を確立し、累積物から経路情報を得ることができることを示す。 経路情報により、いくつかのグラフィカルな条件下で因果順序を識別できる。 PB-SCMに基づく因果構造学習のための実践的アルゴリズムを提案し,提案手法の有効性を実証し検証した。

Count data naturally arise in many fields, such as finance, neuroscience, and epidemiology, and discovering causal structure among count data is a crucial task in various scientific and industrial scenarios. One of the most common characteristics of count data is the inherent branching structure described by a binomial thinning operator and an independent Poisson distribution that captures both branching and noise. For instance, in a population count scenario, mortality and immigration contribute to the count, where survival follows a Bernoulli distribution, and immigration follows a Poisson distribution. However, causal discovery from such data is challenging due to the non-identifiability issue: a single causal pair is Markov equivalent, i.e., $X\rightarrow Y$ and $Y\rightarrow X$ are distributed equivalent. Fortunately, in this work, we found that the causal order from $X$ to its child $Y$ is identifiable if $X$ is a root vertex and has at least two directed paths to $Y$, or the ancestor of $X$ with the most directed path to $X$ has a directed path to $Y$ without passing $X$. Specifically, we propose a Poisson Branching Structure Causal Model (PB-SCM) and perform a path analysis on PB-SCM using high-order cumulants. Theoretical results establish the connection between the path and cumulant and demonstrate that the path information can be obtained from the cumulant. With the path information, causal order is identifiable under some graphical conditions. A practical algorithm for learning causal structure under PB-SCM is proposed and the experiments demonstrate and verify the effectiveness of the proposed method.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# MASにおける規範的推論のためのLLMの力の調和

Harnessing the power of LLMs for normative reasoning in MASs ( http://arxiv.org/abs/2403.16524v1 )

ライセンス: Link先を確認
Bastin Tony Roy Savarimuthu, Surangika Ranathunga, Stephen Cranefield, (参考訳) ソフトウェアエージェントは、人でも計算でも、独立して存在せず、目標を達成するために、しばしば他人と協力したり調整したりする必要がある。 人間社会では、規範のような社会的メカニズムは効率的な機能を保証するが、これらの手法は、マルチエージェントシステム(MAS)の研究者が社会的に認識されるエージェントを作成するために採用している。 しかし、伝統的な技術は、しばしば脆いシンボリック推論を使用して限られた環境での運用のような制限がある。 LLM(Large Language Models)の出現は、標準に対するリッチで表現力豊かな語彙を提供し、ノルム発見、規範的推論、意思決定などのタスクを実行できるノルム対応エージェントを可能にする、有望なソリューションを提供する。 本稿では,近年の自然言語処理 (NLP) と LLM 研究に基づいて, LLM ベースエージェントによる規範的能力の獲得の可能性について検討する。 規範的LLMエージェントを作成するためのビジョンを提示する。 特に,最近提案された"LLMエージェント"アプローチが,そのような規範的LLMエージェントを実装するためにどのように拡張できるかについて議論する。 この新興分野の課題も強調する。 そこで本稿は,MAS,NLP,LLM研究者の協力関係を育成し,規範的エージェントの分野を推し進めることを目的とする。

Software agents, both human and computational, do not exist in isolation and often need to collaborate or coordinate with others to achieve their goals. In human society, social mechanisms such as norms ensure efficient functioning, and these techniques have been adopted by researchers in multi-agent systems (MAS) to create socially aware agents. However, traditional techniques have limitations, such as operating in limited environments often using brittle symbolic reasoning. The advent of Large Language Models (LLMs) offers a promising solution, providing a rich and expressive vocabulary for norms and enabling norm-capable agents that can perform a range of tasks such as norm discovery, normative reasoning and decision-making. This paper examines the potential of LLM-based agents to acquire normative capabilities, drawing on recent Natural Language Processing (NLP) and LLM research. We present our vision for creating normative LLM agents. In particular, we discuss how the recently proposed "LLM agent" approaches can be extended to implement such normative LLM agents. We also highlight challenges in this emerging field. This paper thus aims to foster collaboration between MAS, NLP and LLM researchers in order to advance the field of normative agents.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# ModeTv2: 医用画像登録におけるペアワイズ最適化のためのGPUアクセラレーション動作分解変換器

ModeTv2: GPU-accelerated Motion Decomposition Transformer for Pairwise Optimization in Medical Image Registration ( http://arxiv.org/abs/2403.16526v1 )

ライセンス: Link先を確認
Haiqiao Wang, Zhuoyuan Wang, Dong Ni, Yi Wang, (参考訳) 変形可能な画像登録は、疾患の診断と画像誘導の介入を支援する医療画像において重要な役割を担っている。 従来の反復的手法は遅いが、ディープラーニング(DL)はソリューションを加速するが、ユーザビリティと精度の課題に直面している。 本研究では,従来の手法に類似した優れたペアワイズ最適化(PO)を示す改良された運動分解変換器(ModeTv2)演算子を用いたピラミッドネットワークを提案する。 計算効率を向上させるために,CUDA拡張でModeT演算子を再実装する。 さらに、変形場を洗練し、変形の現実性を改善し、パラメータを減らすRegHeadモジュールを提案する。 POを採用することで、提案するネットワークは精度、効率、一般化可能性のバランスをとる。 2つのパブリック脳MRIデータセットと1つの腹部CTデータセットに関する大規模な実験は、ネットワークのPOに対する適合性を実証し、ユーザビリティと解釈性を高めたDLモデルを提供する。 コードは公開されている。

Deformable image registration plays a crucial role in medical imaging, aiding in disease diagnosis and image-guided interventions. Traditional iterative methods are slow, while deep learning (DL) accelerates solutions but faces usability and precision challenges. This study introduces a pyramid network with the enhanced motion decomposition Transformer (ModeTv2) operator, showcasing superior pairwise optimization (PO) akin to traditional methods. We re-implement ModeT operator with CUDA extensions to enhance its computational efficiency. We further propose RegHead module which refines deformation fields, improves the realism of deformation and reduces parameters. By adopting the PO, the proposed network balances accuracy, efficiency, and generalizability. Extensive experiments on two public brain MRI datasets and one abdominal CT dataset demonstrate the network's suitability for PO, providing a DL model with enhanced usability and interpretability. The code is publicly available.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# 意思決定のための基礎モデルにおける幻覚検出:芸術的状態のフレキシブル定義とレビュー

Hallucination Detection in Foundation Models for Decision-Making: A Flexible Definition and Review of the State of the Art ( http://arxiv.org/abs/2403.16527v1 )

ライセンス: Link先を確認
Neeloy Chakraborty, Melkior Ornik, Katherine Driggs-Campbell, (参考訳) 自動化システムはすぐに、製造業の自律性から農業用フィールドロボット、医療アシスタントからエンターテイメント産業まで、どこにでも行き渡るようになる。 これらのシステムの大部分は、手作業や学習に基づく意思決定、計画、制御のためのモジュールサブコンポーネントで開発されている。 これらの既存のアプローチは、特別に設計された状況下ではうまく機能することが示されていますが、テスト時に間違いなく発生する、まれな配布外のシナリオでは特にパフォーマンスが悪くなります。 様々な分野から、驚くほど大きなデータセットを持つ複数のタスクでトレーニングされた基礎モデルの台頭は、これらのモデルが既存のプランナーが欠落しているという共通の感覚を与えるかもしれないと研究者の間で信じられている。 研究者らは、この常識推論は、アルゴリズム開発とデプロイメントの間のギャップを、人間が予期しないシナリオにどのように適応するかといった、配布外タスクに埋めるものだと仮定している。 大規模な言語モデルはすでにロボットと自律システムドメインを浸透させており、研究者はデプロイにおける潜在的なユースケースを実証しようとしている。 このアプリケーションの方向性は非常に有望だが、ファンデーションモデルは、合理的に聞こえるが実際は貧弱な決定を幻覚し、生成することが知られている。 我々は、モデル決定の確実性を定量化し、それが幻覚している可能性があることを検出できるシステムを後退して同時に設計する必要があると主張している。 本稿では,意思決定タスクの基盤モデルの現状について論じ,例による幻覚の一般的な定義を提供し,意思決定問題に焦点をあてた幻覚の検出と緩和への既存のアプローチについて議論し,このエキサイティングな分野のさらなる研究分野を探究する。

Autonomous systems are soon to be ubiquitous, from manufacturing autonomy to agricultural field robots, and from health care assistants to the entertainment industry. The majority of these systems are developed with modular sub-components for decision-making, planning, and control that may be hand-engineered or learning-based. While these existing approaches have been shown to perform well under the situations they were specifically designed for, they can perform especially poorly in rare, out-of-distribution scenarios that will undoubtedly arise at test-time. The rise of foundation models trained on multiple tasks with impressively large datasets from a variety of fields has led researchers to believe that these models may provide common sense reasoning that existing planners are missing. Researchers posit that this common sense reasoning will bridge the gap between algorithm development and deployment to out-of-distribution tasks, like how humans adapt to unexpected scenarios. Large language models have already penetrated the robotics and autonomous systems domains as researchers are scrambling to showcase their potential use cases in deployment. While this application direction is very promising empirically, foundation models are known to hallucinate and generate decisions that may sound reasonable, but are in fact poor. We argue there is a need to step back and simultaneously design systems that can quantify the certainty of a model's decision, and detect when it may be hallucinating. In this work, we discuss the current use cases of foundation models for decision-making tasks, provide a general definition for hallucinations with examples, discuss existing approaches to hallucination detection and mitigation with a focus on decision problems, and explore areas for further research in this exciting field.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# 視覚言語モデルにおけるオープンセット認識

Open-Set Recognition in the Age of Vision-Language Models ( http://arxiv.org/abs/2403.16528v1 )

ライセンス: Link先を確認
Dimity Miller, Niko Sünderhauf, Alex Kenna, Keita Mason, (参考訳) ビジョン言語モデル(VLM)は、インターネットスケールのデータセットでトレーニングされているため、オープンセットモデルなのか? VLMは、その有限クエリセットを介してクローズドセットの仮定を導入し、オープンセット条件に対して脆弱である。 オープンセット認識のためのVLMを体系的に評価し、クエリセットに含まれていないオブジェクトをしばしば誤分類し、高いリコールのために調整された場合、その逆も警告的に低い精度に繋がることを示した。 より多くのクラスを含むクエリセットのサイズを中立的に増やすことは、この問題を軽減するのではなく、タスクパフォーマンスの低下とオープンセットのパフォーマンスの低下を引き起こすことを示す。 我々は,VLM 時代におけるオープンセット問題の再定義を確立し,この重要な領域における標準化された評価と研究を容易にするための新しいベンチマークと評価プロトコルを定義し,VLM 分類器および対象検出器の領域に,予測的不確実性および専用負の埋め込みに基づく有望なベースラインアプローチを評価する。

Are vision-language models (VLMs) open-set models because they are trained on internet-scale datasets? We answer this question with a clear no - VLMs introduce closed-set assumptions via their finite query set, making them vulnerable to open-set conditions. We systematically evaluate VLMs for open-set recognition and find they frequently misclassify objects not contained in their query set, leading to alarmingly low precision when tuned for high recall and vice versa. We show that naively increasing the size of the query set to contain more and more classes does not mitigate this problem, but instead causes diminishing task performance and open-set performance. We establish a revised definition of the open-set problem for the age of VLMs, define a new benchmark and evaluation protocol to facilitate standardised evaluation and research in this important area, and evaluate promising baseline approaches based on predictive uncertainty and dedicated negative embeddings on a range of VLM classifiers and object detectors.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# 拡散モデルにおけるテキスト画像の効率的なアライメントを可能にする中間核融合型ViT

An Intermediate Fusion ViT Enables Efficient Text-Image Alignment in Diffusion Models ( http://arxiv.org/abs/2403.16530v1 )

ライセンス: Link先を確認
Zizhao Hu, Shaochong Jia, Mohammad Rostami, (参考訳) 拡散モデルは、テキスト・トゥ・イメージやテキスト・トゥ・ビデオのような条件付きデータ・クロスモーダル生成タスクに広く利用されている。 しかし、最先端モデルは、オブジェクト数、空間関係などのような言語における高レベルな意味論と生成した視覚概念を一致させることができない。 マルチモーダルデータ融合の観点からこの問題にアプローチし、異なる融合戦略が視覚言語アライメントにどのように影響するかを検討する。 我々は、事前訓練された画像特徴空間における条件付きテキストの早期融合と比較して、特別に設計された中間融合が可能であることを発見した。 (i)生成品質の向上によるテキスト・画像のアライメントの向上 (2)低ランクテキスト・ツー・イメージの注意計算を減らし、トレーニングと推論効率を向上させる。 我々はMS-COCOデータセット上でテキスト・画像生成タスクを用いて実験を行う。 中間核融合機構と古典的初期核融合機構をU字型VTバックボーン上の2つの共通条件付け法で比較した。 中間核融合モデルではCLIPスコアと低FIDが向上し,FLOPは20%減少し,U-ViTベースラインの早期核融合に比べてトレーニング速度は50%向上した。

Diffusion models have been widely used for conditional data cross-modal generation tasks such as text-to-image and text-to-video. However, state-of-the-art models still fail to align the generated visual concepts with high-level semantics in a language such as object count, spatial relationship, etc. We approach this problem from a multimodal data fusion perspective and investigate how different fusion strategies can affect vision-language alignment. We discover that compared to the widely used early fusion of conditioning text in a pretrained image feature space, a specially designed intermediate fusion can: (i) boost text-to-image alignment with improved generation quality and (ii) improve training and inference efficiency by reducing low-rank text-to-image attention calculations. We perform experiments using a text-to-image generation task on the MS-COCO dataset. We compare our intermediate fusion mechanism with the classic early fusion mechanism on two common conditioning methods on a U-shaped ViT backbone. Our intermediate fusion model achieves a higher CLIP Score and lower FID, with 20% reduced FLOPs, and 50% increased training speed compared to a strong U-ViT baseline with an early fusion.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# VMRNN: 効率的な時空間予測のためのビジョンマンバとLSTMの統合

VMRNN: Integrating Vision Mamba and LSTM for Efficient and Accurate Spatiotemporal Forecasting ( http://arxiv.org/abs/2403.16536v1 )

ライセンス: Link先を確認
Yujin Tang, Peijie Dong, Zhenheng Tang, Xiaowen Chu, Junwei Liang, (参考訳) CNN や ViT を時空間予測用の RNN と組み合わせることで,時間的・空間的ダイナミクスを予測できる無矛盾の結果が得られた。 しかし、広範にグローバルな情報をモデリングすることは依然として困難な課題であり、CNNは狭い受容領域によって制限されており、ViTは注意機構の計算的要求に苦慮している。 最近のマンバをベースとしたアーキテクチャの出現は、高効率と精度で確立されたビジョンモデルを超え、時空間予測に適した革新的なアーキテクチャを開発する動機となった、非常に長いシーケンスモデリング能力に熱中している。 本稿では,視覚マンバブロックの強みをLSTMと統合した新しいリカレントユニットであるVMRNNセルを提案する。 時空間予測処理を効果的に行うため,VMRNNセルを中心としたネットワークを構築した。 提案手法は, モデルサイズを小さく保ちながら, 様々なタスクにおける競争力を確保できることを示す。 私たちのコードはhttps://github.com/yyyujintang/VMRNN-PyTorchで公開されています。

Combining CNNs or ViTs, with RNNs for spatiotemporal forecasting, has yielded unparalleled results in predicting temporal and spatial dynamics. However, modeling extensive global information remains a formidable challenge; CNNs are limited by their narrow receptive fields, and ViTs struggle with the intensive computational demands of their attention mechanisms. The emergence of recent Mamba-based architectures has been met with enthusiasm for their exceptional long-sequence modeling capabilities, surpassing established vision models in efficiency and accuracy, which motivates us to develop an innovative architecture tailored for spatiotemporal forecasting. In this paper, we propose the VMRNN cell, a new recurrent unit that integrates the strengths of Vision Mamba blocks with LSTM. We construct a network centered on VMRNN cells to tackle spatiotemporal prediction tasks effectively. Our extensive evaluations show that our proposed approach secures competitive results on a variety of tasks while maintaining a smaller model size. Our code is available at https://github.com/yyyujintang/VMRNN-PyTorch.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# DOrA: オーダーアウェア参照による3次元視覚グラウンド

DOrA: 3D Visual Grounding with Order-Aware Referring ( http://arxiv.org/abs/2403.16539v1 )

ライセンス: Link先を確認
Tung-Yu Wu, Sheng-Yu Huang, Yu-Chiang Frank Wang, (参考訳) 3Dビジュアルグラウンドティングは、自然言語記述によって参照される3Dポイントクラウドシーン内でターゲットオブジェクトを特定することを目的としている。 従来の研究は、提案されたモーダル変換器との言語・視覚的関係を活用しようとするが、構造化されていない自然な発話と散在した物体は望ましくないパフォーマンスをもたらす可能性がある。 本稿では,DOrAについて紹介する。DOrAは,オーダー・アウェアが参照する新しい3次元視覚基盤フレームワークである。 DOrAは言語記述を解析するためにLLM(Large Language Models)を活用するように設計されており、アンカーオブジェクトの参照順序を示唆している。 このような順序付けられたアンカーオブジェクトにより、DOrAは視覚的特徴を更新し、接地プロセス中にターゲットオブジェクトを見つけることができる。 NR3DとScanReferのデータセットの実験結果は、低リソースとフルデータの両方のシナリオにおいて、私たちの優位性を示しています。 特に、DOrAは現在の最先端フレームワークを9.3%上回り、7.8%の精度で、それぞれ1%のデータ設定と10%のデータ設定に基づいている。

3D visual grounding aims to identify the target object within a 3D point cloud scene referred to by a natural language description. While previous works attempt to exploit the verbo-visual relation with proposed cross-modal transformers, unstructured natural utterances and scattered objects might lead to undesirable performances. In this paper, we introduce DOrA, a novel 3D visual grounding framework with Order-Aware referring. DOrA is designed to leverage Large Language Models (LLMs) to parse language description, suggesting a referential order of anchor objects. Such ordered anchor objects allow DOrA to update visual features and locate the target object during the grounding process. Experimental results on the NR3D and ScanRefer datasets demonstrate our superiority in both low-resource and full-data scenarios. In particular, DOrA surpasses current state-of-the-art frameworks by 9.3% and 7.8% grounding accuracy under 1% data and 10% data settings, respectively.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# 相関雑音を伴う個人用オンラインフェデレーション学習

Differentially Private Online Federated Learning with Correlated Noise ( http://arxiv.org/abs/2403.16542v1 )

ライセンス: Link先を確認
Jiaojiao Zhang, Linglingzhi Zhu, Mikael Johansson, (参考訳) 本稿では,時間的相関雑音を用いたオンラインフェデレーション学習のための新しい微分プライベートアルゴリズムを提案する。 本研究は,DPノイズと非イドデータのストリーミングによるローカル更新による課題に対処するため,DPノイズが実用性に与える影響を制御するための摂動反復解析法を開発した。 さらに,局所更新によるドリフト誤差を準強凸条件下で効果的に管理できることを示す。 $(\epsilon, \delta)$-DPの予算に従うと、キーパラメータの影響と動的環境の変化の強度を定量化する、時間的地平線全体に束縛された動的後悔を確立する。 数値実験により提案アルゴリズムの有効性が検証された。

We propose a novel differentially private algorithm for online federated learning that employs temporally correlated noise to improve the utility while ensuring the privacy of the continuously released models. To address challenges stemming from DP noise and local updates with streaming noniid data, we develop a perturbed iterate analysis to control the impact of the DP noise on the utility. Moreover, we demonstrate how the drift errors from local updates can be effectively managed under a quasi-strong convexity condition. Subject to an $(\epsilon, \delta)$-DP budget, we establish a dynamic regret bound over the entire time horizon that quantifies the impact of key parameters and the intensity of changes in dynamic environments. Numerical experiments validate the efficacy of the proposed algorithm.
翻訳日:2024-03-26 15:28:08 公開日:2024-03-25
# コントラスト表現学習によるFew-Shot関係分類における効率的な情報抽出

Efficient Information Extraction in Few-Shot Relation Classification through Contrastive Representation Learning ( http://arxiv.org/abs/2403.16543v1 )

ライセンス: Link先を確認
Philipp Borchert, Jochen De Weerdt, Marie-Francine Moens, (参考訳) 限定ラベル付きインスタンスによるエンティティペア間の関係の微分は、数ショットの関係分類において大きな課題となる。 テキストデータの表現は、ドメイン、エンティティ、関係にまたがる豊富な情報を抽出する。 本稿では,複数文表現とコントラスト学習を組み合わせた情報抽出手法を提案する。 関係分類における表現は、エンティティマーカートークンを用いて一般的に抽出されるが、内部モデル表現における実質的な情報は未解決のままであると主張する。 そこで我々は,[CLS]トークン,[MASK]トークン,エンティティトークンなどの複数の文表現の整合性を提案する。 本手法では,これらの表現から相補的識別情報を抽出するために,コントラスト学習を用いる。 これは、情報が不足している低リソース設定に特に関係している。 複数文表現の活用は、関係記述のような追加情報が利用できない場合に、関係分類のための識別情報を蒸留するのに特に有効である。 我々は、我々のアプローチの適応性を評価し、関係記述を含むシナリオにおける堅牢なパフォーマンスを維持し、異なるリソース制約に適応する柔軟性を示す。

Differentiating relationships between entity pairs with limited labeled instances poses a significant challenge in few-shot relation classification. Representations of textual data extract rich information spanning the domain, entities, and relations. In this paper, we introduce a novel approach to enhance information extraction combining multiple sentence representations and contrastive learning. While representations in relation classification are commonly extracted using entity marker tokens, we argue that substantial information within the internal model representations remains untapped. To address this, we propose aligning multiple sentence representations, such as the [CLS] token, the [MASK] token used in prompting, and entity marker tokens. Our method employs contrastive learning to extract complementary discriminative information from these individual representations. This is particularly relevant in low-resource settings where information is scarce. Leveraging multiple sentence representations is especially effective in distilling discriminative information for relation classification when additional information, like relation descriptions, are not available. We validate the adaptability of our approach, maintaining robust performance in scenarios that include relation descriptions, and showcasing its flexibility to adapt to different resource constraints.
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# 量子ソフトウェアスタックにおける隠されたレイヤと相互作用の公開

Exposing the hidden layers and interplay in the quantum software stack ( http://arxiv.org/abs/2403.16545v1 )

ライセンス: Link先を確認
Vlad Stirbu, Arianne Meijer-van de Griend, Jake Muff, (参考訳) 現在の量子コンピュータと近未来の量子コンピュータは、ノイズと低量子ビット数によるリソース制限に直面している。 これにもかかわらず、ビット-ビット変換の指数的性質のため、効果的な量子優位性は依然として達成できる。 しかし、これらのシステムのソフトウェアアーキテクチャを最適化することは、利用可能なリソースを効率的に活用するためには不可欠である。 残念なことに、ユーザフレンドリーな量子コンピュータはソフトウェアスタックにおける重要なステップを曖昧にし、現在の量子ビット実装の制限によってスタックの上層に波及効果をもたらす。 本稿では,量子ソフトウェアスタックの層間における隠れた相互作用を明らかにする。

Current and near-future quantum computers face resource limitations due to noise and low qubit counts. Despite this, effective quantum advantage can still be achieved due to the exponential nature of bit-to-qubit conversion. However, optimizing the software architecture of these systems is essential to utilize available resources efficiently. Unfortunately, the focus on user-friendly quantum computers has obscured critical steps in the software stack, leading to ripple effects into the stack's upper layer induced by limitations in current qubit implementations. This paper unveils the hidden interplay among layers of the quantum software stack.
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# QKFormer: Q-Kアテンションを用いた階層スパイキングトランス

QKFormer: Hierarchical Spiking Transformer using Q-K Attention ( http://arxiv.org/abs/2403.16552v1 )

ライセンス: Link先を確認
Chenlin Zhou, Han Zhang, Zhaokun Zhou, Liutao Yu, Liwei Huang, Xiaopeng Fan, Li Yuan, Zhengyu Ma, Huihui Zhou, Yonghong Tian, (参考訳) スパイキングニューラルネットワーク(SNN)とトランスフォーマーアーキテクチャを統合するスパイキングトランスフォーマーは、エネルギー効率と高性能の可能性を秘めている。 しかし、この領域の既存のモデルは、依然として準最適性能に悩まされている。 パフォーマンスを改善するために、いくつかのイノベーションを紹介します。 i) SNNに適した新しいスパイク形式Q-Kアテンション機構を提案し, 線形複雑度を持つ二進ベクトルによるトークンやチャネル次元の重要性を効率的にモデル化する。 ii)脳と人工神経の双方のパフォーマンスに大きく貢献する階層構造をスパイキングトランスフォーマーに組み込んで,マルチスケールのスパイキング表現を得る。 三 変圧器をスパイクするための変形ショートカットを備えた多用途で強力なパッチ埋め込みモジュールを設計する。 直接学習によるQ-K注意に基づく階層型スパイキングトランスであるQKFormerを開発した。 QKFormerは、さまざまな主流データセット上の既存の最先端SNNモデルよりも、はるかに優れたパフォーマンスを示している。 注目すべきは、Spykformer (66.34 M, 74.81%) に匹敵するサイズで、QKFormer (64.96 M) はImageNet-1kで85.65%の画期的なトップ-1の精度を達成し、Spykformerを10.84%上回ったことである。 われわれの知る限り、ImageNet-1KでSNNを直接訓練するのはこれが初めてだ。 コードとモデルはhttps://github.com/zhouchenlin2096/QKFormerで公開されている。

Spiking Transformers, which integrate Spiking Neural Networks (SNNs) with Transformer architectures, have attracted significant attention due to their potential for energy efficiency and high performance. However, existing models in this domain still suffer from suboptimal performance. We introduce several innovations to improve the performance: i) We propose a novel spike-form Q-K attention mechanism, tailored for SNNs, which efficiently models the importance of token or channel dimensions through binary vectors with linear complexity. ii) We incorporate the hierarchical structure, which significantly benefits the performance of both the brain and artificial neural networks, into spiking transformers to obtain multi-scale spiking representation. iii) We design a versatile and powerful patch embedding module with a deformed shortcut specifically for spiking transformers. Together, we develop QKFormer, a hierarchical spiking transformer based on Q-K attention with direct training. QKFormer shows significantly superior performance over existing state-of-the-art SNN models on various mainstream datasets. Notably, with comparable size to Spikformer (66.34 M, 74.81%), QKFormer (64.96 M) achieves a groundbreaking top-1 accuracy of 85.65% on ImageNet-1k, substantially outperforming Spikformer by 10.84%. To our best knowledge, this is the first time that directly training SNNs have exceeded 85% accuracy on ImageNet-1K. The code and models are publicly available at https://github.com/zhouchenlin2096/QKFormer
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# PE:高速テキスト階層生成のためのポインケア記述法

PE: A Poincare Explanation Method for Fast Text Hierarchy Generation ( http://arxiv.org/abs/2403.16554v1 )

ライセンス: Link先を確認
Qian Chen, Xiaofeng He, Hongzhao Li, Hongyu Yi, (参考訳) NLPにおけるディープラーニングモデルのブラックボックスの性質は、その広範な応用を妨げる。 研究の焦点は、特徴的相互作用をモデル化する能力のために階層的属性(HA)に移行した。 最近の研究は、エクリデアン空間における時間費用のかかる欲求探索と非連続的な組み合わせをモデル化し、特徴表現の根底にある言語情報を無視している。 本稿では,双曲空間を用いた特徴量相互作用を時間複雑性でモデル化する新しい手法,Poincar\'e Explanation (PE)を導入する。 Poincar\'eモデルにインスパイアされた我々は、構文や意味階層構造に対してより良い帰納バイアスを示す双曲空間への埋め込みを投影する枠組みを提案する。 最終的に、投影空間における階層的クラスタリングプロセスは、最小のスパンニングツリーの構築と見なすことができ、時間効率のアルゴリズムを提案する。 実験により,本手法の有効性が示された。

The black-box nature of deep learning models in NLP hinders their widespread application. The research focus has shifted to Hierarchical Attribution (HA) for its ability to model feature interactions. Recent works model non-contiguous combinations with a time-costly greedy search in Eculidean spaces, neglecting underlying linguistic information in feature representations. In this work, we introduce a novel method, namely Poincar\'e Explanation (PE), for modeling feature interactions using hyperbolic spaces in an $O(n^2logn)$ time complexity. Inspired by Poincar\'e model, we propose a framework to project the embeddings into hyperbolic spaces, which exhibit better inductive biases for syntax and semantic hierarchical structures. Eventually, we prove that the hierarchical clustering process in the projected space could be viewed as building a minimum spanning tree and propose a time efficient algorithm. Experimental results demonstrate the effectiveness of our approach.
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# 局所勾配の有効群選択によるフェデレーション学習の促進

Accelerating Federated Learning by Selecting Beneficial Herd of Local Gradients ( http://arxiv.org/abs/2403.16557v1 )

ライセンス: Link先を確認
Ping Luo, Xiaoge Deng, Ziqing Wen, Tao Sun, Dongsheng Li, (参考訳) Federated Learning (FL) は、通信ネットワークシステムにおける分散機械学習フレームワークである。 しかし、非独立分散(Non-IID)データは、これらのデータサンプルのサブセットのみがモデル収束に有用であるため、大域的モデルの収束効率に悪影響を及ぼす。 このサブセットを追求する上で、信頼できるアプローチでは、データセット内のサンプルをランク付けする妥当性の尺度を決定する必要がある。 本稿では,FLモデルの収束を早めるために,局所勾配の有益な群落を選択するBHerd戦略を提案する。 具体的には、局所的なデータセットの分布を局所勾配にマッピングし、Herding戦略を用いて勾配の集合の置換を求める。 これらの勾配の上位部分は、グローバルアグリゲーションのためにサーバに選択され、送信されます。 我々は,プロトタイプシステムを構築することで,異なるデータセット,モデル,シナリオについて実験を行い,BHerd戦略が有効な局所勾配の選択に有効であることを示し,非IIDデータセットがもたらす影響を緩和し,モデル収束を加速することを示した。

Federated Learning (FL) is a distributed machine learning framework in communication network systems. However, the systems' Non-Independent and Identically Distributed (Non-IID) data negatively affect the convergence efficiency of the global model, since only a subset of these data samples are beneficial for model convergence. In pursuit of this subset, a reliable approach involves determining a measure of validity to rank the samples within the dataset. In this paper, We propose the BHerd strategy which selects a beneficial herd of local gradients to accelerate the convergence of the FL model. Specifically, we map the distribution of the local dataset to the local gradients and use the Herding strategy to obtain a permutation of the set of gradients, where the more advanced gradients in the permutation are closer to the average of the set of gradients. These top portion of the gradients will be selected and sent to the server for global aggregation. We conduct experiments on different datasets, models and scenarios by building a prototype system, and experimental results demonstrate that our BHerd strategy is effective in selecting beneficial local gradients to mitigate the effects brought by the Non-IID dataset, thus accelerating model convergence.
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# Elysium:MLLMによるビデオのオブジェクトレベルの知覚の探索

Elysium: Exploring Object-level Perception in Videos via MLLM ( http://arxiv.org/abs/2403.16558v1 )

ライセンス: Link先を確認
Han Wang, Yanjie Wang, Yongjie Ye, Yuxiang Nie, Can Huang, (参考訳) MLLM(Multi-modal Large Language Models)は、静止画像中のオブジェクトを知覚する能力を示したが、オブジェクト追跡などのビデオ関連タスクへの応用はまだ検討されていない。 この探索の欠如は、主に2つの主要な課題による。 第一に、大規模なビデオデータセットに対する広範な事前トレーニングは、MLLMに複数のフレームにわたるオブジェクトを知覚し、フレーム間の関係を理解する能力を持たせるために必要である。 第二に、LLM(Large Language Models)のコンテキストウィンドウ内で多数のフレームを処理することは、かなりの計算負担を負う可能性がある。 最初の課題に対処するために,新しいタスクと組み合わせた大規模ビデオデータセットであるElysiumTrack-1Mを紹介した: 単一オブジェクト追跡(RSOT)とビデオ参照表現生成(Video-REG)である。 ElysiumTrack-1Mは127万の注釈付きビデオフレームと対応するオブジェクトボックスと記述を含んでいる。 このデータセットを活用することで,MLLMのトレーニングを行い,トークン圧縮モデルTセレクタを提案する。 Elysium: Exploring Object-level Perception in Videos via MLLM, is a end-to-end trainingable MLLM that makes the first attempt to conduct object-level task in video without any additional plug-in or expert model。

Multi-modal Large Language Models (MLLMs) have demonstrated their ability to perceive objects in still images, but their application in video-related tasks, such as object tracking, remains understudied. This lack of exploration is primarily due to two key challenges. Firstly, extensive pretraining on large-scale video datasets is required to equip MLLMs with the capability to perceive objects across multiple frames and understand inter-frame relationships. Secondly, processing a large number of frames within the context window of Large Language Models (LLMs) can impose a significant computational burden. To address the first challenge, we introduce ElysiumTrack-1M, a large-scale video dataset paired with novel tasks: Referring Single Object Tracking (RSOT) and Video Referring Expression Generation (Video-REG). ElysiumTrack-1M contains 1.27 million annotated video frames with corresponding object boxes and descriptions. Leveraging this dataset, we conduct training of MLLMs and propose a token-compression model T-Selector to tackle the second challenge. Our proposed approach, Elysium: Exploring Object-level Perception in Videos via MLLM, is an end-to-end trainable MLLM that makes the first attempt to conduct object-level tasks in videos without requiring any additional plug-in or expert models.
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# FedFixer: フェデレーション学習における異種ラベルノイズの軽減

FedFixer: Mitigating Heterogeneous Label Noise in Federated Learning ( http://arxiv.org/abs/2403.16561v1 )

ライセンス: Link先を確認
Xinyuan Ji, Zhaowei Zhu, Wei Xi, Olga Gadyatskaya, Zilong Song, Yong Cai, Yang Liu, (参考訳) フェデレートラーニング(FL)はその性能のラベル品質に大きく依存する。 しかし、個々のクライアント間のラベル分布は常にノイズと不均一の両方である。 異種ラベルノイズにおけるクライアント固有のサンプルによる高損失は、クライアント固有のラベルサンプルとノイズの多いラベルサンプルを区別する上での課題となり、既存のラベル学習手法の有効性に影響を及ぼす。 この問題に対処するため、我々はFedFixerを提案し、グローバルモデルと協調してクライアント固有のクリーンなサンプルを効果的に選択するパーソナライズされたモデルを紹介した。 デュアルモデルでは、パーソナライズされたモデルをローカルレベルでのみ更新すると、限られたサンプルのためにノイズの多いデータに過度に適合し、その結果、ローカルモデルとグローバルモデルの両方のパフォーマンスに影響を及ぼす。 過度な適合を緩和するために、この懸念を2つの視点から解決する。 まず,ラベルノイズによる不確実性予測の影響を軽減するために,信頼度正則化器を用いる。 第二に、パーソナライズされたモデルとグローバルモデルの相違を制限するために距離正規化器が実装される。 ベンチマークデータセットの広範な実験を通じてFedFixerの有効性を検証する。 その結果、FedFixerは異なるクライアント、特に高度に異種なラベルノイズのシナリオにおいて、ノイズの多いラベルサンプルをフィルタリングするのにうまく機能することを示した。

Federated Learning (FL) heavily depends on label quality for its performance. However, the label distribution among individual clients is always both noisy and heterogeneous. The high loss incurred by client-specific samples in heterogeneous label noise poses challenges for distinguishing between client-specific and noisy label samples, impacting the effectiveness of existing label noise learning approaches. To tackle this issue, we propose FedFixer, where the personalized model is introduced to cooperate with the global model to effectively select clean client-specific samples. In the dual models, updating the personalized model solely at a local level can lead to overfitting on noisy data due to limited samples, consequently affecting both the local and global models' performance. To mitigate overfitting, we address this concern from two perspectives. Firstly, we employ a confidence regularizer to alleviate the impact of unconfident predictions caused by label noise. Secondly, a distance regularizer is implemented to constrain the disparity between the personalized and global models. We validate the effectiveness of FedFixer through extensive experiments on benchmark datasets. The results demonstrate that FedFixer can perform well in filtering noisy label samples on different clients, especially in highly heterogeneous label noise scenarios.
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# パラメータ学習におけるニューラルネットワークの脆弱性の解明と説明型バックドアに対する防御

Revealing Vulnerabilities of Neural Networks in Parameter Learning and Defense Against Explanation-Aware Backdoors ( http://arxiv.org/abs/2403.16569v1 )

ライセンス: Link先を確認
Md Abdul Kadir, GowthamKrishna Addluri, Daniel Sonntag, (参考訳) 説明可能な人工知能(XAI)戦略は、ニューラルネットワークの理解と信頼性を高める上で重要な役割を果たす。 それでも、これらのテクニックは誤解を招くような説明を生み出す可能性がある。 ブラディング攻撃は、機械学習アルゴリズムの予測と説明を劇的に変更し、入力に視覚的に無意味なアーティファクトを追加し、モデルの精度を維持しながら誤解を招く情報を提供する。 XAIメソッドの信頼性を確保する上で、これは深刻な課題となる。 XAI手法の信頼性を確実にするために、統計的解析を活用し、視覚障害後のCNN内のCNN重みの変化を明らかにする。 評価段階における攻撃の有効性を抑えるために特別に設計された手法を導入し、追加訓練の必要を回避した。 本手法では,攻撃成功率 (ASR) の約 ~99 % の低下を達成し,元の説明と3種類の攻撃に対する防御的(攻撃後)説明との間の平均正方形誤差 (MSE) の約 ~91 % の減少を達成し,攻撃に対する防御策を提案する。

Explainable Artificial Intelligence (XAI) strategies play a crucial part in increasing the understanding and trustworthiness of neural networks. Nonetheless, these techniques could potentially generate misleading explanations. Blinding attacks can drastically alter a machine learning algorithm's prediction and explanation, providing misleading information by adding visually unnoticeable artifacts into the input, while maintaining the model's accuracy. It poses a serious challenge in ensuring the reliability of XAI methods. To ensure the reliability of XAI methods poses a real challenge, we leverage statistical analysis to highlight the changes in CNN weights within a CNN following blinding attacks. We introduce a method specifically designed to limit the effectiveness of such attacks during the evaluation phase, avoiding the need for extra training. The method we suggest defences against most modern explanation-aware adversarial attacks, achieving an approximate decrease of ~99\% in the Attack Success Rate (ASR) and a ~91\% reduction in the Mean Square Error (MSE) between the original explanation and the defended (post-attack) explanation across three unique types of attacks.
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# NSINA: Sinhalaのニュースコーパス

NSINA: A News Corpus for Sinhala ( http://arxiv.org/abs/2403.16571v1 )

ライセンス: Link先を確認
Hansi Hettiarachchi, Damith Premasiri, Lasitha Uyangodage, Tharindu Ranasinghe, (参考訳) 大規模言語モデル (LLM) の導入は、高度な自然言語処理 (NLP) を備えているが、その有効性は、トレーニング前のリソースに大きく依存している。 これはSinhalaのような低リソース言語では特に顕著で、2つの大きな課題に直面している。 本研究は,ニュースメディア識別,ニュースカテゴリ予測,ニュース見出し生成という3つのNLPタスクとともに,人気のあるシンハラニュースサイトから50万記事の包括的ニュースコーパスであるNSINAを紹介する。 NSINAのリリースは、Sinhala言語でNLPを改善するための貴重なリソースとベンチマークを提供する、SinhalaにLLMを適用する際の課題に対する解決策を提供することを目的としている。 NSINAはシンハラ最大のニュースコーパスで、現在まで利用可能である。

The introduction of large language models (LLMs) has advanced natural language processing (NLP), but their effectiveness is largely dependent on pre-training resources. This is especially evident in low-resource languages, such as Sinhala, which face two primary challenges: the lack of substantial training data and limited benchmarking datasets. In response, this study introduces NSINA, a comprehensive news corpus of over 500,000 articles from popular Sinhala news websites, along with three NLP tasks: news media identification, news category prediction, and news headline generation. The release of NSINA aims to provide a solution to challenges in adapting LLMs to Sinhala, offering valuable resources and benchmarks for improving NLP in the Sinhala language. NSINA is the largest news corpus for Sinhala, available up to date.
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# 直接エネルギーを用いた選好最適化による抗原特異的抗体設計

Antigen-Specific Antibody Design via Direct Energy-based Preference Optimization ( http://arxiv.org/abs/2403.16576v1 )

ライセンス: Link先を確認
Xiangxin Zhou, Dongyu Xue, Ruizhe Chen, Zaixiang Zheng, Liang Wang, Quanquan Gu, (参考訳) 抗体設計は、治療や生物学など様々な分野において重要な意味を持つ重要な課題であり、その複雑な性質のためにかなりの課題を提起している。 本稿では, 抗原特異的抗体設計をタンパク質配列構造共設計問題として, 合理的性と機能性の両面から検討する。 そこで,同変ニューラルネットワークを用いた抗体における相補性決定領域(CDR)の配列と構造を協調的にモデル化した事前学習条件拡散モデルを用いて,各抗原に有理構造とかなりの結合親和性を持つ抗体の生成を誘導する直接エネルギーに基づく選好最適化を提案する。 本手法は,残差レベル分解エネルギー選好を用いた事前学習拡散モデルの微調整を含む。 また,アトラクションや反発など,様々な種類のエネルギーの対立に対処するために,勾配手術を応用した。 RAbDベンチマーク実験により,本手法は生成した抗体のエネルギーを効果的に最適化し,低エネルギー高結合親和性で高品質な抗体を設計する上での最先端性能を実現し,本手法の優位性を実証した。

Antibody design, a crucial task with significant implications across various disciplines such as therapeutics and biology, presents considerable challenges due to its intricate nature. In this paper, we tackle antigen-specific antibody design as a protein sequence-structure co-design problem, considering both rationality and functionality. Leveraging a pre-trained conditional diffusion model that jointly models sequences and structures of complementarity-determining regions (CDR) in antibodies with equivariant neural networks, we propose direct energy-based preference optimization to guide the generation of antibodies with both rational structures and considerable binding affinities to given antigens. Our method involves fine-tuning the pre-trained diffusion model using a residue-level decomposed energy preference. Additionally, we employ gradient surgery to address conflicts between various types of energy, such as attraction and repulsion. Experiments on RAbD benchmark show that our approach effectively optimizes the energy of generated antibodies and achieves state-of-the-art performance in designing high-quality antibodies with low total energy and high binding affinity, demonstrating the superiority of our approach.
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# SegICL: 医用画像における拡張セグメンテーションのためのユニバーサルインコンテクスト学習フレームワーク

SegICL: A Universal In-context Learning Framework for Enhanced Segmentation in Medical Imaging ( http://arxiv.org/abs/2403.16578v1 )

ライセンス: Link先を確認
Lingdong Shen, Fangxin Shang, Yehui Yang, Xiaoshuang Huang, Shining Xiang, (参考訳) 文脈内学習を通じて新しいタスクに適応する医用画像セグメンテーションモデルは、エキサイティングな進歩である。 ユニバーサルセグメンテーションモデルは、医療画像の多様なモダリティをまたいで一般化することを目的としているが、その効果は、アウト・オブ・ディストリビューション(OOD)データモダリティやタスクに適用した場合に減少し、最適なパフォーマンスのためにモデルの複雑な微調整を必要とする。 この課題に対処するために、画像セグメンテーションにIn-Context Learning(ICL)を活用する新しいアプローチであるSegICLを紹介する。 既存の方法とは異なり、SegICLはテキスト誘導セグメンテーションを採用し、小さなイメージマスクペアでコンテキスト内学習を行う機能を備えており、OODタスク(OODモダリティとデータセットを含む)のスクラッチや微調整からモデルをトレーニングする必要がなくなる。 SegICLの大規模な実験的検証は,OODモダリティとタスクに対するプロンプトサンプル数とセグメンテーション性能の正の相関を示す。 これは、SegICLがコンテキスト情報に基づく新しいセグメンテーションタスクに効果的に対処していることを示している。 さらに、SegICLはOODおよび分散タスクのメインストリームモデルに匹敵するセグメンテーション性能を示す。 私たちのコードはまもなくリリースされるでしょう。

Medical image segmentation models adapting to new tasks in a training-free manner through in-context learning is an exciting advancement. Universal segmentation models aim to generalize across the diverse modality of medical images, yet their effectiveness often diminishes when applied to out-of-distribution (OOD) data modalities and tasks, requiring intricate fine-tuning of model for optimal performance. For addressing this challenge, we introduce SegICL, a novel approach leveraging In-Context Learning (ICL) for image segmentation. Unlike existing methods, SegICL has the capability to employ text-guided segmentation and conduct in-context learning with a small set of image-mask pairs, eliminating the need for training the model from scratch or fine-tuning for OOD tasks (including OOD modality and dataset). Extensive experimental validation of SegICL demonstrates a positive correlation between the number of prompt samples and segmentation performance on OOD modalities and tasks. This indicates that SegICL effectively address new segmentation tasks based on contextual information. Additionally, SegICL also exhibits comparable segmentation performance to mainstream models on OOD and in-distribution tasks. Our code will be released soon.
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# グローバルリモートセンシングデータを用いた作物分類のための最適多視点学習モデル探索

In the Search for Optimal Multi-view Learning Models for Crop Classification with Global Remote Sensing Data ( http://arxiv.org/abs/2403.16582v1 )

ライセンス: Link先を確認
Francisco Mena, Diego Arenas, Andreas Dengel, (参考訳) 作物の分類は、作物のパターンの変化、資源管理、炭素隔離の研究において重要な役割を担っている。 予測にデータ駆動技術を用いる場合、様々な時間的データソースを利用する必要がある。 時系列データを予測のための高レベル表現にマッピングすることで、ディープラーニングモデルがこのタスクに有効であることが証明されている。 しかし、複数の入力パターンを扱う場合、大きな課題に直面します。 この文献は、特定のエンコーダと融合戦略を探索し、ローカルでそれらを検証することに集中しているため、MVL(Multi-View Learning)シナリオの限定的なガイダンスを提供している。 対照的に、核融合戦略とエンコーダアーキテクチャの同時選択が、世界規模の農地および作物タイプ分類に与える影響について検討する。 我々は5つの融合戦略(入力、特徴、決定、アンサンブル、ハイブリッド)と5つの時間エンコーダアーキテクチャ(LSTM、GRU、TempCNN、TAE、L-TAE)を可能なMVLモデル構成として使用する。 検証は、光学、レーダー、気象の時系列と地形情報を入力データとして提供するCropHarvestデータセット上で行われる。 ラベル付きサンプルの数が限られているシナリオでは、すべてのケースでユニークな設定が不十分であることがわかった。 代わりに、エンコーダと融合戦略を含む特別な組み合わせを慎重に求める必要がある。 この探索過程を合理化するために、まず、特定の融合戦略に適した最適なエンコーダアーキテクチャを特定し、次に分類タスクに最適な融合戦略を決定することを提案する。 我々は、MVL手法を用いて、作物の分類や関連するタスクを探索する研究者のための技術枠組みを提供する。

Crop classification is of critical importance due to its role in studying crop pattern changes, resource management, and carbon sequestration. When employing data-driven techniques for its prediction, utilizing various temporal data sources is necessary. Deep learning models have proven to be effective for this task by mapping time series data to high-level representation for prediction. However, they face substantial challenges when dealing with multiple input patterns. The literature offers limited guidance for Multi-View Learning (MVL) scenarios, as it has primarily focused on exploring fusion strategies with specific encoders and validating them in local regions. In contrast, we investigate the impact of simultaneous selection of the fusion strategy and the encoder architecture evaluated on a global-scale cropland and crop-type classifications. We use a range of five fusion strategies (Input, Feature, Decision, Ensemble, Hybrid) and five temporal encoder architectures (LSTM, GRU, TempCNN, TAE, L-TAE) as possible MVL model configurations. The validation is on the CropHarvest dataset that provides optical, radar, and weather time series, and topographic information as input data. We found that in scenarios with a limited number of labeled samples, a unique configuration is insufficient for all the cases. Instead, a specialized combination, including encoder and fusion strategy, should be meticulously sought. To streamline this search process, we suggest initially identifying the optimal encoder architecture tailored for a particular fusion strategy, and then determining the most suitable fusion strategy for the classification task. We provide a technical framework for researchers exploring crop classification or related tasks through a MVL approach.
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# 大規模言語モデル(あるいは人間)はテキストを希釈できるか?

Can Large Language Models (or Humans) Distill Text? ( http://arxiv.org/abs/2403.16584v1 )

ライセンス: Link先を確認
Nicolas Audinet de Pieuchon, Adel Daoud, Connor Thomas Jerzak, Moa Johansson, Richard Johansson, (参考訳) 本研究では,大言語モデル(LLM)によるテキストの抽出の可能性について検討する。 我々は、様々なアーキテクチャと訓練手法を用いて、他の関連する信号を保持しながら、対象変数に関する情報を特定し、削除することで、テキストを蒸留する。 本研究は, LLMの蒸留における強度と限界を明らかにし, これらのモデルをテキストデータを含む計算社会科学研究に活用するための戦略について考察した。 特に、感情を除去する強力なテストにおいて、処理されたテキストと感情の統計的関連性は、LLM蒸留後の機械学習分類器に対して明らかに検出可能であることを示す。 さらに、人間のアノテータは、他のセマンティックコンテンツを保存しながら感情を蒸留するのにも苦労していることがわかった。 これは、いくつかのテキストコンテキストにおける概念変数の分離性に制限があることを示唆し、テキストレベルの変換に依存するメソッドの制限を強調し、また、人間のコーダーが生のテキスト上で動作させることが困難である場合、表現空間における統計的独立性を達成する蒸留方法の堅牢性に関する疑問を提起する。

We investigate the potential of large language models (LLMs) to distill text: to remove the textual traces of an undesired forbidden variable. We employ a range of LLMs with varying architectures and training approaches to distill text by identifying and removing information about the target variable while preserving other relevant signals. Our findings shed light on the strengths and limitations of LLMs in addressing the distillation and provide insights into the strategies for leveraging these models in computational social science investigations involving text data. In particular, we show that in the strong test of removing sentiment, the statistical association between the processed text and sentiment is still clearly detectable to machine learning classifiers post-LLM-distillation. Furthermore, we find that human annotators also struggle to distill sentiment while preserving other semantic content. This suggests there may be limited separability between concept variables in some text contexts, highlighting limitations of methods relying on text-level transformations and also raising questions about the robustness of distillation methods that achieve statistical independence in representation space if this is difficult for human coders operating on raw text to attain.
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# 局所微分プライバシー、平均ベイズプライバシー、最大ベイズプライバシーの相互作用の解読

Deciphering the Interplay between Local Differential Privacy, Average Bayesian Privacy, and Maximum Bayesian Privacy ( http://arxiv.org/abs/2403.16591v1 )

ライセンス: Link先を確認
Xiaojin Zhang, Yulin Fei, Wei Chen, Hai Jin, (参考訳) 機械学習の急速な進化は、ローカルディファレンシャルプライバシ(LDP)の概念を含む、プライバシに影響を及ぼす脅威によって、さまざまなプライバシ定義の出現につながった。 多くのドメインで広く受け入れられ、利用されてきたが、この従来のプライバシー測定手法は依然として一定の制限を課している。 本稿では,ベイジアン・プライバシとベイジアン・プライバシの関係を包括的に考察し,ユーティリティとプライバシのトレードオフに関する新たな洞察を明らかにした。 攻撃戦略と防衛戦略の両方をカプセル化したフレームワークを導入し,その相互作用と有効性を強調した。 平均ベイズプライバシー (ABP) と最大ベイズプライバシー (MBP) の厳密な定義と関係は、方程式 $\epsilon_{p,a} \leq \frac{1}{\sqrt{2}}\sqrt{(\epsilon_{p,m} + \epsilon)\cdot(e^{\epsilon_{p,m} + \epsilon} - 1)} と$\xi$-MBP と $2\xi$-LDP の等価性によってカプセル化されている。 これらの関係は、様々なメカニズムによって提供されるプライバシー保証に対する私たちの理解を強化し、$\xi$-LDPを満たすメカニズムもまた$\xi$-MBPと、その逆を許容する、という認識につながります。 我々の研究は、将来の実証探査の基盤となるだけでなく、実用性に妥協しないプライバシー保護アルゴリズムの設計を強化し、信頼できる機械学習ソリューションの開発を促進することを約束します。

The swift evolution of machine learning has led to emergence of various definitions of privacy due to the threats it poses to privacy, including the concept of local differential privacy (LDP). Although widely embraced and utilized across numerous domains, this conventional approach to measure privacy still exhibits certain limitations, spanning from failure to prevent inferential disclosure to lack of consideration for the adversary's background knowledge. In this comprehensive study, we introduce Bayesian privacy and delve into the intricate relationship between local differential privacy and its Bayesian counterparts, unveiling novel insights into utility-privacy trade-offs. We introduce a framework that encapsulates both attack and defense strategies, highlighting their interplay and effectiveness. Our theoretical contributions are anchored in the rigorous definitions and relationships between Average Bayesian Privacy (ABP) and Maximum Bayesian Privacy (MBP), encapsulated by equations $\epsilon_{p,a} \leq \frac{1}{\sqrt{2}}\sqrt{(\epsilon_{p,m} + \epsilon)\cdot(e^{\epsilon_{p,m} + \epsilon} - 1)}$ and the equivalence between $\xi$-MBP and $2\xi$-LDP established under uniform prior distribution. These relationships fortify our understanding of the privacy guarantees provided by various mechanisms, leading to the realization that a mechanism satisfying $\xi$-LDP also confers $\xi$-MBP, and vice versa. Our work not only lays the groundwork for future empirical exploration but also promises to enhance the design of privacy-preserving algorithms that do not compromise on utility, thereby fostering the development of trustworthy machine learning solutions.
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# SemEval-2024タスク8におけるTrustAI:マルチドメインマシン生成テキスト検出手法の総合解析

TrustAI at SemEval-2024 Task 8: A Comprehensive Analysis of Multi-domain Machine Generated Text Detection Techniques ( http://arxiv.org/abs/2403.16592v1 )

ライセンス: Link先を確認
Ashok Urlana, Aditya Saibewar, Bala Mallikarjunarao Garlapati, Charaka Vinayak Kumar, Ajeet Kumar Singh, Srinivasa Rao Chalamala, (参考訳) LLM(Large Language Models)は、幅広いユーザクエリにまたがる、流動的なコンテンツを生成する優れた能力を示す。 しかし、この能力は誤情報や個人情報の漏洩に懸念を抱いている。 本稿では,SemEval2024 Task8の手法を提案する。 本研究では, 統計的, ニューラル, 事前学習されたモデルアプローチを含む, 機械生成テキストを検出する様々な手法を包括的に分析する。 また,本手法の有効性を評価するため,実験装置について詳述し,詳細な誤差解析を行った。 本手法は,サブタスクAモノのテストセットで86.9\%,サブタスクBで83.7\%の精度が得られる。 さらに,今後の研究において考慮すべき課題と重要な要因についても紹介する。

The Large Language Models (LLMs) exhibit remarkable ability to generate fluent content across a wide spectrum of user queries. However, this capability has raised concerns regarding misinformation and personal information leakage. In this paper, we present our methods for the SemEval2024 Task8, aiming to detect machine-generated text across various domains in both mono-lingual and multi-lingual contexts. Our study comprehensively analyzes various methods to detect machine-generated text, including statistical, neural, and pre-trained model approaches. We also detail our experimental setup and perform a in-depth error analysis to evaluate the effectiveness of these methods. Our methods obtain an accuracy of 86.9\% on the test set of subtask-A mono and 83.7\% for subtask-B. Furthermore, we also highlight the challenges and essential factors for consideration in future studies.
翻訳日:2024-03-26 15:18:23 公開日:2024-03-25
# EDUE:医用画像分割のためのエキスパート診断ガイド付きワンパス不確実性評価

EDUE: Expert Disagreement-Guided One-Pass Uncertainty Estimation for Medical Image Segmentation ( http://arxiv.org/abs/2403.16594v1 )

ライセンス: Link先を確認
Kudaibergen Abutalip, Numan Saeed, Ikboljon Sobirov, Vincent Andrearczyk, Adrien Depeursinge, Mohammad Yaqub, (参考訳) 医学応用におけるディープラーニング(DL)モデルの展開は、信頼できる予測の不確実性を伝えるなど、予測性能やその他の重要な要因に依存する。 不確実性推定(UE)法は、予測信頼性を評価し、モデルの信頼性校正を改善する潜在的な解決策を提供する。 UEへの関心は高まっているが、アレタリック不確実性を捕捉し、不確実性の推定をドメインの専門家の間で現実的な不一致と整合させる明示的な方法の必要性など、課題は続いている。 本稿では,医用画像分割のためのエキスパート診断誘導不確実性推定(EDUE)を提案する。 複数のラッカーからの接地構文アノテーションの可変性を活用することにより、トレーニング中のモデルをガイドし、ランダムサンプリングに基づく戦略を取り入れ、校正信頼性を高める。 提案手法は, 画像と画素レベルでの相違点, キャリブレーション, セグメンテーション性能が, 最先端のディープアンサンブルに比べて55%, 23%向上し, フォワードパスは1回程度であった。

Deploying deep learning (DL) models in medical applications relies on predictive performance and other critical factors, such as conveying trustworthy predictive uncertainty. Uncertainty estimation (UE) methods provide potential solutions for evaluating prediction reliability and improving the model confidence calibration. Despite increasing interest in UE, challenges persist, such as the need for explicit methods to capture aleatoric uncertainty and align uncertainty estimates with real-life disagreements among domain experts. This paper proposes an Expert Disagreement-Guided Uncertainty Estimation (EDUE) for medical image segmentation. By leveraging variability in ground-truth annotations from multiple raters, we guide the model during training and incorporate random sampling-based strategies to enhance calibration confidence. Our method achieves 55% and 23% improvement in correlation on average with expert disagreements at the image and pixel levels, respectively, better calibration, and competitive segmentation performance compared to the state-of-the-art deep ensembles, requiring only a single forward pass.
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# SatSynth: 航空セマンティックセグメンテーションのための拡散モデルによる画像マスクペアの拡大

SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation ( http://arxiv.org/abs/2403.16605v1 )

ライセンス: Link先を確認
Aysim Toker, Marvin Eisenberger, Daniel Cremers, Laura Leal-Taixé, (参考訳) 近年、セマンティックセグメンテーションは衛星画像の処理と解釈において重要なツールとなっている。 しかし、教師あり学習技術の限界は、専門家による広範囲な手作業による注釈の必要性に変わりはない。 本研究では,地球観測におけるアノテートデータの不足に対処するために,生成的画像拡散の可能性について検討する。 主な考え方は画像とラベルの合同データ多様体を学習し、拡散確率モデルを認知する最近の進歩を活用することである。 我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。 得られたペアは, 高品質な微細な特徴を示すだけでなく, 広範囲なサンプリングの多様性も確保できることがわかった。 どちらの側面も地球観測データにとって重要であり、セマンティッククラスはスケールや発生頻度で大きく変化する可能性がある。 我々は、データ拡張の一形態として、下流セグメンテーションに新しいデータインスタンスを使用します。 本実験では,識別拡散モデル(GAN)に基づく先行研究との比較を行った。 生成したサンプルを統合することで、衛星のセマンティックセグメンテーションにおいて、ベースラインや元のデータのみをトレーニングする場合と比較して、重要な定量的改善が得られます。

In recent years, semantic segmentation has become a pivotal tool in processing and interpreting satellite imagery. Yet, a prevalent limitation of supervised learning techniques remains the need for extensive manual annotations by experts. In this work, we explore the potential of generative image diffusion to address the scarcity of annotated data in earth observation tasks. The main idea is to learn the joint data manifold of images and labels, leveraging recent advancements in denoising diffusion probabilistic models. To the best of our knowledge, we are the first to generate both images and corresponding masks for satellite segmentation. We find that the obtained pairs not only display high quality in fine-scale features but also ensure a wide sampling diversity. Both aspects are crucial for earth observation data, where semantic classes can vary severely in scale and occurrence frequency. We employ the novel data instances for downstream segmentation, as a form of data augmentation. In our experiments, we provide comparisons to prior works based on discriminative diffusion models or GANs. We demonstrate that integrating generated samples yields significant quantitative improvements for satellite semantic segmentation -- both compared to baselines and when training only on the original data.
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# スタイルフィルタによる産業移転学習の強化:コスト削減と欠陥点

Enhancing Industrial Transfer Learning with Style Filter: Cost Reduction and Defect-Focus ( http://arxiv.org/abs/2403.16607v1 )

ライセンス: Link先を確認
Chen Li, Ruijie Ma, Xiang Qian, Xiaohao Wang, Xinghui Li, (参考訳) 産業領域におけるデータ不足の課題に対処する上で、トランスファーラーニングは重要なパラダイムとして現れます。 この研究は、産業コンテキストに適した方法であるStyle Filterを導入している。 知識伝達前のソースドメインデータを選択的にフィルタリングすることにより、Style Filterは、転送学習戦略の維持や強化をしながら、データの量を削減する。 ラベルのない操作、事前知識への依存の最小化、特定のモデルからの独立性、再活用を提供することにより、Style Filterは、真正な産業データセットに基づいて評価され、ディープラーニング領域における従来の転送戦略よりも前にその有効性を強調する。 この結果は, 実世界の産業応用におけるスタイルフィルタの有効性を裏付けるものである。

Addressing the challenge of data scarcity in industrial domains, transfer learning emerges as a pivotal paradigm. This work introduces Style Filter, a tailored methodology for industrial contexts. By selectively filtering source domain data before knowledge transfer, Style Filter reduces the quantity of data while maintaining or even enhancing the performance of transfer learning strategy. Offering label-free operation, minimal reliance on prior knowledge, independence from specific models, and re-utilization, Style Filter is evaluated on authentic industrial datasets, highlighting its effectiveness when employed before conventional transfer strategies in the deep learning domain. The results underscore the effectiveness of Style Filter in real-world industrial applications.
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# ベクター・アイズ・スピン・アニール、イズリング・ハミルトンを最小化へ

Vector Ising Spin Annealer for Minimizing Ising Hamiltonians ( http://arxiv.org/abs/2403.16608v1 )

ライセンス: Link先を確認
James S. Cummins, Natalia G. Berloff, (参考訳) スピンハミルトニアンで符号化された複雑な最適化問題を解くために光物質相互作用を利用するゲインベースコンピューティングのフレームワークであるベクトルイジングスピンアニール(VISA)を紹介する。 従来の駆動散逸系はしばしばスピン運動の制限により励起状態を選択する。 VISAはスピンを三次元空間で操作できるようにすることでこれらの制約を超越し、イジング・ハミルトンを効果的に最小化するための堅牢な解を提供する。 我々の比較分析は、VISAが従来の単次元スピンオプティマイザよりも優れた性能を示し、複雑な景観においてかなりのエネルギー障壁を橋渡しできることを実証している。 循環グラフとランダムグラフの詳細な研究を通して、VISAは時間依存的なゲインとペナルティアニールでエネルギー景観を動的に進化させる能力を示し、物理系における最適化を再定義する可能性を示している。

We introduce the Vector Ising Spin Annealer (VISA), a framework in gain-based computing that harnesses light-matter interactions to solve complex optimization problems encoded in spin Hamiltonians. Traditional driven-dissipative systems often select excited states due to limitations in spin movement. VISA transcends these constraints by enabling spins to operate in a three-dimensional space, offering a robust solution to minimize Ising Hamiltonians effectively. Our comparative analysis reveals VISA's superior performance over conventional single-dimension spin optimizers, demonstrating its ability to bridge substantial energy barriers in complex landscapes. Through detailed studies on cyclic and random graphs, we show VISA's proficiency in dynamically evolving the energy landscape with time-dependent gain and penalty annealing, illustrating its potential to redefine optimization in physical systems.
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# 対話的接地:接地法及び接地単位の注釈と分析

Conversational Grounding: Annotation and Analysis of Grounding Acts and Grounding Units ( http://arxiv.org/abs/2403.16609v1 )

ライセンス: Link先を確認
Biswesh Mohapatra, Seemab Hassan, Laurent Romary, Justine Cassell, (参考訳) 成功している会話は、共有されている情報について、すべての関係者が同じページにいる、共通の理解に依存していることが多い。 このプロセスは会話の基盤として知られており、共有情報の追跡とリコールを正確に行うことのできる信頼できる対話システムを構築するのに不可欠である。 伝達された情報を根拠とするエージェントの能力は、信頼性の高い対話システムの構築に大きく貢献する。 近年のダイアログシステムの進歩にもかかわらず、その基盤能力には顕著な欠陥がある。 Traumは、接地法と接地単位を導入するための会話基盤の枠組みを提供するが、特に大規模言語モデルの領域において、大きな進歩は残っていない。 このギャップを埋めるために、グラウンド法、グラウンド法、グラウンド法を取り入れた2つのダイアログコーパスのアノテーションと、グラウンド法の度合いを示す。 アノテーション中の重要な知見について考察し、また、ダイアログの基底動作を分類する上で、現在の言語モデルの性能をテストするためのベースラインモデルを提供する。 我々の研究は、日常の対話において機械との会話をよりよく理解し、より信頼性の高いものにするための、さらなる研究のための有用なリソースを提供することを目的としている。

Successful conversations often rest on common understanding, where all parties are on the same page about the information being shared. This process, known as conversational grounding, is crucial for building trustworthy dialog systems that can accurately keep track of and recall the shared information. The proficiencies of an agent in grounding the conveyed information significantly contribute to building a reliable dialog system. Despite recent advancements in dialog systems, there exists a noticeable deficit in their grounding capabilities. Traum provided a framework for conversational grounding introducing Grounding Acts and Grounding Units, but substantial progress, especially in the realm of Large Language Models, remains lacking. To bridge this gap, we present the annotation of two dialog corpora employing Grounding Acts, Grounding Units, and a measure of their degree of grounding. We discuss our key findings during the annotation and also provide a baseline model to test the performance of current Language Models in categorizing the grounding acts of the dialogs. Our work aims to provide a useful resource for further research in making conversations with machines better understood and more reliable in natural day-to-day collaborative dialogs.
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# 埋め込み共有による分散協調的異常音検出

Distributed collaborative anomalous sound detection by embedding sharing ( http://arxiv.org/abs/2403.16610v1 )

ライセンス: Link先を確認
Kota Dohi, Yohei Kawaguchi, (参考訳) 機械音モニタリングシステムを開発するために,異常音を検出する手法を提案する。 本稿では,複数のクライアントが生データを互いにプライベートに保ちながら,異常音検出モデルを協調的に学習する手法を提案する。 産業機械異常音検出の文脈では、各クライアントは異なるマシンまたは異なる運用状態のデータを保有しており、連合学習や分割学習による学習が困難である。 提案手法では,各クライアントが音響データ分類用に開発した共通事前学習モデルを用いて埋め込みを計算し,これらの埋め込みをサーバに集約し,外周露光による異常音検出を行う。 実験の結果,提案手法は異常音検出のAUCを平均6.8%改善することがわかった。

To develop a machine sound monitoring system, a method for detecting anomalous sound is proposed. In this paper, we explore a method for multiple clients to collaboratively learn an anomalous sound detection model while keeping their raw data private from each other. In the context of industrial machine anomalous sound detection, each client possesses data from different machines or different operational states, making it challenging to learn through federated learning or split learning. In our proposed method, each client calculates embeddings using a common pre-trained model developed for sound data classification, and these calculated embeddings are aggregated on the server to perform anomalous sound detection through outlier exposure. Experiments showed that our proposed method improves the AUC of anomalous sound detection by an average of 6.8%.
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# サブシーズン予測のためのベイジアンUNet++の校正

Calibrating Bayesian UNet++ for Sub-Seasonal Forecasting ( http://arxiv.org/abs/2403.16612v1 )

ライセンス: Link先を確認
Busra Asan, Abdullah Akgul, Alper Unal, Melih Kandemir, Gozde Unal, (参考訳) 季節予測は、気候変動による極端な暑さや寒さを検出する上で重要な課題である。 1年間の気温の上昇が世界に大きな影響を与えるため、予測の信頼性は信頼されるべきだ」と述べた。 ニューラルネットワークの校正は、予測に対する信頼性を確保する手段を提供する。 しかし、回帰モデルのキャリブレーションは、特に予報器において、未調査のトピックである。 UNet++ベースのアーキテクチャを校正し、温度異常の物理モデルより優れていることを示した。 予測誤差と校正誤差との多少のトレードオフにより、より信頼性が高く、よりシャープな予測が得られることを示す。 我々は、キャリブレーションは、天気予報装置のような安全クリティカルな機械学習アプリケーションにおいて重要な部分であるべきだと考えている。

Seasonal forecasting is a crucial task when it comes to detecting the extreme heat and colds that occur due to climate change. Confidence in the predictions should be reliable since a small increase in the temperatures in a year has a big impact on the world. Calibration of the neural networks provides a way to ensure our confidence in the predictions. However, calibrating regression models is an under-researched topic, especially in forecasters. We calibrate a UNet++ based architecture, which was shown to outperform physics-based models in temperature anomalies. We show that with a slight trade-off between prediction error and calibration error, it is possible to get more reliable and sharper forecasts. We believe that calibration should be an important part of safety-critical machine learning applications such as weather forecasters.
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# 危機関連ソーシャルメディアテキストのための意味豊かな言語間文埋め込み

Semantically Enriched Cross-Lingual Sentence Embeddings for Crisis-related Social Media Texts ( http://arxiv.org/abs/2403.16614v1 )

ライセンス: Link先を確認
Rabindra Lamsal, Maria Rodriguez Read, Shanika Karunasekera, (参考訳) 危機関連ソーシャルメディアテキストのセマンティック検索やクラスタリングなどのタスクは、危機談話の理解を高め、意思決定を支援し、ターゲットとした介入を支援します。 事前訓練された言語モデルは危機情報学において高度な性能を持つが、文脈埋め込みには意味のある意味が欠けている。 CrisisTransformersファミリーは意味論の問題に対処するための文エンコーダを含んでいるが、単言語であり、英語のテキストのみを処理する。 さらに、異なる言語に別々のモデルを適用することで、異なるベクトル空間に埋め込み、多言語テキスト間の意味的類似性を比較する際の課題を提起する。 そこで本稿では,50言語以上の危機関連ソーシャルメディアテキストを組み込んだ多言語文エンコーダ(CT-XLMR-SEとCT-mBERT-SE)を提案する。 文エンコーディングと文マッチングタスクの結果は有望であり、多言語危機関連ソーシャルメディアテキストを埋め込む際には、これらのモデルが堅牢なベースラインとして機能する可能性があることを示唆している。 モデルは、https://huggingface.co/crisistransformers.comで公開されている。

Tasks such as semantic search and clustering on crisis-related social media texts enhance our comprehension of crisis discourse, aiding decision-making and targeted interventions. Pre-trained language models have advanced performance in crisis informatics, but their contextual embeddings lack semantic meaningfulness. Although the CrisisTransformers family includes a sentence encoder to address the semanticity issue, it remains monolingual, processing only English texts. Furthermore, employing separate models for different languages leads to embeddings in distinct vector spaces, introducing challenges when comparing semantic similarities between multi-lingual texts. Therefore, we propose multi-lingual sentence encoders (CT-XLMR-SE and CT-mBERT-SE) that embed crisis-related social media texts for over 50 languages, such that texts with similar meanings are in close proximity within the same vector space, irrespective of language diversity. Results in sentence encoding and sentence matching tasks are promising, suggesting these models could serve as robust baselines when embedding multi-lingual crisis-related social media texts. The models are publicly available at: https://huggingface.co/crisistransformers.
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# SDXS:画像条件付きリアルタイムワンステップ遅延拡散モデル

SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions ( http://arxiv.org/abs/2403.16627v1 )

ライセンス: Link先を確認
Yuda Song, Zehao Sun, Xuanwu Yin, (参考訳) 拡散モデルの最近の進歩は、これらを画像生成の最前線に位置づけている。 その優れた性能にもかかわらず、拡散モデルには欠点はなく、複雑なアーキテクチャと相当な計算要求が特徴であり、反復的なサンプリングプロセスのためにかなりの遅延が生じる。 これらの制限を緩和するため,モデルの小型化とサンプリングステップの削減を含む2つのアプローチを導入し,モデル遅延を大幅に低減することを目的とした。 提案手法は知識蒸留を利用してU-Netと画像デコーダアーキテクチャを合理化し,特徴マッチングとスコア蒸留を利用した一段階DMトレーニング手法を導入する。 SDXS-512 と SDXS-1024 の2つのモデルを示し、それぞれ1つのGPU上で約100 FPS(SD v1.5 より30倍速い)と30 FP(SDXLより60倍速い)の推論速度を達成する。 さらに、我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。

Recent advancements in diffusion models have positioned them at the forefront of image generation. Despite their superior performance, diffusion models are not without drawbacks; they are characterized by complex architectures and substantial computational demands, resulting in significant latency due to their iterative sampling process. To mitigate these limitations, we introduce a dual approach involving model miniaturization and a reduction in sampling steps, aimed at significantly decreasing model latency. Our methodology leverages knowledge distillation to streamline the U-Net and image decoder architectures, and introduces an innovative one-step DM training technique that utilizes feature matching and score distillation. We present two models, SDXS-512 and SDXS-1024, achieving inference speeds of approximately 100 FPS (30x faster than SD v1.5) and 30 FP (60x faster than SDXL) on a single GPU, respectively. Moreover, our training approach offers promising applications in image-conditioned control, facilitating efficient image-to-image translation.
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# 特許類似性を考慮した埋め込みモデルの比較解析

A comparative analysis of embedding models for patent similarity ( http://arxiv.org/abs/2403.16630v1 )

ライセンス: Link先を確認
Grazia Sveva Ascione, Valerio Sterzi, (参考訳) 本稿では,テキストに基づく特許類似性の分野に2つの貢献をする。 まず、特許類似性計算のタスクにおいて、特許固有の事前訓練された埋め込みモデル、すなわち静的な単語埋め込み( word2vec や doc2vec など)と文脈的な単語埋め込み(transformer based model など)のパフォーマンスを比較する。 第二に、SBERT(Sentence Transformer)アーキテクチャの性能と、特許類似性タスクの異なるトレーニングフェーズを具体的に比較する。 異なる特許出願に属する2つ以上の特許クレームが特許審査官によって重複していることが証明された現象である。 そこで,これらの干渉事例を2つの特許間の最大類似性のプロキシとして使用し,異なる埋め込みモデルの性能評価を行う。 本研究で提案されているSBERT-adapt-ubのドメイン適応は,特許の類似性における現状よりも優れている,と本研究は指摘している。 第二に、大規模な静的モデルの性能は、大規模なデータでトレーニングされた場合、いまだにコンテキストモデルに匹敵するものであることを示し、従って、コンテキスト埋め込みのパフォーマンスの優位性は、実際のアーキテクチャではなく、トレーニングフェーズの実行方法に関連している、と信じている。

This paper makes two contributions to the field of text-based patent similarity. First, it compares the performance of different kinds of patent-specific pretrained embedding models, namely static word embeddings (such as word2vec and doc2vec models) and contextual word embeddings (such as transformers based models), on the task of patent similarity calculation. Second, it compares specifically the performance of Sentence Transformers (SBERT) architectures with different training phases on the patent similarity task. To assess the models' performance, we use information about patent interferences, a phenomenon in which two or more patent claims belonging to different patent applications are proven to be overlapping by patent examiners. Therefore, we use these interferences cases as a proxy for maximum similarity between two patents, treating them as ground-truth to evaluate the performance of the different embedding models. Our results point out that, first, Patent SBERT-adapt-ub, the domain adaptation of the pretrained Sentence Transformer architecture proposed in this research, outperforms the current state-of-the-art in patent similarity. Second, they show that, in some cases, large static models performances are still comparable to contextual ones when trained on extensive data; thus, we believe that the superiority in the performance of contextual embeddings may not be related to the actual architecture but rather to the way the training phase is performed.
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# V2X-PC:ポイントクラスタによる全車間協調認識

V2X-PC: Vehicle-to-everything Collaborative Perception via Point Cluster ( http://arxiv.org/abs/2403.16635v1 )

ライセンス: Link先を確認
Si Liu, Zihan Ding, Jiahui Fu, Hongyu Li, Siheng Chen, Shifeng Zhang, Xu Zhou, (参考訳) 本研究の目的は、近隣の交通機関間のメッセージ通信を通じて、各車両の知覚能力を高めることである。 従来の手法では帯域幅制限内での最適性能の実現に重点を置いており、BEVマップを基本的なコラボレーティブメッセージユニットとして採用するのが一般的である。 しかし、高密度表現との協調は、メッセージパッキング中のオブジェクトの特徴破壊、長距離協調のための非効率なメッセージアグリゲーション、暗黙的な構造表現通信に悩まされていることを実証する。 これらの課題に対処するために,低レベルの構造情報と高レベルの意味情報を組み合わせたシーンを疎結合に表現するために設計された,新たなメッセージユニット,すなわちポイントクラスタを導入する。 ポイントクラスタは、メッセージのパッキング中にオブジェクト情報を本質的に保存し、コラボレーション範囲に弱い関係を持ち、明示的な構造モデリングをサポートする。 この表現に基づいて,協調認識のための新しいフレームワークV2X-PCを提案する。 このフレームワークにはポイント・クラスタ・パッキング(PCP)モジュールが含まれており、オブジェクトの特徴を維持し、クラスタ・ポイント・ナンバーを操作することで帯域幅を管理する。 効果的なメッセージアグリゲーションについては,同じオブジェクトに関連付けられたポイントクラスタをマッチングしマージするためのポイントクラスタアグリゲーション(PCA)モジュールを提案する。 実世界のシナリオで遭遇したエラーに対処するため,我々はパラメータフリーで様々なノイズレベルに適応できる手法を提案する。 2つの広く認識されている協調認識ベンチマークの実験は、BEVマップに依存する従来の最先端アプローチと比較して、我々の手法の優れた性能を示している。

The objective of the collaborative vehicle-to-everything perception task is to enhance the individual vehicle's perception capability through message communication among neighboring traffic agents. Previous methods focus on achieving optimal performance within bandwidth limitations and typically adopt BEV maps as the basic collaborative message units. However, we demonstrate that collaboration with dense representations is plagued by object feature destruction during message packing, inefficient message aggregation for long-range collaboration, and implicit structure representation communication. To tackle these issues, we introduce a brand new message unit, namely point cluster, designed to represent the scene sparsely with a combination of low-level structure information and high-level semantic information. The point cluster inherently preserves object information while packing messages, with weak relevance to the collaboration range, and supports explicit structure modeling. Building upon this representation, we propose a novel framework V2X-PC for collaborative perception. This framework includes a Point Cluster Packing (PCP) module to keep object feature and manage bandwidth through the manipulation of cluster point numbers. As for effective message aggregation, we propose a Point Cluster Aggregation (PCA) module to match and merge point clusters associated with the same object. To further handle time latency and pose errors encountered in real-world scenarios, we propose parameter-free solutions that can adapt to different noisy levels without finetuning. Experiments on two widely recognized collaborative perception benchmarks showcase the superior performance of our method compared to the previous state-of-the-art approaches relying on BEV maps.
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# 時空間異常学習によるAI生成ビデオ検出

AI-Generated Video Detection via Spatio-Temporal Anomaly Learning ( http://arxiv.org/abs/2403.16638v1 )

ライセンス: Link先を確認
Jianfa Bai, Man Lin, Gang Cao, (参考訳) 生成モデルの進歩は、高度に現実的な人工知能(AI)生成ビデオの出現につながった。 悪意のあるユーザーは、偽情報を拡散する既存のビデオを簡単に作成できる。 本稿では,2分岐時空間畳み込みニューラルネットワーク(CNN)を用いて法医学的トレースを捕捉し,AIGVDet(AIGVDet)を効果的に検出する手法を提案する。 具体的には,2つのResNetサブ検出器を別々に学習し,それぞれが空間的および光学的流れ領域の異常を識別する。 このようなサブ検出器の結果は、さらに識別能力を高めるために融合される。 モデルトレーニングと評価のためのベンチマークとして,大規模ビデオデータセット(GVD)を構築した。 AIGVDetスキームの高一般化とロバスト性を検証する。 コードとデータセットはhttps://github.com/multimediaFor/AIGVDet.comで入手できる。

The advancement of generation models has led to the emergence of highly realistic artificial intelligence (AI)-generated videos. Malicious users can easily create non-existent videos to spread false information. This letter proposes an effective AI-generated video detection (AIGVDet) scheme by capturing the forensic traces with a two-branch spatio-temporal convolutional neural network (CNN). Specifically, two ResNet sub-detectors are learned separately for identifying the anomalies in spatical and optical flow domains, respectively. Results of such sub-detectors are fused to further enhance the discrimination ability. A large-scale generated video dataset (GVD) is constructed as a benchmark for model training and evaluation. Extensive experimental results verify the high generalization and robustness of our AIGVDet scheme. Code and dataset will be available at https://github.com/multimediaFor/AIGVDet.
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# テストコードの可読性を探る:科学と実践の両面から

Investigating the Readability of Test Code: Combining Scientific and Practical Views ( http://arxiv.org/abs/2403.16639v1 )

ライセンス: Link先を確認
Dietmar Winkler, Pirmin Urbanke, Rudolf Ramler, (参考訳) ソースコードの可読性は、ソフトウェアシステムやテストを理解し維持するために重要です。 いくつかの研究はソースコードの可読性について研究しているが、テストコードの可読性および関連する影響要因について限定的な研究がなされている。 本研究では,テストコードの可読性に影響を与える要因を,実践的な視点で補完する学術的な観点から検討する。 まず,学術文献に焦点をあてたシステムマッピング研究(SMS)を行う。 第2に、テストコードの可読性と可理解性に関する実践的な側面について、灰色の文献資料をレビューすることで、この研究を拡張します。 最後に、選択されたテストケースの可読性に関する制御実験を行い、実際に議論されている影響要因に関するさらなる知識を収集する。 SMSの結果には、科学文献からの19の初等的な研究が含まれている。 グレイ文学検索では、テストコード可読性に関する情報の62のソースが公開されている。 これらのソースの分析から,テストコードの可読性に影響を与える14の要素の組み合わせを同定した。 7因子は学術文献, 灰色文献で, 主にアカデミア(2), 産業界(5)で, 重複が限定的に議論された。 実効的な影響因子のコントロール実験により, 調査対象の半数が可読性に有意な影響を及ぼすことが明らかとなった。 学術文献および灰色文献のレビューでは、テストコードの可読性は、主要な影響要因に関するコンセンサスを持つ学術や産業にとって興味深いものであることが示された。 しかし,実践者のみが議論する要因も見いだした。 これらの要因のいくつかは、最初の実験で可読性への影響を確認することができました。 したがって、ソフトウェアテストコードの可読性に関する共通の視点を達成するためには、学術的、産業的な視点をまとめる必要がある。

The readability of source code is key for understanding and maintaining software systems and tests. Several studies investigate the readability of source code, but there is limited research on the readability of test code and related influence factors. We investigate the factors that influence the readability of test code from an academic perspective complemented by practical views. First, we perform a Systematic Mapping Study (SMS) with a focus on scientific literature. Second, we extend this study by reviewing grey literature sources for practical aspects on test code readability and understandability. Finally, we conduct a controlled experiment on the readability of a selected set of test cases to collect additional knowledge on influence factors discussed in practice. The result set of the SMS includes 19 primary studies from the scientific literature. The grey literature search reveals 62 sources for information on test code readability. Based on an analysis of these sources, we identified a combined set of 14 factors that influence the readability of test code. 7 of these factors were found in scientific and grey literature, while some factors were mainly discussed in academia (2) or industry (5) with limited overlap. The controlled experiment on practically relevant influence factors showed that the investigated factors have a significant impact on readability for half of the selected test cases. Our review of scientific and grey literature showed that test code readability is of interest for academia and industry with a consensus on key influence factors. However, we also found factors only discussed by practitioners. For some of these factors we were able to confirm an impact on readability in a first experiment. Therefore, we see the need to bring together academic and industry viewpoints to achieve a common view on the readability of software test code.
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# GANを用いたCT用マルチスケールテクスチャ損失

Multi-Scale Texture Loss for CT denoising with GANs ( http://arxiv.org/abs/2403.16640v1 )

ライセンス: Link先を確認
Francesco Di Feola, Lorenzo Tronchin, Valerio Guarrasi, Paolo Soda, (参考訳) GAN(Generative Adversarial Networks)は、医療画像の応用を認知するための強力なフレームワークとして証明されている。 しかし、GANベースの復調アルゴリズムは、画像内の複雑な関係をキャプチャする際の制限に悩まされている。 この点において、損失関数は、合成画像が実際の画像とどの程度異なるかを含む画像生成過程を導く上で重要な役割を果たす。 本研究は,Gray-Level-Co-occurrence Matrix (GLCM, Gray-Level-Co-occurrence Matrix, Gray-Level-Co-occurrence Matrix, GLCM) の本質的なマルチスケール特性を利用した損失関数を提案する。 近年のディープラーニングの進歩は, 分類・検出タスクにおいて優れた性能を示したが, GANの訓練に組み込むと, 情報内容が有用である可能性が示唆された。 そこで本研究では,勾配に基づく最適化に適したGLCMの微分可能な実装を提案する。 また,画像から抽出したマルチスケールテクスチャ情報を動的に集約する自己認識層を導入する。 ノイズの多いCTスキャンの品質向上を目的とした,低用量CTデノナイジング(低用量CTデノナイジング)のコンテキストにおいて広範な実験を行うことで,本手法の有効性を検証した。 1つのシミュレートされたデータセットと2つの実際のデータセットを含む3つの公開データセットを使用します。 結果は、他のよく確立された損失関数と比較して有望であり、3つの異なるGANアーキテクチャ間で一貫性がある。 コードは、https://github.com/FrancescoDiFeola/DenoTextureLossで入手できる。

Generative Adversarial Networks (GANs) have proved as a powerful framework for denoising applications in medical imaging. However, GAN-based denoising algorithms still suffer from limitations in capturing complex relationships within the images. In this regard, the loss function plays a crucial role in guiding the image generation process, encompassing how much a synthetic image differs from a real image. To grasp highly complex and non-linear textural relationships in the training process, this work presents a loss function that leverages the intrinsic multi-scale nature of the Gray-Level-Co-occurrence Matrix (GLCM). Although the recent advances in deep learning have demonstrated superior performance in classification and detection tasks, we hypothesize that its information content can be valuable when integrated into GANs' training. To this end, we propose a differentiable implementation of the GLCM suited for gradient-based optimization. Our approach also introduces a self-attention layer that dynamically aggregates the multi-scale texture information extracted from the images. We validate our approach by carrying out extensive experiments in the context of low-dose CT denoising, a challenging application that aims to enhance the quality of noisy CT scans. We utilize three publicly available datasets, including one simulated and two real datasets. The results are promising as compared to other well-established loss functions, being also consistent across three different GAN architectures. The code is available at: https://github.com/FrancescoDiFeola/DenoTextureLoss
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# アーチファクトフリー超解像のための自己適応型現実誘導拡散

Self-Adaptive Reality-Guided Diffusion for Artifact-Free Super-Resolution ( http://arxiv.org/abs/2403.16643v1 )

ライセンス: Link先を確認
Qingping Zheng, Ling Zheng, Yuanfan Guo, Ying Li, Songcen Xu, Jiankang Deng, Hang Xu, (参考訳) アーティファクトフリー・スーパーレゾリューション(SR)は、低解像度画像を元の内容の厳密な整合性のある高解像度画像に変換することを目的としており、歪みや合成の詳細を排除している。 従来の拡散型SR技術は、画像の細部を拡大する顕著な能力を示してきたが、反復的な手順でアーティファクトを導入する傾向にある。 このようなアーティファクトは、自明なノイズから不正確なテクスチャまで、原画像の真の構造から逸脱し、超解像過程の完全性に挑戦する。 本研究では,自己適応型現実誘導拡散法(SARGD)を提案する。 我々のSARGDは、アーティファクト検出器を使って不明瞭なピクセルを識別し、アーティファクトをハイライトするバイナリマスクを作成することから始まります。 これに続いて、Real Guidance Refinement (RGR)プロセスは、このマスクを現実的な潜在表現と統合することにより、アーティファクトを洗練し、元のイメージとの整合性を改善する。 それでも、低画質画像からの初期のリアルなラテント表現は、最終的な出力で過度に滑らかになる。 そこで我々は,自己適応誘導(SAG)機構を導入する。 現実のスコアを動的に計算し、現実の潜伏者のシャープさを高める。 これらの交互機構は、集合的にアーティファクトフリーの超解像を達成する。 広範囲にわたる実験により,本手法の優位性を実証し,詳細なアーティファクトフリー高解像度画像を提供するとともに,サンプリング工程を2倍に削減した。 コードをhttps://github.com/ProAirVerse/Self-Adaptive-Guidance-Diffusion.gitでリリースします。

Artifact-free super-resolution (SR) aims to translate low-resolution images into their high-resolution counterparts with a strict integrity of the original content, eliminating any distortions or synthetic details. While traditional diffusion-based SR techniques have demonstrated remarkable abilities to enhance image detail, they are prone to artifact introduction during iterative procedures. Such artifacts, ranging from trivial noise to unauthentic textures, deviate from the true structure of the source image, thus challenging the integrity of the super-resolution process. In this work, we propose Self-Adaptive Reality-Guided Diffusion (SARGD), a training-free method that delves into the latent space to effectively identify and mitigate the propagation of artifacts. Our SARGD begins by using an artifact detector to identify implausible pixels, creating a binary mask that highlights artifacts. Following this, the Reality Guidance Refinement (RGR) process refines artifacts by integrating this mask with realistic latent representations, improving alignment with the original image. Nonetheless, initial realistic-latent representations from lower-quality images result in over-smoothing in the final output. To address this, we introduce a Self-Adaptive Guidance (SAG) mechanism. It dynamically computes a reality score, enhancing the sharpness of the realistic latent. These alternating mechanisms collectively achieve artifact-free super-resolution. Extensive experiments demonstrate the superiority of our method, delivering detailed artifact-free high-resolution images while reducing sampling steps by 2X. We release our code at https://github.com/ProAirVerse/Self-Adaptive-Guidance-Diffusion.git.
翻訳日:2024-03-26 15:08:28 公開日:2024-03-25
# ベイジアン推論によるSim-to-Realギャップのブリッジ

Bridging the Sim-to-Real Gap with Bayesian Inference ( http://arxiv.org/abs/2403.16644v1 )

ライセンス: Link先を確認
Jonas Rothfuss, Bhavya Sukhija, Lenart Treven, Florian Dörfler, Stelian Coros, Andreas Krause, (参考訳) データからロボットダイナミクスを学習するためのSIM-FSVGDを提案する。 従来の手法とは対照的に、SIM-FSVGDは、シミュレーターの形で低忠実度物理先行性、例えば、ニューラルネットワークモデルのトレーニングを規則化する。 SIM-FSVGDは、既に低いデータ状態にある正確なダイナミクスを学習する一方で、より多くのデータが利用可能になった時にスケールし、拡張する。 暗黙の物理的前提による学習が正確な平均モデル推定と正確な不確実性定量化をもたらすことを実証的に示す。 高性能RCレースカーシステムにおけるSIM-to-realギャップのブリッジ化におけるSIM-FSVGDの有効性を実証する。 モデルベースRLを用いて、ドリフトを伴う非常にダイナミックな駐車操作を実演する。

We present SIM-FSVGD for learning robot dynamics from data. As opposed to traditional methods, SIM-FSVGD leverages low-fidelity physical priors, e.g., in the form of simulators, to regularize the training of neural network models. While learning accurate dynamics already in the low data regime, SIM-FSVGD scales and excels also when more data is available. We empirically show that learning with implicit physical priors results in accurate mean model estimation as well as precise uncertainty quantification. We demonstrate the effectiveness of SIM-FSVGD in bridging the sim-to-real gap on a high-performance RC racecar system. Using model-based RL, we demonstrate a highly dynamic parking maneuver with drifting, using less than half the data compared to the state of the art.
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# ユニバーサル・メディカル・イメージ・セグメンテーションのためのクラスタリング・プロパゲーション

Clustering Propagation for Universal Medical Image Segmentation ( http://arxiv.org/abs/2403.16646v1 )

ライセンス: Link先を確認
Yuhang Ding, Liulei Li, Wenguan Wang, Yi Yang, (参考訳) 医用画像のセグメンテーションのための卓越したソリューションは、通常、自動化または対話的なセットアップのために調整され、あるタスクで達成された進歩を他のタスクに促進する上での課題を提起する。 $_{\! この$_{\! 同じく$_{\! 必然的に$_{\! separate$_{\! トレーニング時間とパラメータの両方を重複させる。 $_{\! To$_{\! address$_{\! above$_{\! issue,$_{\! We$_{\! introduce$_{\! S2VNet,$_{\! a$_{\! ユニバーサル$_{\! フレームワーク$_{\! その$_{\! uses$_{\! Slice-to-Volume$_{\! }$ propagation$_{\! $ to$_{\! 1つのモデルと1つのトレーニングセッションで自動/インタラクティブセグメンテーションを統合する。 クラスタリングベースのセグメンテーション技術にインスパイアされたS2VNetは、クラスタ$_{\!からクラスタセンターを初期化することによって、ボリュームデータのスライスワイズ構造をフル活用する。 }$ results$_{\! $$ _{\! 以前の$_{\! スライスする。 $_{\! これは、従来のスライスから取得した知識を、現在のスライスのセグメンテーションを補助し、単純な2Dネットワークを使用してリモートスライス間の通信を効率的にブリッジすることを可能にする。 さらに、このようなフレームワークは、ユーザ入力からセントロイドを初期化するだけで、アーキテクチャ変更のない対話的なセグメンテーションを容易に扱える。 S2VNetは、一般的な3Dソリューションに比べて高速な推論速度とメモリ消費の削減により、自分自身を区別する。 また、それぞれが異なるセントロイドを初期化するのに役立つマルチクラス相互作用を処理できる。 3つのベンチマークの実験では、S2VNetは自動/対話的なセットアップにおいてタスク指定のソリューションを上回っている。

Prominent solutions for medical image segmentation are typically tailored for automatic or interactive setups, posing challenges in facilitating progress achieved in one task to another.$_{\!}$ This$_{\!}$ also$_{\!}$ necessitates$_{\!}$ separate$_{\!}$ models for each task, duplicating both training time and parameters.$_{\!}$ To$_{\!}$ address$_{\!}$ above$_{\!}$ issues,$_{\!}$ we$_{\!}$ introduce$_{\!}$ S2VNet,$_{\!}$ a$_{\!}$ universal$_{\!}$ framework$_{\!}$ that$_{\!}$ leverages$_{\!}$ Slice-to-Volume$_{\!}$ propagation$_{\!}$ to$_{\!}$ unify automatic/interactive segmentation within a single model and one training session. Inspired by clustering-based segmentation techniques, S2VNet makes full use of the slice-wise structure of volumetric data by initializing cluster centers from the cluster$_{\!}$ results$_{\!}$ of$_{\!}$ previous$_{\!}$ slice.$_{\!}$ This enables knowledge acquired from prior slices to assist in the segmentation of the current slice, further efficiently bridging the communication between remote slices using mere 2D networks. Moreover, such a framework readily accommodates interactive segmentation with no architectural change, simply by initializing centroids from user inputs. S2VNet distinguishes itself by swift inference speeds and reduced memory consumption compared to prevailing 3D solutions. It can also handle multi-class interactions with each of them serving to initialize different centroids. Experiments on three benchmarks demonstrate S2VNet surpasses task-specified solutions on both automatic/interactive setups.
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# CLHA: ヒューマンアライメントのためのシンプルで効果的なコントラスト学習フレームワーク

CLHA: A Simple yet Effective Contrastive Learning Framework for Human Alignment ( http://arxiv.org/abs/2403.16649v1 )

ライセンス: Link先を確認
Feiteng Fang, Liang Zhu, Min Yang, Xi Feng, Jinchang Hou, Qixuan Zhao, Chengming Li, Xiping Hu, Ruifeng Xu, (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる上で重要な手法であり、これらのLLMがユーザにとって有益で理解しやすい方法で振舞うことを保証する。 しかし、強化学習に基づく人間のアライメント技術における長年の課題は、その固有の複雑さと訓練の難しさにある。 この課題に対処するために、LLMと人間の嗜好を直接整合させる、単純で効果的な人間適応のためのコントラスト学習フレームワーク(CLHA)を提案する。 CLHAは、その固有の品質を考慮し、トレーニングプロセスを動的に調整することで、データ内のノイズを評価するために、新しいリスコリング戦略を採用している。 同時に、CLHAは対向的なコントラスト損失と適応的な教師付き微調整損失を利用して、反応の発生可能性を適応的に修正し、人間の嗜好との整合性を確保する。 高度な手法を用いて、CLHAは他のアルゴリズムを超越し、報酬モデルスコア、自動評価、そして広く使われている '`\textit{Helpful and Harmless}''' データセットに対する人間の評価の点で優れたパフォーマンスを示す。

Reinforcement learning from human feedback (RLHF) is a crucial technique in aligning large language models (LLMs) with human preferences, ensuring these LLMs behave in beneficial and comprehensible ways to users. However, a longstanding challenge in human alignment techniques based on reinforcement learning lies in their inherent complexity and difficulty in training. To address this challenge, we present a simple yet effective Contrastive Learning Framework for Human Alignment (CLHA) to align LLMs with human preferences directly. CLHA employs a novel rescoring strategy to evaluate the noise within the data by considering its inherent quality and dynamically adjusting the training process. Simultaneously, CLHA utilizes pairwise contrastive loss and adaptive supervised fine-tuning loss to adaptively modify the likelihood of generating responses, ensuring enhanced alignment with human preferences. Using advanced methods, CLHA surpasses other algorithms, showcasing superior performance in terms of reward model scores, automatic evaluations, and human assessments on the widely used ``\textit{Helpful and Harmless}'' dataset.
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# 2値分類のためのロス関数型サポートベクトルマシン

A Novel Loss Function-based Support Vector Machine for Binary Classification ( http://arxiv.org/abs/2403.16654v1 )

ライセンス: Link先を確認
Yan Li, Liping Zhang, (参考訳) 以前のサポートベクターマシン(SVM)は、0/1$の損失SVM、ヒンジロスSVM、ランプロスSVM、切り離されたピンボール損失SVMなどを含み、マージン内の正しく分類されたサンプルに対するペナルティの度合を見落としていた。 この監視は、SVM分類器のある程度の一般化能力に影響を与える。 この制限に対処するため、信頼率の観点から、サポートベクトルマシン分類器($\ell_s$-SVM)を構築するための新しいスライド損失関数($\ell_s$)を提案する。 近位定常点の概念を導入し、リプシッツ連続性の性質を利用することにより、$\ell_s$-SVM に対する一階最適条件を導出する。 これに基づいて、$\ell_s$サポートベクトルと$\ell_s$-SVMのワーキングセットを定義する。 効率よく$\ell_s$-SVMを処理するために、演算セット($\ell_s$-ADMM)と乗算器の高速な交互方向法を考案し、収束解析を提供する。 実世界のデータセットに関する数値実験により,提案手法のロバスト性と有効性が確認された。

The previous support vector machine(SVM) including $0/1$ loss SVM, hinge loss SVM, ramp loss SVM, truncated pinball loss SVM, and others, overlooked the degree of penalty for the correctly classified samples within the margin. This oversight affects the generalization ability of the SVM classifier to some extent. To address this limitation, from the perspective of confidence margin, we propose a novel Slide loss function ($\ell_s$) to construct the support vector machine classifier($\ell_s$-SVM). By introducing the concept of proximal stationary point, and utilizing the property of Lipschitz continuity, we derive the first-order optimality conditions for $\ell_s$-SVM. Based on this, we define the $\ell_s$ support vectors and working set of $\ell_s$-SVM. To efficiently handle $\ell_s$-SVM, we devise a fast alternating direction method of multipliers with the working set ($\ell_s$-ADMM), and provide the convergence analysis. The numerical experiments on real world datasets confirm the robustness and effectiveness of the proposed method.
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# 文法的誤り訂正--BARTとMarianMTを用いた変圧器に基づく言語モデルの応答性の検討

Grammatical vs Spelling Error Correction: An Investigation into the Responsiveness of Transformer-based Language Models using BART and MarianMT ( http://arxiv.org/abs/2403.16655v1 )

ライセンス: Link先を確認
Rohit Raju, Peeta Basa Pati, SA Gandheesh, Gayatri Sanjana Sannala, Suriya KS, (参考訳) テキストは、情報に対する関連した表現形式であり続けている。 テキスト文書は、デジタルネイティブプラットフォームか、画像や音声などの他のメディアファイルの変換によって作成される。 デジタルネイティブテキストは物理または仮想キーボードを介して必ず取得されるが、OCRや音声認識などの技術を用いて画像や音声信号をテキストコンテンツに変換する。 これらの様々なテキスト生成機構は、キャプチャされたテキストにエラーも導入する。 本研究の目的は,テキスト中の異なる種類のエラーを解析することである。 この研究は、2つの高度なディープニューラルネットワークベースの言語モデル、すなわちBARTとMarianMTを使用して、テキストに存在する異常を修正している。 利用可能なデータセットでこれらのモデルの転送学習を行い、誤り訂正のためのキャパシティを微調整する。 決定されたエラーカテゴリのそれぞれを扱う上で,これらのモデルの有効性を検討するために比較研究を行った。 どちらのモデルも誤文を20%以上減少させることができるが、BARTは文法的誤り(8.8%)よりもスペルエラー(24.6%)がはるかに優れている。

Text continues to remain a relevant form of representation for information. Text documents are created either in digital native platforms or through the conversion of other media files such as images and speech. While the digital native text is invariably obtained through physical or virtual keyboards, technologies such as OCR and speech recognition are utilized to transform the images and speech signals into text content. All these variety of mechanisms of text generation also introduce errors into the captured text. This project aims at analyzing different kinds of error that occurs in text documents. The work employs two of the advanced deep neural network-based language models, namely, BART and MarianMT, to rectify the anomalies present in the text. Transfer learning of these models with available dataset is performed to finetune their capacity for error correction. A comparative study is conducted to investigate the effectiveness of these models in handling each of the defined error categories. It is observed that while both models can bring down the erroneous sentences by 20+%, BART can handle spelling errors far better (24.6%) than grammatical errors (8.8%).
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# レコメンデーションのためのグラフ強化

Graph Augmentation for Recommendation ( http://arxiv.org/abs/2403.16656v1 )

ライセンス: Link先を確認
Qianru Zhang, Lianghao Xia, Xuheng Cai, Siuming Yiu, Chao Huang, Christian S. Jensen, (参考訳) ラベル付きデータに制限がある場合でも、表現力のあるユーザ表現を学習できるため、レコメンデーションシステム分野において、対照的な学習によるグラフ強化が注目されている。 しかし、既存のGCLモデルを現実世界のレコメンデーション環境に直接適用することは、課題となる。 対処すべき主な問題は2つある。 第一に、対照的な学習におけるデータノイズに対する考慮の欠如は、ノイズの多い自己教師信号をもたらし、性能が劣化する可能性がある。 第二に、既存のGCLアプローチの多くはグラフニューラルネットワーク(GNN)アーキテクチャに依存しており、非適応的なメッセージパッシングによって過度にスムースな問題に悩まされる可能性がある。 これらの課題に対処するために、GraphAugと呼ばれる原則的なフレームワークを提案する。 このフレームワークは、デノライズされた自己教師付き信号を生成する堅牢なデータ拡張器を導入し、レコメンダシステムを強化している。 GraphAugフレームワークはグラフ情報ボトルネック(GIB)正規化拡張パラダイムを取り入れており、情報的自己スーパービジョン情報を自動蒸留し、コントラスト的なビュー生成を適応的に調整する。 実世界のデータセットに関する厳密な実験を通じて、新しいGraphAugモデルの性能を徹底的に評価した。 結果は、既存のベースライン方式よりも一貫して優位性を示す。 私たちのモデルのソースコードは、https://github.com/HKUDS/GraphAug.comで公開されています。

Graph augmentation with contrastive learning has gained significant attention in the field of recommendation systems due to its ability to learn expressive user representations, even when labeled data is limited. However, directly applying existing GCL models to real-world recommendation environments poses challenges. There are two primary issues to address. Firstly, the lack of consideration for data noise in contrastive learning can result in noisy self-supervised signals, leading to degraded performance. Secondly, many existing GCL approaches rely on graph neural network (GNN) architectures, which can suffer from over-smoothing problems due to non-adaptive message passing. To address these challenges, we propose a principled framework called GraphAug. This framework introduces a robust data augmentor that generates denoised self-supervised signals, enhancing recommender systems. The GraphAug framework incorporates a graph information bottleneck (GIB)-regularized augmentation paradigm, which automatically distills informative self-supervision information and adaptively adjusts contrastive view generation. Through rigorous experimentation on real-world datasets, we thoroughly assessed the performance of our novel GraphAug model. The outcomes consistently unveil its superiority over existing baseline methods. The source code for our model is publicly available at: https://github.com/HKUDS/GraphAug.
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# RU22Fact:ロシア・ウクライナ紛争における多言語説明可能なFact-Checkingのエビデンス最適化

RU22Fact: Optimizing Evidence for Multilingual Explainable Fact-Checking on Russia-Ukraine Conflict ( http://arxiv.org/abs/2403.16662v1 )

ライセンス: Link先を確認
Yirong Zeng, Xiao Ding, Yi Zhao, Xiangyu Li, Jie Zhang, Chao Yao, Ting Liu, Bing Qin, (参考訳) ファクトチェック(Fact-checking)は、あるクレームの事実を、利用可能な証拠を調べて検証するタスクである。 高品質な証拠は、事実確認システムを強化し、人間にとって理解できる説明の生成を促進する上で重要な役割を担っている。 しかし、説明可能なファクトチェックシステムに関する十分な証拠と関連する証拠の提供が課題となっている。 そこで本研究では,Webから証拠を自動的に抽出・要約する大規模言語モデルを提案する。 さらに、2022年にロシアとウクライナの紛争に関する新しい多言語で説明可能な事実チェックデータセットRU22Factを構築し、それぞれに現実世界の主張、最適化された証拠、参照された説明を含む。 また,データセットのベースラインを確立するために,クレームの検証と説明生成を行うエンドツーエンドのファクトチェックシステムを開発した。 実験結果から, 事実確認性能の向上が期待できることを示すとともに, エンド・ツー・エンドのクレーム検証および説明生成タスクのさらなる進展の可能性を示す。

Fact-checking is the task of verifying the factuality of a given claim by examining the available evidence. High-quality evidence plays a vital role in enhancing fact-checking systems and facilitating the generation of explanations that are understandable to humans. However, the provision of both sufficient and relevant evidence for explainable fact-checking systems poses a challenge. To tackle this challenge, we propose a method based on a Large Language Model to automatically retrieve and summarize evidence from the Web. Furthermore, we construct RU22Fact, a novel multilingual explainable fact-checking dataset on the Russia-Ukraine conflict in 2022 of 16K samples, each containing real-world claims, optimized evidence, and referenced explanation. To establish a baseline for our dataset, we also develop an end-to-end explainable fact-checking system to verify claims and generate explanations. Experimental results demonstrate the prospect of optimized evidence in increasing fact-checking performance and also indicate the possibility of further progress in the end-to-end claim verification and explanation generation tasks.
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# 眠れる美」問題の再考

Revisiting the Sleeping Beauty problem ( http://arxiv.org/abs/2403.16666v1 )

ライセンス: Link先を確認
Paulo S. Piva, Gabriel Ruffolo, (参考訳) 眠る美の問題は20年以上、明確な解がない確率の謎であり、その解は多くの知識分野に非常に関心がある。 この問題には、ハーフ・アプローチとサード・アプローチの2つの主要な競合する解決策がある。 文献における不一致の主な理由は、同じ確率的謎を表すために異なる確率空間を使うことに関係している。 本研究では,思考実験のルールから直接誘導される確率分布を同定し,数学的観点から問題を解析する。 確率空間の正確な選択は、この問題に対するより半解と第三解の両方を提供する。 いずれのアプローチに従うべきかを判断するために、睡眠美容に利用可能な情報を含む基準を提案する。

The Sleeping Beauty problem is a probability riddle with no definite solution for more than two decades and its solution is of great interest in many fields of knowledge. There are two main competing solutions to the problem: the halfer approach, and the thirder approach. The main reason for disagreement in the literature is connected to the use of different probability spaces to represent the same probabilistic riddle. In this work, we analyse the problem from a mathematical perspective, identifying probability distributions induced directly from the thought experiment's rules. The precise choices of probability spaces provide both halfer and thirder solutions to the problem. To try and decide on which approach to follow, a criterion involving the information available to Sleeping Beauty is proposed.
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# 責任あるポートフォリオ最適化のための深層強化学習と平均変動戦略

Deep Reinforcement Learning and Mean-Variance Strategies for Responsible Portfolio Optimization ( http://arxiv.org/abs/2403.16667v1 )

ライセンス: Link先を確認
Fernando Acero, Parisa Zehtabi, Nicolas Marchesotti, Michael Cashmore, Daniele Magazzeni, Manuela Veloso, (参考訳) ポートフォリオ最適化は、与えられた投資目標を最大化するために、ポートフォリオ資産の最適配分を決定することを伴う。 従来はリスクを最小化しながらリターンを最大化する目的で平均分散最適化の形式が用いられてきたが、近年では深層強化学習の定式化が検討されている。 投資家は投資決定を行う際にESGの目的を取り入れることに関心を示しており、古典的な平均分散最適化フレームワークの変更が開発されている。 本研究では、ESG状態と目的を組み込んだポートフォリオ最適化のための深層強化学習法について検討し、修正された平均分散アプローチとの比較を行った。 以上の結果から,金融・ESG責任目標の付加的・乗算的ユーティリティ機能にまたがるポートフォリオ割り当てに対する平均分散アプローチに対して,深い強化学習政策が競争力を発揮することが示唆された。

Portfolio optimization involves determining the optimal allocation of portfolio assets in order to maximize a given investment objective. Traditionally, some form of mean-variance optimization is used with the aim of maximizing returns while minimizing risk, however, more recently, deep reinforcement learning formulations have been explored. Increasingly, investors have demonstrated an interest in incorporating ESG objectives when making investment decisions, and modifications to the classical mean-variance optimization framework have been developed. In this work, we study the use of deep reinforcement learning for responsible portfolio optimization, by incorporating ESG states and objectives, and provide comparisons against modified mean-variance approaches. Our results show that deep reinforcement learning policies can provide competitive performance against mean-variance approaches for responsible portfolio allocation across additive and multiplicative utility functions of financial and ESG responsibility objectives.
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# 誰がもっとオンラインで自慢しているのか? ソーシャルメディアにおける自慢の大規模分析

Who is bragging more online? A large scale analysis of bragging in social media ( http://arxiv.org/abs/2403.16668v1 )

ライセンス: Link先を確認
Mali Jin, Daniel Preoţiuc-Pietro, A. Seza Doğruöz, Nikolaos Aletras, (参考訳) ブラッグ(Bragging)とは、他人が肯定的に見る可能性のある言明を発する行為であり、自己の肯定的な自己イメージを構築することを目的として、人間のコミュニケーションに広く採用されている。 ソーシャルメディアは、利用者から賞賛、敬意、注意、フォロワーを得るために、ユーザーが自慢を雇うための自然なプラットフォームである。 しかし、オンラインでの自慢の規模とその特徴についてはほとんど分かっていない。 本稿では,Twitter(米国)上でのブラッグ行動の大規模研究に計算社会言語学的手法を適用し,その全体的頻度,時間的ダイナミクス,人口統計要因の影響に着目した。 本研究は,同一利用者内でのブラッグの頻度が時間の経過とともに低下していることを示す。 さらに、米国の若い、より教育を受け、人気のあるユーザーは、より自慢する傾向にある。 最後に、異なるユーザ特性に関連する特定のブラッグのテーマを明らかにするために、広範な言語学的分析を行う。

Bragging is the act of uttering statements that are likely to be positively viewed by others and it is extensively employed in human communication with the aim to build a positive self-image of oneself. Social media is a natural platform for users to employ bragging in order to gain admiration, respect, attention and followers from their audiences. Yet, little is known about the scale of bragging online and its characteristics. This paper employs computational sociolinguistics methods to conduct the first large scale study of bragging behavior on Twitter (U.S.) by focusing on its overall prevalence, temporal dynamics and impact of demographic factors. Our study shows that the prevalence of bragging decreases over time within the same population of users. In addition, younger, more educated and popular users in the U.S. are more likely to brag. Finally, we conduct an extensive linguistics analysis to unveil specific bragging themes associated with different user traits.
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# MAVのドメイン適応検出:ベンチマークとノイズ抑制ネットワーク

Domain Adaptive Detection of MAVs: A Benchmark and Noise Suppression Network ( http://arxiv.org/abs/2403.16669v1 )

ライセンス: Link先を確認
Yin Zhang, Jinhong Deng, Peidong Liu, Wen Li, Shiyu Zhao, (参考訳) 近年,マイクロエアビー (MAV) の視覚的検出が注目されている。 MAV検出のための既存の方法は、トレーニングセットとテストセットが同じ分布を持つと仮定する。 結果として、新しいドメインにデプロイされると、検出器はドメインの相違により性能が著しく低下する。 本稿では,クロスドメインMAV検出の問題について検討する。 本論文の貢献は3倍である。 1) シミュレーションと実写画像の両方からなるマルチMAV-Multi-Domain(M3D)データセットを提案する。 他の既存のデータセットと比較して、提案したデータセットは、リッチなシーン、多様なMAVタイプ、様々な視野角をカバーしているという意味で、より包括的なものである。 提案したデータセットに基づいて,クロスドメインMAV検出のための新しいベンチマークを提案する。 2) 擬似ラベリングの枠組みと大規模から小規模の訓練手順に基づくノイズ抑制ネットワーク(NSN)を提案する。 このネットワークでは、難易度の高い擬似ラベルノイズを低減するために、2つの新しいモジュールが設計されている。 1つ目は、異なる困難を持つ擬似ラベルに対して適応しきい値を設定するための、事前ベースのカリキュラム学習モジュールである。 2つ目は、未ラベルのターゲット画像に真にラベル付きMAVを貼り付け、擬似ラベルノイズを低減させるマスク付きコピーペースト拡張モジュールである。 3) 大規模実験により, 提案手法の精度を最先端の手法と比較して検証した。 特に、シミュレーション・トゥ・リアル・アダプティブ、クロスシーン・アダプティブ、クロスカメラ・アダプティブの各タスクにおいて、46.9%(+5.8%)、50.5%(+3.7%)、61.5%(+11.3%)のmAPを達成する。

Visual detection of Micro Air Vehicles (MAVs) has attracted increasing attention in recent years due to its important application in various tasks. The existing methods for MAV detection assume that the training set and testing set have the same distribution. As a result, when deployed in new domains, the detectors would have a significant performance degradation due to domain discrepancy. In this paper, we study the problem of cross-domain MAV detection. The contributions of this paper are threefold. 1) We propose a Multi-MAV-Multi-Domain (M3D) dataset consisting of both simulation and realistic images. Compared to other existing datasets, the proposed one is more comprehensive in the sense that it covers rich scenes, diverse MAV types, and various viewing angles. A new benchmark for cross-domain MAV detection is proposed based on the proposed dataset. 2) We propose a Noise Suppression Network (NSN) based on the framework of pseudo-labeling and a large-to-small training procedure. To reduce the challenging pseudo-label noises, two novel modules are designed in this network. The first is a prior-based curriculum learning module for allocating adaptive thresholds for pseudo labels with different difficulties. The second is a masked copy-paste augmentation module for pasting truly-labeled MAVs on unlabeled target images and thus decreasing pseudo-label noises. 3) Extensive experimental results verify the superior performance of the proposed method compared to the state-of-the-art ones. In particular, it achieves mAP of 46.9%(+5.8%), 50.5%(+3.7%), and 61.5%(+11.3%) on the tasks of simulation-to-real adaptation, cross-scene adaptation, and cross-camera adaptation, respectively.
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# スパイクニューラルネットワークにおけるモデリングコンポーネントの機能的役割の理解

Understanding the Functional Roles of Modelling Components in Spiking Neural Networks ( http://arxiv.org/abs/2403.16674v1 )

ライセンス: Link先を確認
Huifeng Yin, Hanle Zheng, Jiayi Mao, Siyuan Ding, Xing Liu, Mingkun Xu, Yifan Hu, Jing Pei, Lei Deng, (参考訳) 脳の神経回路にインスパイアされたスパイキングニューラルネットワーク(SNN)は、生物学的忠実さで高い計算効率を達成することを約束している。 しかしながら、モデリングコンポーネントの機能的役割が不明確であるため、SNNを最適化することは極めて困難である。 従来のモデルのいくつかの変種を設計・評価することにより,漏洩統合・火災(LIF)に基づくSNNにおけるキーモデリングコンポーネント,リーク,リセット,再発の機能的役割を体系的に検討する。 広範な実験を通じて,これらの成分がSNNの精度,一般化,堅牢性に与える影響を実証する。 具体的には、メモリ保持とロバスト性のバランスにおいてリークが重要な役割を担い、リセット機構は未中断の時間的処理と計算効率に不可欠であり、リセットは、ロバストネス劣化を犠牲にして複雑なダイナミクスをモデル化する能力を強化する。 これらの興味深い観測により、異なるシナリオにおけるSNNの性能向上のための最適化提案を行う。 この研究は、より効果的で堅牢なニューロモルフィックモデルの開発のための貴重なガイダンスを提供するSNNの動作方法の理解を深める。

Spiking neural networks (SNNs), inspired by the neural circuits of the brain, are promising in achieving high computational efficiency with biological fidelity. Nevertheless, it is quite difficult to optimize SNNs because the functional roles of their modelling components remain unclear. By designing and evaluating several variants of the classic model, we systematically investigate the functional roles of key modelling components, leakage, reset, and recurrence, in leaky integrate-and-fire (LIF) based SNNs. Through extensive experiments, we demonstrate how these components influence the accuracy, generalization, and robustness of SNNs. Specifically, we find that the leakage plays a crucial role in balancing memory retention and robustness, the reset mechanism is essential for uninterrupted temporal processing and computational efficiency, and the recurrence enriches the capability to model complex dynamics at a cost of robustness degradation. With these interesting observations, we provide optimization suggestions for enhancing the performance of SNNs in different scenarios. This work deepens the understanding of how SNNs work, which offers valuable guidance for the development of more effective and robust neuromorphic models.
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# FOOL:ニューラル特徴圧縮による衛星コンピューティングにおけるダウンリンク・ボツネックの対応

FOOL: Addressing the Downlink Bottleneck in Satellite Computing with Neural Feature Compression ( http://arxiv.org/abs/2403.16677v1 )

ライセンス: Link先を確認
Alireza Furutanpey, Qiyang Zhang, Philipp Raith, Tobias Pfandzelter, Shangguang Wang, Schahram Dustdar, (参考訳) 大規模な地理的領域を観測するセンサーを備えたナノサテライト星座は、地球観測に前例のない機会を与える。 星座のサイズが大きくなると、ネットワーク競合はダウンリンクボトルネックを引き起こす。 Orbital Edge Computing (OEC)は、限られた計算資源を活用し、ソースで生のキャプチャを処理することで転送コストを削減する。 しかし、現在のソリューションは、粗いフィルタリング手法に依存したり、特定の下流タスクを過度に優先順位付けしたりするため、実行可能性に制限がある。 本研究は,OECネイティブでタスクに依存しない特徴圧縮手法であるFOOLについて述べる。 FOOLはスループットを最大化するために高解像度の衛星画像を分割する。 さらに、コンテキストを埋め込んで、タイル間の依存関係を活用して、無視できるオーバーヘッドで転送コストを下げる。 FOOLは特徴圧縮機であるが、低ビットレートでの知覚的品質測定の競合スコアで画像を復元することができる。 低地球軌道における断続的に利用可能なネットワーク接続の特異性を含むことによって、転送コストの削減を広範囲に評価する。 最後に, ナノサテライト形状因子の標準化に向けたシステムの実現可能性について検討した。 FOOLは、ダウンストリームタスクの事前情報に頼ることなく、100倍以上のデータボリュームをダウンリンクできることを示す。

Nanosatellite constellations equipped with sensors capturing large geographic regions provide unprecedented opportunities for Earth observation. As constellation sizes increase, network contention poses a downlink bottleneck. Orbital Edge Computing (OEC) leverages limited onboard compute resources to reduce transfer costs by processing the raw captures at the source. However, current solutions have limited practicability due to reliance on crude filtering methods or over-prioritizing particular downstream tasks. This work presents FOOL, an OEC-native and task-agnostic feature compression method that preserves prediction performance. FOOL partitions high-resolution satellite imagery to maximize throughput. Further, it embeds context and leverages inter-tile dependencies to lower transfer costs with negligible overhead. While FOOL is a feature compressor, it can recover images with competitive scores on perceptual quality measures at lower bitrates. We extensively evaluate transfer cost reduction by including the peculiarity of intermittently available network connections in low earth orbit. Lastly, we test the feasibility of our system for standardized nanosatellite form factors. We demonstrate that FOOL permits downlinking over 100x the data volume without relying on prior information on the downstream tasks.
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# DeepGleason: ディープニューラルネットワークを用いた前立腺癌のグリソングラフ作成システム

DeepGleason: a System for Automated Gleason Grading of Prostate Cancer using Deep Neural Networks ( http://arxiv.org/abs/2403.16678v1 )

ライセンス: Link先を確認
Dominik Müller, Philip Meyer, Lukas Rentschler, Robin Manz, Jonas Bäcker, Samantha Cramer, Christoph Wengenmayr, Bruno Märkl, Ralf Huss, Iñaki Soto-Rey, Johannes Raffler, (参考訳) デジタル病理学と人工知能(AI)の進歩は、臨床決定のサポートと診断ワークフローの強化に有望な機会を提供する。 これまでの研究では、AIによる自動グリーソングレーディングの可能性は既に示されていたが、最先端の方法論とモデル再利用性は欠如していた。 この問題に対処するために、我々はDeepGleasonを提案する。DeepGleasonはオープンソースのディープニューラルネットワークに基づく画像分類システムで、前立腺組織からの全スライディング組織像を用いて、自動グリーソングレーディングを行う。 標準化されたAUCMEDIフレームワークで実装したツールでは,さまざまな最先端アーキテクチャと比較したConvNeXtアーキテクチャと組み合わせて,微調整による画像前処理技術を利用したタイルワイズ分類手法を採用している。 ニューラルネットワークモデルは、369の前立腺癌スライドから34,264個の注釈付きタイルを社内データセットでトレーニングし、検証した。 我々は,DeepGleasonのマクロ平均F1スコア0.906,AUC0.991,精度0.974で,高精度で信頼性の高いGleasonグレードが可能であることを示した。 内部アーキテクチャ比較の結果、ConvNeXtモデルは、データセットやトランスフォーマーなどの現代的なアーキテクチャよりも、パフォーマンス的に優れていることが判明した。 さらに, 良性鑑別と悪性鑑別では0.94, 0.98, Gleason 3とGleason 4と5の分類では0.91, 0.75の感度, 特異性で, タイルの微細分類では現状より優れていた。 我々のツールは、研究コミュニティにおけるAIベースのGleason gradingの広範な採用に寄与し、デジタル病理学におけるディープラーニングモデルのより広範な臨床応用の道を開く。 DeepGleasonはオープンソースで、以下のGitリポジトリで研究アプリケーションとして公開されている。

Advances in digital pathology and artificial intelligence (AI) offer promising opportunities for clinical decision support and enhancing diagnostic workflows. Previous studies already demonstrated AI's potential for automated Gleason grading, but lack state-of-the-art methodology and model reusability. To address this issue, we propose DeepGleason: an open-source deep neural network based image classification system for automated Gleason grading using whole-slide histopathology images from prostate tissue sections. Implemented with the standardized AUCMEDI framework, our tool employs a tile-wise classification approach utilizing fine-tuned image preprocessing techniques in combination with a ConvNeXt architecture which was compared to various state-of-the-art architectures. The neural network model was trained and validated on an in-house dataset of 34,264 annotated tiles from 369 prostate carcinoma slides. We demonstrated that DeepGleason is capable of highly accurate and reliable Gleason grading with a macro-averaged F1-score of 0.806, AUC of 0.991, and Accuracy of 0.974. The internal architecture comparison revealed that the ConvNeXt model was superior performance-wise on our dataset to established and other modern architectures like transformers. Furthermore, we were able to outperform the current state-of-the-art in tile-wise fine-classification with a sensitivity and specificity of 0.94 and 0.98 for benign vs malignant detection as well as of 0.91 and 0.75 for Gleason 3 vs Gleason 4 & 5 classification, respectively. Our tool contributes to the wider adoption of AI-based Gleason grading within the research community and paves the way for broader clinical application of deep learning models in digital pathology. DeepGleason is open-source and publicly available for research application in the following Git repository: https://github.com/frankkramer-lab/DeepGleason.
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# ラグランジアン流体力学学習のための対称基底畳み込み

Symmetric Basis Convolutions for Learning Lagrangian Fluid Mechanics ( http://arxiv.org/abs/2403.16680v1 )

ライセンス: Link先を確認
Rene Winchenbach, Nils Thuerey, (参考訳) 物理シミュレーションの学習は、機械学習、特にNavier-Stokesを基盤とした流体力学において、最近の多くの研究の重要かつ中心的な側面である。 古典的な数値解法は伝統的に計算コストが高く、逆問題での使用が困難であるのに対し、ニューラル解法は機械学習による両方の問題に対処することを目指している。 分割可能な基底関数を既存手法のスーパーセットとして用いた連続畳み込みの一般的な定式化を提案し,その文脈における基底関数の大規模な集合の評価を行う。 (a)圧縮可能な1次元SPHシミュレーション (b)弱い圧縮性2次元SPHシミュレーション、及び (c)非圧縮性2次元SPHシミュレーション。 基本関数に含まれる偶数および奇数対称性が安定性と精度の重要な側面であることを示す。 フーリエに基づく連続的畳み込みは、精度と一般化に関して、他の全てのアーキテクチャよりも優れていることを示す。 最後に、これらのフーリエネットワークを用いて、ウィンドウ関数のような事前帰納バイアスはもはや不要であることを示す。 このアプローチの実装は、完全なデータセットとソルバの実装と同様に、https://github.com/tum-pbs/SFBCで利用可能です。

Learning physical simulations has been an essential and central aspect of many recent research efforts in machine learning, particularly for Navier-Stokes-based fluid mechanics. Classic numerical solvers have traditionally been computationally expensive and challenging to use in inverse problems, whereas Neural solvers aim to address both concerns through machine learning. We propose a general formulation for continuous convolutions using separable basis functions as a superset of existing methods and evaluate a large set of basis functions in the context of (a) a compressible 1D SPH simulation, (b) a weakly compressible 2D SPH simulation, and (c) an incompressible 2D SPH Simulation. We demonstrate that even and odd symmetries included in the basis functions are key aspects of stability and accuracy. Our broad evaluation shows that Fourier-based continuous convolutions outperform all other architectures regarding accuracy and generalization. Finally, using these Fourier-based networks, we show that prior inductive biases, such as window functions, are no longer necessary. An implementation of our approach, as well as complete datasets and solver implementations, is available at https://github.com/tum-pbs/SFBC.
翻訳日:2024-03-26 14:58:36 公開日:2024-03-25
# 有限モーメントをもつ損失に対する一般化境界について

A note on generalization bounds for losses with finite moments ( http://arxiv.org/abs/2403.16681v1 )

ライセンス: Link先を確認
Borja Rodríguez-Gálvez, Omar Rivasplata, Ragnar Thobaben, Mikael Skoglund, (参考訳) 本稿では,Alquier [1] から高確率 PAC-Bayes 境界を導出するトラクション法について検討する。 p$-次モーメントが有界であると仮定すると、結果として得られる境界は、$p=2$のときのスローレート $1 / \sqrt{n}$ と、$p \to \infty$のときの高速レート $1 / n$ と、その損失は本質的に有界である。 さらに,有界分散を有する損失に対して高確率PAC-Bayesを導出する。 この境界は、文献の以前の境界よりも、信頼パラメータと依存度に指数関数的に依存する。 最後に、本論文は、全ての結果を予測および単線PAC-Bayesの保証に拡張する。 そのため、これらの設定において [2] から有界損失に対して有界な PAC-Bayes 速度のアナログを得る。

This paper studies the truncation method from Alquier [1] to derive high-probability PAC-Bayes bounds for unbounded losses with heavy tails. Assuming that the $p$-th moment is bounded, the resulting bounds interpolate between a slow rate $1 / \sqrt{n}$ when $p=2$, and a fast rate $1 / n$ when $p \to \infty$ and the loss is essentially bounded. Moreover, the paper derives a high-probability PAC-Bayes bound for losses with a bounded variance. This bound has an exponentially better dependence on the confidence parameter and the dependency measure than previous bounds in the literature. Finally, the paper extends all results to guarantees in expectation and single-draw PAC-Bayes. In order to so, it obtains analogues of the PAC-Bayes fast rate bound for bounded losses from [2] in these settings.
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# ToXCL: Toxic Speech Detection and Explanation のための統一フレームワーク

ToXCL: A Unified Framework for Toxic Speech Detection and Explanation ( http://arxiv.org/abs/2403.16685v1 )

ライセンス: Link先を確認
Nhat M. Hoang, Xuan Long Do, Duc Anh Do, Duc Anh Vu, Luu Anh Tuan, (参考訳) オンラインの有害な言論の拡散は、人口集団に脅威をもたらす関連する問題である。 明示的な有害な音声は攻撃的な語彙信号を含むが、暗黙のものはコード化された言語または間接的な言語から構成される。 したがって、モデルが暗黙の有毒な音声を検出するだけでなく、その有毒さを説明することも重要である。 このことは、暗黙の有毒なスピーチを効果的に検出し、説明できる統一されたフレームワークのユニークな必要性を引き出す。 先行研究は、主にテキスト生成問題として有毒な音声の検出と説明のタスクを定式化した。 それでも、この戦略を用いて訓練されたモデルは、その後のエラー伝搬問題に悩まされがちである。 さらに,本実験では,検出タスクのみに着目したモデルよりも,そのようなモデルの検出結果がはるかに低いことが明らかとなった。 これらのギャップを埋めるために、暗黙の有毒な音声の検出と説明のための統一的なフレームワークToXCLを導入する。 私たちのモデルは3つのモジュールで構成されています。 一 所定のポストの目標人口群を生成するための目標集団発生装置 二 暗黙の有毒音声の検出に焦点を当てたエンコーダデコーダモデル 3 知識蒸留による教師分類器及び復号器は、必要な説明を生成する。 ToXCLは、新しい最先端の有効性を実現し、ベースラインを大幅に上回る。

The proliferation of online toxic speech is a pertinent problem posing threats to demographic groups. While explicit toxic speech contains offensive lexical signals, implicit one consists of coded or indirect language. Therefore, it is crucial for models not only to detect implicit toxic speech but also to explain its toxicity. This draws a unique need for unified frameworks that can effectively detect and explain implicit toxic speech. Prior works mainly formulated the task of toxic speech detection and explanation as a text generation problem. Nonetheless, models trained using this strategy can be prone to suffer from the consequent error propagation problem. Moreover, our experiments reveal that the detection results of such models are much lower than those that focus only on the detection task. To bridge these gaps, we introduce ToXCL, a unified framework for the detection and explanation of implicit toxic speech. Our model consists of three modules: a (i) Target Group Generator to generate the targeted demographic group(s) of a given post; an (ii) Encoder-Decoder Model in which the encoder focuses on detecting implicit toxic speech and is boosted by a (iii) Teacher Classifier via knowledge distillation, and the decoder generates the necessary explanation. ToXCL achieves new state-of-the-art effectiveness, and outperforms baselines significantly.
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# 脳電図を用いた対話教育におけるChatGPTの適用効果の検討

Investigation of the effectiveness of applying ChatGPT in Dialogic Teaching Using Electroencephalography ( http://arxiv.org/abs/2403.16687v1 )

ライセンス: Link先を確認
Jiayue Zhang, Yiheng Liu, Wenqi Cai, Yali Peng, Senqing Qi, Taotao Long, Bao Ge, (参考訳) 近年、人工知能技術の急速な発展、特にChatGPTのような大規模言語モデル(LLM)の出現は、教育分野への応用に大きな可能性を示している。 LLMは、知識を解釈し、質問に答え、文脈を考慮し、学生に対話的な教えを支援する能力を持っている。 したがって,LLMの指導的役割を効果的に果たす能力について検討し,対話型教育シナリオにおける人間教育者に似た学習を促進することは,非常に貴重な研究課題である。 この研究は、34人の大学生を参加者として募集し、ランダムに2つのグループに分けられた。 実験群はChatGPTを用いて対話型指導を行い,コントロール群は人間教師と対話した。 両グループは情報関連コースであるDigital Image Processingでヒストグラム等化単位を学習した。 調査の結果,保持試験における両群間に比較スコアが認められた。 しかし,ChatGPTとの対話に携わる学生は,移行試験において低い成績を示した。 脳波データによると、ChatGPTと相互作用する学生は認知活動のレベルが高く、ChatGPTが知識基盤の確立と認知活動の促進に役立つことが示唆された。 しかし、学生の育成に力を入れている。 知識の応用と創造性は 重要ではありません 研究結果から,ChatGPTは情報関連科目における対話指導における教科の遂行に全力を尽くすことができないことが明らかとなった。 ChatGPTと従来の人間の教師を組み合わせることが、より理想的なアプローチかもしれない。 両者のシナジスティックな利用は、生徒により包括的な学習支援を提供し、教育の質の向上に寄与する。

In recent years, the rapid development of artificial intelligence technology, especially the emergence of large language models (LLMs) such as ChatGPT, has presented significant prospects for application in the field of education. LLMs possess the capability to interpret knowledge, answer questions, and consider context, thus providing support for dialogic teaching to students. Therefore, an examination of the capacity of LLMs to effectively fulfill instructional roles, thereby facilitating student learning akin to human educators within dialogic teaching scenarios, is an exceptionally valuable research topic. This research recruited 34 undergraduate students as participants, who were randomly divided into two groups. The experimental group engaged in dialogic teaching using ChatGPT, while the control group interacted with human teachers. Both groups learned the histogram equalization unit in the information-related course "Digital Image Processing". The research findings show comparable scores between the two groups on the retention test. However, students who engaged in dialogue with ChatGPT exhibited lower performance on the transfer test. Electroencephalography data revealed that students who interacted with ChatGPT exhibited higher levels of cognitive activity, suggesting that ChatGPT could help students establish a knowledge foundation and stimulate cognitive activity. However, its strengths on promoting students. knowledge application and creativity were insignificant. Based upon the research findings, it is evident that ChatGPT cannot fully excel in fulfilling teaching tasks in the dialogue teaching in information related courses. Combining ChatGPT with traditional human teachers might be a more ideal approach. The synergistic use of both can provide students with more comprehensive learning support, thus contributing to enhancing the quality of teaching.
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# スコアマッチングによる最適凸$M$-推定

Optimal convex $M$-estimation via score matching ( http://arxiv.org/abs/2403.16688v1 )

ライセンス: Link先を確認
Oliver Y. Feng, Yu-Chun Kao, Min Xu, Richard J. Samworth, (参考訳) 線形回帰の文脈では、経験的リスク最小化が回帰係数の下流推定において最適な漸近分散をもたらすデータ駆動凸損失関数を構築する。 半パラメトリック手法は、雑音分布の対数密度の微分の最も少ない近似を目標とする。 人口レベルでは、このフィッティングプロセスはスコアマッチングの非パラメトリック拡張であり、フィッシャーの発散に対するノイズ分布の対数凹凸投影に対応する。 本手法は計算効率が良く, コンベックス$M$-推定器間の漸近的共分散が最小となることを示す。 コーシー誤差の例として、最適凸損失関数はフーバー様であり、この誤差分布の知識を用いた回帰係数のオラクル最大度推定器と比較して0.87以上の漸近効率が得られる。 数値実験により提案手法の実用性が確認された。

In the context of linear regression, we construct a data-driven convex loss function with respect to which empirical risk minimisation yields optimal asymptotic variance in the downstream estimation of the regression coefficients. Our semiparametric approach targets the best decreasing approximation of the derivative of the log-density of the noise distribution. At the population level, this fitting process is a nonparametric extension of score matching, corresponding to a log-concave projection of the noise distribution with respect to the Fisher divergence. The procedure is computationally efficient, and we prove that our procedure attains the minimal asymptotic covariance among all convex $M$-estimators. As an example of a non-log-concave setting, for Cauchy errors, the optimal convex loss function is Huber-like, and our procedure yields an asymptotic efficiency greater than 0.87 relative to the oracle maximum likelihood estimator of the regression coefficients that uses knowledge of this error distribution; in this sense, we obtain robustness without sacrificing much efficiency. Numerical experiments confirm the practical merits of our proposal.
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# Synapse: 視覚的デモから優先概念を学ぶ

Synapse: Learning Preferential Concepts from Visual Demonstrations ( http://arxiv.org/abs/2403.16689v1 )

ライセンス: Link先を確認
Sadanand Modak, Noah Patton, Isil Dillig, Joydeep Biswas, (参考訳) 本稿では、視覚的入力からユーザ固有の嗜好(例えば「良い駐車場所」、「便利な降車場所」など)を学習することを目的とした嗜好学習の課題に対処する。 現実的な概念(例えば「赤い立方体」)の学習に類似しているにもかかわらず、嗜好学習は主観的な性質と個人固有の訓練データのあいまいさのため、根本的に難しい問題である。 この問題は、限定的なデモンストレーションから優先概念を効率的に学習するために設計された、ニューロシンボリックなアプローチであるSynapseと呼ばれる新しいフレームワークを用いて解決する。 Synapseは、画像上で操作するドメイン特化言語(DSL)において、好みをニューロシンボリックなプログラムとして表現し、視覚解析、大規模言語モデル、プログラム合成という新しい組み合わせを活用して、個々の好みを表すプログラムを学ぶ。 モバイルロボティクスと自律運転におけるモビリティ関連概念に着目したユーザケーススタディを含む,広範な実験によるSynapseの評価を行った。 評価の結果,Synapseは既存のベースラインと独自の改善点を著しく上回っていることがわかった。 コードやその他の詳細はプロジェクトのWebサイト https://amrl.cs.utexas.edu/synapse で見ることができる。

This paper addresses the problem of preference learning, which aims to learn user-specific preferences (e.g., "good parking spot", "convenient drop-off location") from visual input. Despite its similarity to learning factual concepts (e.g., "red cube"), preference learning is a fundamentally harder problem due to its subjective nature and the paucity of person-specific training data. We address this problem using a new framework called Synapse, which is a neuro-symbolic approach designed to efficiently learn preferential concepts from limited demonstrations. Synapse represents preferences as neuro-symbolic programs in a domain-specific language (DSL) that operates over images, and leverages a novel combination of visual parsing, large language models, and program synthesis to learn programs representing individual preferences. We evaluate Synapse through extensive experimentation including a user case study focusing on mobility-related concepts in mobile robotics and autonomous driving. Our evaluation demonstrates that Synapse significantly outperforms existing baselines as well as its own ablations. The code and other details can be found on the project website https://amrl.cs.utexas.edu/synapse .
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# 前立腺癌における自動グリーソングレーディングのためのディープラーニングの性能評価

Assessing the Performance of Deep Learning for Automated Gleason Grading in Prostate Cancer ( http://arxiv.org/abs/2403.16695v1 )

ライセンス: Link先を確認
Dominik Müller, Philip Meyer, Lukas Rentschler, Robin Manz, Daniel Hieber, Jonas Bäcker, Samantha Cramer, Christoph Wengenmayr, Bruno Märkl, Ralf Huss, Frank Kramer, Iñaki Soto-Rey, Johannes Raffler, (参考訳) 前立腺がんは、先進的な診断ツールを求める主要な健康上の問題である。 本研究は, デジタル病理学と人工知能を用いて, 前立腺癌におけるGleason gradingの自動化のための11のディープニューラルネットワークアーキテクチャの可能性について検討した。 AUCMEDIフレームワークに基づく標準化された画像分類パイプラインは,34,264個のアノテートされた組織タイルからなる社内データセットを用いて,ロバストな評価を容易にする。 その結果、アーキテクチャ間で異なる感度を示し、ConvNeXtは最大のパフォーマンスを示した。 特に、より新しいアーキテクチャは、密接に関連するGleasonグレードを区別することの難しさにもかかわらず、優れたパフォーマンスを実現した。 ConvNeXtモデルは複雑さと一般化可能性のバランスを学ぶことができた。 本研究は、Gleason grading system の強化の基礎となり、前立腺癌の診断効率を向上させる可能性がある。

Prostate cancer is a dominant health concern calling for advanced diagnostic tools. Utilizing digital pathology and artificial intelligence, this study explores the potential of 11 deep neural network architectures for automated Gleason grading in prostate carcinoma focusing on comparing traditional and recent architectures. A standardized image classification pipeline, based on the AUCMEDI framework, facilitated robust evaluation using an in-house dataset consisting of 34,264 annotated tissue tiles. The results indicated varying sensitivity across architectures, with ConvNeXt demonstrating the strongest performance. Notably, newer architectures achieved superior performance, even though with challenges in differentiating closely related Gleason grades. The ConvNeXt model was capable of learning a balance between complexity and generalizability. Overall, this study lays the groundwork for enhanced Gleason grading systems, potentially improving diagnostic efficiency for prostate cancer.
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# DPStyler: ソースフリードメイン一般化のための動的PromptStyler

DPStyler: Dynamic PromptStyler for Source-Free Domain Generalization ( http://arxiv.org/abs/2403.16697v1 )

ライセンス: Link先を確認
Yunlong Tang, Yuxuan Wan, Lei Qi, Xin Geng, (参考訳) Source-Free Domain Generalization (SFDG) は、ソースドメインに頼ることなく、未確認のターゲットドメインに対して機能するモデルを開発することを目的としている。 最近の研究であるPromptStylerは、共同視覚言語空間における異なる分布シフトをシミュレートするためにテキストプロンプトを使用している。 しかし、 1) PromptStylerのスタイル生成戦略には制限がある。 これにより、第2のトレーニングフェーズにおけるトレーニングセットは、制限されたスタイルのセットに制限される。 また、 2) PromptStylerの凍結したテキストエンコーダは入力テキストプロンプトのスタイルによってエンコーダの出力が変化するので,モデルがドメイン不変の機能を学ぶのが難しくなる。 本稿では,これらの問題に対処するためのスタイル生成モジュールとスタイル削除モジュールからなる動的プロンプトタイラー(DPStyler)を紹介する。 Style Generationモジュールはすべてのトレーニングエポックですべてのスタイルをリフレッシュするが、Style removalモジュールは入力スタイルに起因するエンコーダの出力機能のバリエーションを取り除く。 さらに、ランダムサンプリングやスタイルミキシングを用いたスタイルワードベクトルの生成に責任を持つスタイル生成モジュールは、入力テキストプロンプトに敏感なモデルを生成するため、この感度を緩和するモデルアンサンブル法を導入する。 大規模な実験により、我々のフレームワークはベンチマークデータセット上で最先端の手法より優れていることが示された。

Source-Free Domain Generalization (SFDG) aims to develop a model that works for unseen target domains without relying on any source domain. Recent work, PromptStyler, employs text prompts to simulate different distribution shifts in the joint vision-language space, allowing the model to generalize effectively to unseen domains without using any images. However, 1) PromptStyler's style generation strategy has limitations, as all style patterns are fixed after the first training phase. This leads to the training set in the second training phase being restricted to a limited set of styles. Additionally, 2) the frozen text encoder in PromptStyler result in the encoder's output varying with the style of the input text prompts, making it difficult for the model to learn domain-invariant features. In this paper, we introduce Dynamic PromptStyler (DPStyler), comprising Style Generation and Style Removal modules to address these issues. The Style Generation module refreshes all styles at every training epoch, while the Style Removal module eliminates variations in the encoder's output features caused by input styles. Moreover, since the Style Generation module, responsible for generating style word vectors using random sampling or style mixing, makes the model sensitive to input text prompts, we introduce a model ensemble method to mitigate this sensitivity. Extensive experiments demonstrate that our framework outperforms state-of-the-art methods on benchmark datasets.
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# ボソンサンプリング強化量子化学

Boson sampling enhanced quantum chemistry ( http://arxiv.org/abs/2403.16698v1 )

ライセンス: Link先を確認
Zhong-Xia Shang, Han-Sen Zhong, Yu-Kun Zhang, Cheng-Cheng Yu, Xiao Yuan, Chao-Yang Lu, Jian-Wei Pan, Ming-Cheng Chen, (参考訳) 本研究では,線形量子光学系のみを用いた分子の電子構造問題の解法として,新しい変分量子アルゴリズムを提案する。 我々が提案した変分アンサッツは、非相互作用ボソン力学と古典的な計算化学法、特にハートリー・フォック法と構成相互作用法のハイブリッドである。 ボソン部は、従来のVQEの量子ゲートからなるよく知られたユニタリカップリングクラスタ(UCC)アンサッツよりも容易に実現可能な線形光干渉計で構築され、古典的な部分はハミルトンに作用する古典的な処理である。 このようなアンサーゼをBoson Sampling-Classic (BS-C) と呼ぶ。 ボソン部分の永久体の出現は、古典的な方法で一般的に用いられる単一、二重、高励起から化学量子状態の探索へのUCCアンサッツまで、様々な種類の資源を提供する物理的な直観を持っている。 このようなリソースは、古典的な部分で使われるメソッドの精度を高めるのに役立つ。 本稿では,光子損失誤差を緩和する本質的な能力を有するエネルギー値を評価するための,スケーラブルなハイブリッドホモダインおよび光子数測定手法を提案し,ボソンズのノー・パウリ排除原理によって引き起こされる余分な測定コストについて検討する。 提案手法を実証するために、いくつかの分子で数値実験を行い、そのポテンシャルエネルギー曲線を化学的精度に到達させる。

In this work, we give a new variational quantum algorithm for solving electronic structure problems of molecules using only linear quantum optical systems. The variational ansatz we proposed is a hybrid of non-interacting Boson dynamics and classical computational chemistry methods, specifically, the Hartree-Fock method and the Configuration Interaction method. The Boson part is built by a linear optical interferometer which is easier to realize compared with the well-known Unitary Coupled Cluster (UCC) ansatz composed of quantum gates in conventional VQE and the classical part is merely classical processing acting on the Hamiltonian. We called such ansatzes Boson Sampling-Classic (BS-C). The appearance of permanents in the Boson part has its physical intuition to provide different kinds of resources from commonly used single-, double-, and higher-excitations in classical methods and the UCC ansatz to exploring chemical quantum states. Such resources can help enhance the accuracy of methods used in the classical parts. We give a scalable hybrid homodyne and photon number measurement procedure for evaluating the energy value which has intrinsic abilities to mitigate photon loss errors and discuss the extra measurement cost induced by the no Pauli exclusion principle for Bosons with its solutions. To demonstrate our proposal, we run numerical experiments on several molecules and obtain their potential energy curves reaching chemical accuracy.
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# 定常状態における無限グラスマン時間進化行列積演算子法

Infinite Grassmann Time-Evolving Matrix Product Operator Method in the Steady State ( http://arxiv.org/abs/2403.16700v1 )

ライセンス: Link先を確認
Chu Guo, Ruofan Chen, (参考訳) 量子不純物問題に対する無限のグラスマン時間進化行列積演算子法を提案する。 この手法は、最近開発されたGTEMPO法で確立された無限行列積状態のアルゴリズムを取り入れており、ノイズをサンプリングすることなく数値的に正確なリアルタイムグリーン関数を得ることができ、符号問題なく任意の温度に適用でき、計算コストは過渡的ダイナミクスとは無関係であり、浴槽数とスケールしない。 本稿では, 有限温度平衡グリーン関数を, 厳密解に対する非干渉極限とGTEMPO計算に対する単軌道アンダーソン不純物モデルでベンチマークする。 また、電圧バイアスを持つ2つの浴槽に結合した不純物の零温度非平衡定常状態について検討し、既存の計算と一貫した粒子電流を得る。 この方法は定常量子輸送の研究に最適であり、動的平均場理論や非平衡拡張のような量子埋め込み法において、効率的なリアルタイム不純物解法として容易に利用することができる。

We present an infinite Grassmann time-evolving matrix product operator method for quantum impurity problems, which directly works in the steady state. The method embraces the well-established infinite matrix product state algorithms with the recently developed GTEMPO method, and benefits from both sides: it obtains numerically exact real-time Green's functions without sampling noises, it is applicable for any temperature without the sign problem, its computational cost is independent of the transient dynamics and does not scale with the number of baths. We benchmark the method on the finite-temperature equilibrium Green's function in the noninteracting limit against exact solutions and in the single-orbital Anderson impurity model against GTEMPO calculations. We also study the zero-temperature non-equilibrium steady state of an impurity coupled to two baths with a voltage bias, obtaining consistent particle currents with existing calculations. The method is ideal for studying steady-state quantum transport, and can be readily used as an efficient real-time impurity solver in quantum embedding methods such as the dynamical mean field theory and its non-equilibrium extension.
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# ProCQA: コード検索のためのデータセットに回答する大規模コミュニティベースのプログラミング質問

ProCQA: A Large-scale Community-based Programming Question Answering Dataset for Code Search ( http://arxiv.org/abs/2403.16702v1 )

ライセンス: Link先を確認
Zehan Li, Jianfei Zhang, Chuantao Yin, Yuanxin Ouyang, Wenge Rong, (参考訳) 検索ベースのコード質問応答は、自然言語のユーザクエリと関連するコードスニペットとを一致させようとする。 従来のアプローチは、テキストとコード表現を整列させるために、造形されたバイモーダルデータセットとユニモーダルデータセットを使用した事前トレーニングモデルに依存していた。 本稿では,StackOverflowコミュニティから抽出した大規模プログラミング質問応答データセットであるProCQAを紹介する。 本手法の有効性を検証するため,既存のコード言語モデルのテキストとコード表現のアライメントを改善するために,モダリティに依存しないコントラスト付き事前学習手法を提案する。 事前学習のためにCodeSearchNetから抽出したバイモーダルペアとアンモダルペアを主に用いた従来のモデルと比較して,本モデルは幅広いコード検索ベンチマークにおいて,大幅な性能向上を示す。

Retrieval-based code question answering seeks to match user queries in natural language to relevant code snippets. Previous approaches typically rely on pretraining models using crafted bi-modal and uni-modal datasets to align text and code representations. In this paper, we introduce ProCQA, a large-scale programming question answering dataset extracted from the StackOverflow community, offering naturally structured mixed-modal QA pairs. To validate its effectiveness, we propose a modality-agnostic contrastive pre-training approach to improve the alignment of text and code representations of current code language models. Compared to previous models that primarily employ bimodal and unimodal pairs extracted from CodeSearchNet for pre-training, our model exhibits significant performance improvements across a wide range of code retrieval benchmarks.
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# Real-Valued Somewhat-Pseudorom Unitary

Real-Valued Somewhat-Pseudorandom Unitaries ( http://arxiv.org/abs/2403.16704v1 )

ライセンス: Link先を確認
Zvika Brakerski, Nir Magrafta, (参考訳) ランダム (二項) 相 - ランダム (二項) 相 - ランダム (二項) 相 - ランダムな計算基底置換。 この分布は、多項式多重性を持つ直交入力状態の任意の多項式集合に対してランダムなハールユニタリと統計的に区別できないことを示す。 これは、実数値ユニタリが完全擬似ランドム(Haug, Bharti, Koh, arXiv:2306.11677)とは言え、実数値ユニタリの単純さを諦めることなくいくつかの擬似ランドム特性を得ることができることを示している。 我々の分析は、ランダムな(二項)位相とランダムな計算基底置換を適用すると、入力が直交し、 \emph{flat}(計算ベースで測定された場合、高い最小エントロピーを持つ)という仮定で十分であることを示している。 量子セキュアな片道関数(つまり量子セキュアな擬似ランダム関数と置換)を用いて、上記の効率的な暗号インスタンス化を得る。

We explore a very simple distribution of unitaries: random (binary) phase -- Hadamard -- random (binary) phase -- random computational-basis permutation. We show that this distribution is statistically indistinguishable from random Haar unitaries for any polynomial set of orthogonal input states (in any basis) with polynomial multiplicity. This shows that even though real-valued unitaries cannot be completely pseudorandom (Haug, Bharti, Koh, arXiv:2306.11677), we can still obtain some pseudorandom properties without giving up on the simplicity of a real-valued unitary. Our analysis shows that an even simpler construction: applying a random (binary) phase followed by a random computational-basis permutation, would suffice, assuming that the input is orthogonal and \emph{flat} (that is, has high min-entropy when measured in the computational basis). Using quantum-secure one-way functions (which imply quantum-secure pseudorandom functions and permutations), we obtain an efficient cryptographic instantiation of the above.
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# ワンショットドメインインクリメンタルラーニング

One-Shot Domain Incremental Learning ( http://arxiv.org/abs/2403.16707v1 )

ライセンス: Link先を確認
Yasushi Esaki, Satoshi Koide, Takuro Kutsuna, (参考訳) ドメインインクリメンタルラーニング(DIL)は、分類のためのディープニューラルネットワークモデルに関する過去の研究で議論されてきた。 DILでは、新しいドメインのサンプルは時間とともに観察されると仮定する。 モデルはすべてのドメインの入力を分類しなければなりません。 しかし、実際には、新しいドメインのサンプルが頻繁にのみ観察されるという制約の下でDILを実行する必要がある場合があります。 そこで本研究では,新しいドメインから1つのサンプルしか持たない極端事例を考察し,これをワンショットDILと呼ぶ。 まず、既存のDILメソッドがワンショットDILではうまく動作しないことを示す。 我々は、様々な調査を通じて、この失敗の理由を分析した。 本分析により, バッチ正規化層におけるDILの難易度は, バッチ正規化層の統計値から生じることが明らかとなった。 そこで本稿では,これらの統計に関する手法を提案し,オープンデータセットを用いた実験を通じて,本手法の有効性を実証する。

Domain incremental learning (DIL) has been discussed in previous studies on deep neural network models for classification. In DIL, we assume that samples on new domains are observed over time. The models must classify inputs on all domains. In practice, however, we may encounter a situation where we need to perform DIL under the constraint that the samples on the new domain are observed only infrequently. Therefore, in this study, we consider the extreme case where we have only one sample from the new domain, which we call one-shot DIL. We first empirically show that existing DIL methods do not work well in one-shot DIL. We have analyzed the reason for this failure through various investigations. According to our analysis, we clarify that the difficulty of one-shot DIL is caused by the statistics in the batch normalization layers. Therefore, we propose a technique regarding these statistics and demonstrate the effectiveness of our technique through experiments on open datasets.
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# マルチレベルモデリングとシミュレーションのためのデザインパターン

Design Patterns for Multilevel Modeling and Simulation ( http://arxiv.org/abs/2403.16713v1 )

ライセンス: Link先を確認
Luca Serena, Moreno Marzolla, Gabriele D'Angelo, Stefano Ferretti, (参考訳) マルチレベルモデリングとシミュレーション(M&S)は、この方法論がもたらす利点により、ますます関連性が高まっている。 マルチレベルモデルは、ユーザが複数のレベルの詳細でシステムを記述することを可能にする。 なぜなら、より詳細で時間を要するモデルは、必要なときにのみ実行できるからです。 一方、マルチレベルモデルは既存のコンポーネントから組み立てることができ、開発と検証/検証時間を短縮できます。 マルチレベルのM&Sの欠点は、サブモデルを相互運用する方法、実行のオーケストレーション方法、スケール変更時の状態変数の更新方法など、マルチレベルのモデルの本質が原因で、開発プロセスがより複雑になることです。 本稿では,多段階モデルの設計と実装のための体系的なアプローチを提供する設計パターンの集合を提示することによって,これらの問題に対処する。 提案されたデザインパターンは、さまざまなレベルの詳細を表現する方法、互換性のないモデルを組み合わせる方法、モデル間でデータを交換する方法など、さまざまな側面をカバーする。 パターンのいくつかは、一般的なソフトウェア工学の文献から派生したものもあれば、マルチレベルM&Sアプリケーション領域に特化しているものもある。

Multilevel modeling and simulation (M&S) is becoming increasingly relevant due to the benefits that this methodology offers. Multilevel models allow users to describe a system at multiple levels of detail. From one side, this can make better use of computational resources, since the more detailed and time-consuming models can be executed only when/where required. From the other side, multilevel models can be assembled from existing components, cutting down development and verification/validation time. A downside of multilevel M&S is that the development process becomes more complex due to some recurrent issues caused by the very nature of multilevel models: how to make sub-models interoperate, how to orchestrate execution, how state variables are to be updated when changing scale, and so on. In this paper, we address some of these issues by presenting a set of design patterns that provide a systematic approach for designing and implementing multilevel models. The proposed design patterns cover multiple aspects, including how to represent different levels of detail, how to combine incompatible models, how to exchange data across models, and so on. Some of the patterns are derived from the general software engineering literature, while others are specific to the multilevel M&S application area.
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# デジタル量子コンピュータによるクリーンな2次元離散時間準結晶の発見

Unveiling clean two-dimensional discrete time quasicrystals on a digital quantum computer ( http://arxiv.org/abs/2403.16718v1 )

ライセンス: Link先を確認
Kazuya Shinjo, Kazuhiro Seki, Tomonori Shirakawa, Rong-Yang Sun, Seiji Yunoki, (参考訳) 周期的に駆動される(フロケ)系では、進化は通常、時間の経過とともに連続的なエネルギー吸収による無限温度の熱状態をもたらす。 しかし、熱平衡に達する前に、これらの系は過渡的に前熱状態と呼ばれる準安定状態を通過することがある。 この予熱状態は、離散時間結晶(DTC)のような平衡で一般的に観測されない現象を示すことができ、非平衡力学を探求するための興味深い基盤となっている。 そこで本研究では,IBM Quantum Heron プロセッサを用いて,周期駆動時の初期生成物状態の緩和ダイナミクスを最大100ドル以上の時間ステップで,重六角格子上に配置された133個の超伝導量子ビットからなるアイシングモデルを用いて検討する。 本研究では,Floquetサイクルの2倍の周期で振動する磁化測定によって特徴づけられる予熱状態の存在を同定し,その逆磁場の摂動に対するロバスト性を示す。 本結果は,2次元システムにおける周期共振DTCの実現を裏付ける証拠となる。 さらに、縦方向磁場は、駆動周期に一致しない周期で磁化の振幅変調を誘導し、離散時間準結晶(DTQC)が出現する。 これらの観測はテンソルネットワークや状態ベクトルシミュレーションとの比較によってさらに検証される。 我々の発見は、2次元のクリーンDTCの理解を深めるだけでなく、量子多体系の力学をシミュレーションするためのデジタル量子コンピュータの有用性を強調し、最先端の古典的シミュレーションが直面する課題に対処する。

In periodically driven (Floquet) systems, evolution typically results in an infinite-temperature thermal state due to continuous energy absorption over time. However, before reaching thermal equilibrium, such systems may transiently pass through a meta-stable state known as a prethermal state. This prethermal state can exhibit phenomena not commonly observed in equilibrium, such as discrete time crystals (DTCs), making it an intriguing platform for exploring out-of-equilibrium dynamics. Here, we investigate the relaxation dynamics of initially prepared product states under periodic driving in a kicked Ising model using the IBM Quantum Heron processor, comprising 133 superconducting qubits arranged on a heavy-hexagonal lattice, over up to $100$ time steps. We identify the presence of a prethermal regime characterised by magnetisation measurements oscillating at twice the period of the Floquet cycle and demonstrate its robustness against perturbations to the transverse field. Our results provide evidence supporting the realisation of a period-doubling DTC in a two-dimensional system. Moreover, we discover that the longitudinal field induces additional amplitude modulations in the magnetisation with a period incommensurate with the driving period, leading to the emergence of discrete time quasicrystals (DTQCs). These observations are further validated through comparison with tensor-network and state-vector simulations. Our findings not only enhance our understanding of clean DTCs in two dimensions but also highlight the utility of digital quantum computers for simulating the dynamics of quantum many-body systems, addressing challenges faced by state-of-the-art classical simulations.
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# 価値に基づく行動と連続主義倫理の形式化に向けて

Towards a Formalisation of Value-based Actions and Consequentialist Ethics ( http://arxiv.org/abs/2403.16719v1 )

ライセンス: Link先を確認
Adam Wyner, Tomasz Zurek, DOrota Stachura-Zurek, (参考訳) エージェントは、彼らの個人的または制度的な価値観とより互換性のある世界の状態をもたらす。 この直観を定式化するために,STRIPSの形式化に基づくアクション・フレームワークを提案する。 技術的には、貢献は価値に基づく形式推論(VFR)の観点で行動を表現するもので、エージェントの値プロファイルから派生した命題のセットと、エージェントのプロファイルに関する命題の評価を提供する。 概念的には、このコントリビューションは、コンシークエンシズム倫理の形式のための計算の枠組みを提供する。

Agents act to bring about a state of the world that is more compatible with their personal or institutional values. To formalise this intuition, the paper proposes an action framework based on the STRIPS formalisation. Technically, the contribution expresses actions in terms of Value-based Formal Reasoning (VFR), which provides a set of propositions derived from an Agent's value profile and the Agent's assessment of propositions with respect to the profile. Conceptually, the contribution provides a computational framework for a form of consequentialist ethics which is satisficing, luralistic, act-based, and preferential.
翻訳日:2024-03-26 14:48:50 公開日:2024-03-25
# Toulouse Hyperspectral Data Set: 半教師付きスペクトル表現学習と画素ワイズ分類技術を評価するベンチマークデータセット

Toulouse Hyperspectral Data Set: a benchmark data set to assess semi-supervised spectral representation learning and pixel-wise classification techniques ( http://arxiv.org/abs/2311.08863v3 )

ライセンス: Link先を確認
Romain Thoreau, Laurent Risser, Véronique Achard, Béatrice Berthelot, Xavier Briottet, (参考訳) 大気中のハイパースペクトル画像は、広いスペクトル領域の非常に高い空間分解能とスペクトル分解能のおかげで、大都市部における土地被覆のマッピングに利用することができる。 超スペクトル画像のスペクトル次元は、陸面の化学組成に非常に有益であるが、最先端の機械学習アルゴリズムを用いてランドカバーをマッピングすることは、トレーニングデータの利用により劇的に制限されている。 アノテーションの不足に対処するため、半監督的かつ自己監督的手法は近年、コミュニティに多くの関心を寄せている。 しかし、機械学習モデルのベンチマークに一般的に使用されるハイパースペクトルデータセットは、地理的範囲(大都市圏のスペクトルの多様性を反映しない)の制限、少数の土地被覆クラス、セミ教師付きおよび自己教師型学習のための適切な標準列車/テストスプリットの欠如など、その一般化性能を評価するのに完全には適していない。 そこで,本論文では,スペクトル表現学習における重要な課題に対処するため,上述の点において他のデータセットから際立つToulouse Hyperspectral Data Setを公開し,画素数が少ない大規模ハイパースペクトル画像に対して,スペクトル表現学習と分類を行う。 さらに,Masked Autoencoderを含むスペクトル表現学習のための自己教師技術について検討し,全体の85%の精度と77%のF1スコアを達成できる画素単位の分類基準を確立する。 Toulouse Hyperspectral Data Setと私たちのコードは、https://www.toulouse-hyperspectral-data-set.comとhttps://www.github.com/Romain3Ch216/tlse-experimentsで公開されています。

Airborne hyperspectral images can be used to map the land cover in large urban areas, thanks to their very high spatial and spectral resolutions on a wide spectral domain. While the spectral dimension of hyperspectral images is highly informative of the chemical composition of the land surface, the use of state-of-the-art machine learning algorithms to map the land cover has been dramatically limited by the availability of training data. To cope with the scarcity of annotations, semi-supervised and self-supervised techniques have lately raised a lot of interest in the community. Yet, the publicly available hyperspectral data sets commonly used to benchmark machine learning models are not totally suited to evaluate their generalization performances due to one or several of the following properties: a limited geographical coverage (which does not reflect the spectral diversity in metropolitan areas), a small number of land cover classes and a lack of appropriate standard train / test splits for semi-supervised and self-supervised learning. Therefore, we release in this paper the Toulouse Hyperspectral Data Set that stands out from other data sets in the above-mentioned respects in order to meet key issues in spectral representation learning and classification over large-scale hyperspectral images with very few labeled pixels. Besides, we discuss and experiment self-supervised techniques for spectral representation learning, including the Masked Autoencoder, and establish a baseline for pixel-wise classification achieving 85% overall accuracy and 77% F1 score. The Toulouse Hyperspectral Data Set and our code are publicly available at https://www.toulouse-hyperspectral-data-set.com and https://www.github.com/Romain3Ch216/tlse-experiments, respectively.
翻訳日:2024-03-26 10:58:39 公開日:2024-03-25
# VURF:ビデオ理解のための汎用推論・自己組織化フレームワーク

VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding ( http://arxiv.org/abs/2403.14743v2 )

ライセンス: Link先を確認
Ahmad Mahmood, Ashmal Vayani, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, (参考訳) 近年の研究では、複雑なタスクをより管理可能なサブタスクに分解可能な推論モジュールとして、特に画像の視覚的推論タスクに適用する場合に、LLM(Large Language Models)の有効性が実証されている。 これとは対照的に,LLMの推論能力に基づいたビデオ理解・推論フレームワーク(VURF)を提案する。 ビデオタスクのコンテキストにおいてLLMの実用性を拡張し,最小限のインプットとアウトプットのデモをコンテキストフレームワーク内で一般化する,新たなアプローチを提案する。 LLMを命令のペアとそれに対応する高レベルプログラムで提示することにより、その文脈学習能力を利用して、映像理解のための実行可能なビジュアルプログラムを生成する。 プログラムの精度と堅牢性を高めるために,我々は2つの重要な戦略を実装した。 まず,GPT-3.5を用いたフィードバック生成手法を用いて,非サポート機能を利用したプログラムの誤りの修正を行う。 第2に,LLM出力の自己改善に関する最近の研究からモチベーションを得て,初期出力を生成すべき出力に整列させることにより,インコンテキストの例の構造に縛られなければ,インコンテキストの例の質を向上させるための反復的手順を導入する。 視覚的QA, 映像予測, ポーズ推定, マルチビデオQAなど, 映像に特有なタスクについて検討した。

Recent studies have demonstrated the effectiveness of Large Language Models (LLMs) as reasoning modules that can deconstruct complex tasks into more manageable sub-tasks, particularly when applied to visual reasoning tasks for images. In contrast, this paper introduces a Video Understanding and Reasoning Framework (VURF) based on the reasoning power of LLMs. Ours is a novel approach to extend the utility of LLMs in the context of video tasks, leveraging their capacity to generalize from minimal input and output demonstrations within a contextual framework. By presenting LLMs with pairs of instructions and their corresponding high-level programs, we harness their contextual learning capabilities to generate executable visual programs for video understanding. To enhance program's accuracy and robustness, we implement two important strategies. Firstly, we employ a feedback-generation approach, powered by GPT-3.5, to rectify errors in programs utilizing unsupported functions. Secondly, taking motivation from recent works on self refinement of LLM outputs, we introduce an iterative procedure for improving the quality of the in-context examples by aligning the initial outputs to the outputs that would have been generated had the LLM not been bound by the structure of the in-context examples. Our results on several video-specific tasks, including visual QA, video anticipation, pose estimation and multi-video QA illustrate the efficacy of these enhancements in improving the performance of visual programming approaches for video tasks.
翻訳日:2024-03-26 10:51:37 公開日:2024-03-25
# Cartoon Hallucinations Detection:コンテキスト学習におけるPose-Aware

Cartoon Hallucinations Detection: Pose-aware In Context Visual Learning ( http://arxiv.org/abs/2403.15048v2 )

ライセンス: Link先を確認
Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Sanghyun Seo, (参考訳) 大規模テキスト・トゥ・イメージ(TTI)モデルは、様々な生成分野のトレーニングデータを生成する一般的なアプローチとなっている。 しかし、視覚的な幻覚は知覚的に批判的な欠陥を含んでいるが、特に漫画のキャラクターのような非フォトリアリスティックなスタイルでは特に懸念されている。 TTIモデルにより生成された漫画の文字画像に対する新しい視覚幻覚検出システムを提案する。 提案手法は,視覚言語モデル (VLM) を用いたポーズ認識型インコンテキスト・ビジュアル・ラーニング (PA-ICVL) を活用し,RGB画像とポーズ情報の両方を活用する。 微調整されたポーズ推定器からポーズガイダンスを組み込むことで、VLMがより正確な決定を下すことができる。 実験の結果,RGB画像のみに依存したベースライン法に比べて視覚幻覚の同定が有意に改善した。 この研究は、視覚幻覚を緩和し、非フォトリアリスティック領域におけるその可能性を広げることで、TTIモデルを前進させる。

Large-scale Text-to-Image (TTI) models have become a common approach for generating training data in various generative fields. However, visual hallucinations, which contain perceptually critical defects, remain a concern, especially in non-photorealistic styles like cartoon characters. We propose a novel visual hallucination detection system for cartoon character images generated by TTI models. Our approach leverages pose-aware in-context visual learning (PA-ICVL) with Vision-Language Models (VLMs), utilizing both RGB images and pose information. By incorporating pose guidance from a fine-tuned pose estimator, we enable VLMs to make more accurate decisions. Experimental results demonstrate significant improvements in identifying visual hallucinations compared to baseline methods relying solely on RGB images. This research advances TTI models by mitigating visual hallucinations, expanding their potential in non-photorealistic domains.
翻訳日:2024-03-26 10:51:37 公開日:2024-03-25
# 細胞変動情報ボトルネックネットワーク

Cell Variational Information Bottleneck Network ( http://arxiv.org/abs/2403.15082v2 )

ライセンス: Link先を確認
Zhonghua Zhai, Chen Ju, Jinsong Lan, Shuai Xiao, (参考訳) 本研究では,情報ボトルネック機構を用いた畳み込みニューラルネットワークであるCell Variational Information Bottleneck Network (cellVIB)を提案する。 我々のセル変動情報ボトルネックネットワークは、不確実性のある特徴マップを生成するVIBセルを積み重ねて構築されている。 層が深くなるにつれて、Deep VIBのように、モデルの出力層に直接過剰な規則的な制約を加えるのではなく、正規化効果が徐々に増加します。 各VIBセルでは、フィードフォワードプロセスは独立平均項と標準偏差項を学習し、それらに基づいてガウス分布を予測する。 フィードバックプロセスは、効果的なトレーニングのためのパラメータ化トリックに基づいている。 この研究は、各VIB細胞の有効性を検証するためにMNISTデータセットを広範囲に分析し、VIB細胞が相互情報にどのように影響するかについての洞察に富んだ分析を提供する。 CIFAR-10で行った実験では、我々の細胞VIBはトレーニング中のノイズラベルや検査中の劣化画像に対して堅牢であることが示された。 そして,本手法をPACSデータセット上で検証した結果,VIBセルが基本モデルの一般化性能を大幅に向上できることが示された。 最後に、より複雑な表現学習タスクである顔認識において、我々のネットワーク構造も非常に競争力のある結果を得た。

In this work, we propose Cell Variational Information Bottleneck Network (cellVIB), a convolutional neural network using information bottleneck mechanism, which can be combined with the latest feedforward network architecture in an end-to-end training method. Our Cell Variational Information Bottleneck Network is constructed by stacking VIB cells, which generate feature maps with uncertainty. As layers going deeper, the regularization effect will gradually increase, instead of directly adding excessive regular constraints to the output layer of the model as in Deep VIB. Under each VIB cell, the feedforward process learns an independent mean term and an standard deviation term, and predicts the Gaussian distribution based on them. The feedback process is based on reparameterization trick for effective training. This work performs an extensive analysis on MNIST dataset to verify the effectiveness of each VIB cells, and provides an insightful analysis on how the VIB cells affect mutual information. Experiments conducted on CIFAR-10 also prove that our cellVIB is robust against noisy labels during training and against corrupted images during testing. Then, we validate our method on PACS dataset, whose results show that the VIB cells can significantly improve the generalization performance of the basic model. Finally, in a more complex representation learning task, face recognition, our network structure has also achieved very competitive results.
翻訳日:2024-03-26 10:51:37 公開日:2024-03-25
# 画像透かしへの移動攻撃

A Transfer Attack to Image Watermarks ( http://arxiv.org/abs/2403.15365v2 )

ライセンス: Link先を確認
Yuepeng Hu, Zhengyuan Jiang, Moyang Guo, Neil Gong, (参考訳) Watermarkは、AI生成画像を検出するために、業界によって広くデプロイされている。 ホワイトボックスやブラックボックスの設定における回避攻撃に対するウォーターマークベースの検出器の堅牢性は文献でよく理解されている。 しかし、no-box設定の堅牢性はあまり理解されていない。 特に、複数の研究は、画像透かしはそのような環境では堅牢であると主張した。 本研究では,Non-box設定における画像透かしに対する新しい転送回避攻撃を提案する。 我々の転送攻撃は、攻撃者自身が訓練した複数のサロゲート透かしモデルを回避するために透かし画像に摂動を加え、摂動透かし画像も目標透かしモデルを回避する。 我々の主な貢献は、理論的にも経験的にも、透かしベースのAI生成画像検出器は、攻撃者が透かしモデルや検出APIにアクセスできない場合でも、回避攻撃に対して堅牢ではないことを示すことである。

Watermark has been widely deployed by industry to detect AI-generated images. The robustness of such watermark-based detector against evasion attacks in the white-box and black-box settings is well understood in the literature. However, the robustness in the no-box setting is much less understood. In particular, multiple studies claimed that image watermark is robust in such setting. In this work, we propose a new transfer evasion attack to image watermark in the no-box setting. Our transfer attack adds a perturbation to a watermarked image to evade multiple surrogate watermarking models trained by the attacker itself, and the perturbed watermarked image also evades the target watermarking model. Our major contribution is to show that, both theoretically and empirically, watermark-based AI-generated image detector is not robust to evasion attacks even if the attacker does not have access to the watermarking model nor the detection API.
翻訳日:2024-03-26 10:51:37 公開日:2024-03-25