このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240811となっている論文です。

PDF登録状況(公開日: 20240811)

TitleAuthorsAbstract論文公表日・翻訳日
# データレイクにおけるデータモデリングのための形式的概念解析の爆発的展開

Exploiting Formal Concept Analysis for Data Modeling in Data Lakes ( http://arxiv.org/abs/2408.13265v1 )

ライセンス: Link先を確認
Anes Bendimerad, Romain Mathonat, Youcef Remil, Mehdi Kaytoue, (参考訳) データレイクは、高度な分析のために広範囲で異質なデータセットを保存するために広く使用されている。 しかし、これらのリポジトリにおけるデータの非構造化の性質は、それらを悪用し、意味のある洞察を抽出する複雑さをもたらす。 これは、データレイクの統合と共通かつ統一されたスキーマの導出のための効率的なアプローチを探求する必要性を動機付けている。 本稿では,データレイク内のデータ構造を体系的に整理し,整理し,設計するために,FCA(Formal Concept Analysis)に根ざした実用的なデータ可視化分析手法を提案する。 Infologicalでは,InfluxDB測定やElasticsearchインデックスなど,データレイクに格納されているさまざまなデータ構造を調査し,よりアクセスしやすいデータモデルのための規約の導出を目指しています。 FCAを利用することで、データ構造をオブジェクトとして表現し、概念格子を分析し、これらの構造を統一し共通のスキーマを確立するために、トップダウンとボトムアップの2つの戦略を提示します。 提案手法は,データ構造における共通概念,例えばリソースと,その基盤となる共有フィールド(タイムスタンプ,型,useRatioなど)の識別を可能にする。 さらに,本研究データレイクのサブセットにおいて,異なるデータ構造体の名称を54%(190から88まで)削減した。 我々は、34の異なるフィールド名を持つデータ構造の80%を網羅し、そのようなカバー範囲に達するために必要な最初の121フィールド名から大幅に改善した。 本論文は, 生態系, 問題定式化, 探索戦略に関する知見を提供し, 質的および定量的な結果を提示する。

Data lakes are widely used to store extensive and heterogeneous datasets for advanced analytics. However, the unstructured nature of data in these repositories introduces complexities in exploiting them and extracting meaningful insights. This motivates the need of exploring efficient approaches for consolidating data lakes and deriving a common and unified schema. This paper introduces a practical data visualization and analysis approach rooted in Formal Concept Analysis (FCA) to systematically clean, organize, and design data structures within a data lake. We explore diverse data structures stored in our data lake at Infologic, including InfluxDB measurements and Elasticsearch indexes, aiming to derive conventions for a more accessible data model. Leveraging FCA, we represent data structures as objects, analyze the concept lattice, and present two strategies-top-down and bottom-up-to unify these structures and establish a common schema. Our methodology yields significant results, enabling the identification of common concepts in the data structures, such as resources along with their underlying shared fields (timestamp, type, usedRatio, etc.). Moreover, the number of distinct data structure field names is reduced by 54 percent (from 190 to 88) in the studied subset of our data lake. We achieve a complete coverage of 80 percent of data structures with only 34 distinct field names, a significant improvement from the initial 121 field names that were needed to reach such coverage. The paper provides insights into the Infologic ecosystem, problem formulation, exploration strategies, and presents both qualitative and quantitative results.
翻訳日:2024-09-01 17:02:13 公開日:2024-08-11
# GPT-4は3人称視点から平均的人間感情認知をエミュレートする

GPT-4 Emulates Average-Human Emotional Cognition from a Third-Person Perspective ( http://arxiv.org/abs/2408.13718v1 )

ライセンス: Link先を確認
Ala N. Tak, Jonathan Gratch, (参考訳) 本稿では,Large Language Models (LLMs) の感情的推論能力に関する最近の研究を拡張した。 LLMの現在の研究は、LLMが感情の自己帰属を予測する方法と他者の感情の知覚とを直接的に評価していない。 まず最初に、神経活動のパターンを見つけるために設計された感情誘発刺激を慎重に作ってみます。 以上の結果から, GPT-4は特に精度が高いことが示唆された。 このことは、LCMは、イディオシントラティックな状況における感情の自己帰属よりも明らかに、ステレオタイプなシナリオにおける人間の他者の感情への帰属と一致することを示唆している。 これをさらに調査するため,著者と第三者の両方からのアノテーションを含むデータセットを用いた第2回研究を行った。 GPT-4の解釈は,自己評価よりも,他者の感情に対する人間の判断と密接に一致していることがわかった。 特に、従来の感情の計算モデルは、主に金の標準として自己報告された真実に依存している。 しかし、LLMが採用したと思われる平均的なオブザーバーの視点は、少なくとも個々の情報や適切な安全上の配慮が欠如している場合、多くの下流アプリケーションにとってより重要かもしれない。

This paper extends recent investigations on the emotional reasoning abilities of Large Language Models (LLMs). Current research on LLMs has not directly evaluated the distinction between how LLMs predict the self-attribution of emotions and the perception of others' emotions. We first look at carefully crafted emotion-evoking stimuli, originally designed to find patterns of brain neural activity representing fine-grained inferred emotional attributions of others. We show that GPT-4 is especially accurate in reasoning about such stimuli. This suggests LLMs agree with humans' attributions of others' emotions in stereotypical scenarios remarkably more than self-attributions of emotions in idiosyncratic situations. To further explore this, our second study utilizes a dataset containing annotations from both the author and a third-person perspective. We find that GPT-4's interpretations align more closely with human judgments about the emotions of others than with self-assessments. Notably, conventional computational models of emotion primarily rely on self-reported ground truth as the gold standard. However, an average observer's standpoint, which LLMs appear to have adopted, might be more relevant for many downstream applications, at least in the absence of individual information and adequate safety considerations.
翻訳日:2024-09-01 16:52:18 公開日:2024-08-11
# S4DL:ハイパースペクトル画像教師なし領域適応のためのシフト型空間スペクトル遠距離学習

S4DL: Shift-sensitive Spatial-Spectral Disentangling Learning for Hyperspectral Image Unsupervised Domain Adaptation ( http://arxiv.org/abs/2408.15263v1 )

ライセンス: Link先を確認
Jie Feng, Tianshu Zhang, Junpeng Zhang, Ronghua Shang, Weisheng Dong, Guangming Shi, Licheng Jiao, (参考訳) ハイパースペクトル画像(HSI)分類において広く研究されている教師なし領域適応技術は、ラベル付きソースドメインデータとラベルなしターゲットドメインデータを用いて、クロスシーン分類のためのドメイン不変性を学ぶことを目的としている。 自然画像と比較すると、多くのHSIのスペクトルバンドは豊富な意味情報を提供するが、ドメインシフトを著しく増加させる。 既存のほとんどの手法では、明示的なアライメントと暗黙的なアライメントは、単純に特徴分布をアライメントし、スペクトル内のドメイン情報を無視する。 我々は、ソース領域とターゲット領域のスペクトルチャネルが明らかに区別されている場合、これらの手法の転送性能は低下する傾向にあることを指摘した。 さらに、さまざまなデータセットにまたがるさまざまなドメインシフトにより、パフォーマンスが大きく変動する。 これらの問題に対処するために、新しいシフトセンシティブな空間スペクトル遠距離学習(S4DL)手法を提案する。 S4DLにおいて、勾配誘導型空間スペクトル分解は、領域分類から勾配の誘導の下で調整マスクを生成することにより、ドメイン固有の領域不変表現とドメイン不変表現を分離するように設計されている。 シフト感度適応モニタは、ドメインシフトの大きさに応じてアンタングルの強度を調整するために定義される。 さらに、セマンティックなだけでなく、浅いレベルの詳細な情報にも属するドメイン情報を保持するために、可逆ニューラルネットワークを構築する。 S4DL が最先端 UDA 法より優れていると断続的に検証した。 ソースコードはhttps://github.com/xdu-jjgs/S4DLで公開されます。

Unsupervised domain adaptation techniques, extensively studied in hyperspectral image (HSI) classification, aim to use labeled source domain data and unlabeled target domain data to learn domain invariant features for cross-scene classification. Compared to natural images, numerous spectral bands of HSIs provide abundant semantic information, but they also increase the domain shift significantly. In most existing methods, both explicit alignment and implicit alignment simply align feature distribution, ignoring domain information in the spectrum. We noted that when the spectral channel between source and target domains is distinguished obviously, the transfer performance of these methods tends to deteriorate. Additionally, their performance fluctuates greatly owing to the varying domain shifts across various datasets. To address these problems, a novel shift-sensitive spatial-spectral disentangling learning (S4DL) approach is proposed. In S4DL, gradient-guided spatial-spectral decomposition is designed to separate domain-specific and domain-invariant representations by generating tailored masks under the guidance of the gradient from domain classification. A shift-sensitive adaptive monitor is defined to adjust the intensity of disentangling according to the magnitude of domain shift. Furthermore, a reversible neural network is constructed to retain domain information that lies in not only in semantic but also the shallow-level detailed information. Extensive experimental results on several cross-scene HSI datasets consistently verified that S4DL is better than the state-of-the-art UDA methods. Our source code will be available at https://github.com/xdu-jjgs/S4DL.
翻訳日:2024-09-01 16:42:01 公開日:2024-08-11
# 改良された補助分類のためのマルチタスクファインチューニングと生成逆学習

Multitask Fine-Tuning and Generative Adversarial Learning for Improved Auxiliary Classification ( http://arxiv.org/abs/2408.15265v1 )

ライセンス: Link先を確認
Christopher Sun, Abishek Satish, (参考訳) 本研究では、感情分類、パラフレーズ検出、意味的テキスト類似性予測という3つの下流タスクをマルチタスクで微調整するための新しいBERTアーキテクチャを実装した。 我々のモデルであるMultitask BERTは、レイヤ共有とトリプルトアーキテクチャ、カスタム文ペアトークン化、損失ペアリング、勾配手術を取り入れています。 このような最適化により、テストデータに対する0.516の感情分類精度、0.886のパラフェーズ検出精度、0.864のセマンティックテキスト類似性相関が得られる。 また、BERTに対して生成的逆数学習を適用し、潜在空間から写像して$\mathbb{R}^{768}$で偽の埋め込みを生成する条件生成モデルを構築する。 これらの偽の埋め込みは、実際のBERT埋め込みと連結され、補助分類のための識別器モデルに渡される。 本稿では,AC-GAN-BERTと呼ぶこのフレームワークを用いて,AC-GAN-BERTの試験精度に及ぼすラベルなしトレーニングデータの増加の影響を半教師付き感度解析により検討する。 全体として、高性能なマルチタスク分類システムの実装は別として、BERTを模倣するジェネレータを構築するための逆学習の適用が新規である。 条件付きジェネレータは,クラスラベルと明確な空間相関を持つリッチな埋め込みを実現し,モード崩壊の回避を実証する。 本研究は, GAN-BERT法を検証し, ジェネレータによる知識蒸留の今後の方向性を示唆するものである。

In this study, we implement a novel BERT architecture for multitask fine-tuning on three downstream tasks: sentiment classification, paraphrase detection, and semantic textual similarity prediction. Our model, Multitask BERT, incorporates layer sharing and a triplet architecture, custom sentence pair tokenization, loss pairing, and gradient surgery. Such optimizations yield a 0.516 sentiment classification accuracy, 0.886 paraphase detection accuracy, and 0.864 semantic textual similarity correlation on test data. We also apply generative adversarial learning to BERT, constructing a conditional generator model that maps from latent space to create fake embeddings in $\mathbb{R}^{768}$. These fake embeddings are concatenated with real BERT embeddings and passed into a discriminator model for auxiliary classification. Using this framework, which we refer to as AC-GAN-BERT, we conduct semi-supervised sensitivity analyses to investigate the effect of increasing amounts of unlabeled training data on AC-GAN-BERT's test accuracy. Overall, aside from implementing a high-performing multitask classification system, our novelty lies in the application of adversarial learning to construct a generator that mimics BERT. We find that the conditional generator successfully produces rich embeddings with clear spatial correlation with class labels, demonstrating avoidance of mode collapse. Our findings validate the GAN-BERT approach and point to future directions of generator-aided knowledge distillation.
翻訳日:2024-09-01 16:42:01 公開日:2024-08-11
# 精度が低いにもかかわらず、AIが生成した医療反応を信頼し、医師と同じくらい有効であると見なす人々

People over trust AI-generated medical responses and view them to be as valid as doctors, despite low accuracy ( http://arxiv.org/abs/2408.15266v1 )

ライセンス: Link先を確認
Shruthi Shekar, Pat Pataranutaporn, Chethan Sarabu, Guillermo A. Cecchi, Pattie Maes, (参考訳) 本稿では,AIによる医療反応の認識と,非専門家による評価を包括的に分析する。 合計300人の被験者が、オンライン医療プラットフォーム上で医師によって書かれたか、あるいは大きな言語モデルによって生成され、医師が高い精度または低い精度で評価した。 その結果、参加者はAI生成反応と医師の反応を効果的に区別することができず、AI生成反応の嗜好を示し、AI生成反応をより正確で信頼性があり、満足度が高いと評価した。 低精度のAI生成レスポンスは、医師のレスポンスと非常によく似ているが、それ以上ではない。 参加者は、これらの低精度のAI生成応答が有効で、信頼性があり、完全な/満足であるだけでなく、潜在的に有害な医療アドバイスに従う傾向を示し、提供された応答の結果、不適切な医療的注意を誤って求める傾向を示した。 この問題に対する反応は、医師の反応に対して提示された反応と同等であった。 この不正確または不適切なAI生成医療アドバイスに対する信頼の高まりは、助けを求める個人に対して誤った診断と有害な結果をもたらす可能性がある。 さらに、被験者は医師から与えられたと告げられたとき、AIが生成するレスポンスをより信頼しており、専門家は、応答のソースが不明な場合には、AIが生成するレスポンスがかなり高いと評価した。 専門家も非専門家も偏見を示し、AIが生成した反応は医師の反応よりも徹底的かつ正確であることがわかったが、それでも医師が医師のアドバイスを届ける際の関与を評価していた。 AIシステムが医療専門家によって実装されることを保証することは、医療アドバイスの配信にAIを使用する未来であるべきです。

This paper presents a comprehensive analysis of how AI-generated medical responses are perceived and evaluated by non-experts. A total of 300 participants gave evaluations for medical responses that were either written by a medical doctor on an online healthcare platform, or generated by a large language model and labeled by physicians as having high or low accuracy. Results showed that participants could not effectively distinguish between AI-generated and Doctors' responses and demonstrated a preference for AI-generated responses, rating High Accuracy AI-generated responses as significantly more valid, trustworthy, and complete/satisfactory. Low Accuracy AI-generated responses on average performed very similar to Doctors' responses, if not more. Participants not only found these low-accuracy AI-generated responses to be valid, trustworthy, and complete/satisfactory but also indicated a high tendency to follow the potentially harmful medical advice and incorrectly seek unnecessary medical attention as a result of the response provided. This problematic reaction was comparable if not more to the reaction they displayed towards doctors' responses. This increased trust placed on inaccurate or inappropriate AI-generated medical advice can lead to misdiagnosis and harmful consequences for individuals seeking help. Further, participants were more trusting of High Accuracy AI-generated responses when told they were given by a doctor and experts rated AI-generated responses significantly higher when the source of the response was unknown. Both experts and non-experts exhibited bias, finding AI-generated responses to be more thorough and accurate than Doctors' responses but still valuing the involvement of a Doctor in the delivery of their medical advice. Ensuring AI systems are implemented with medical professionals should be the future of using AI for the delivery of medical advice.
翻訳日:2024-09-01 16:42:01 公開日:2024-08-11
# Kov:マルコフ決定過程と木探索を用いた移動可能で自然なブラックボックスLDM攻撃

Kov: Transferable and Naturalistic Black-Box LLM Attacks using Markov Decision Processes and Tree Search ( http://arxiv.org/abs/2408.08899v1 )

ライセンス: Link先を確認
Robert J. Moss, (参考訳) 大規模言語モデル(LLM)から有害な振る舞いを緩和することは、モデルの適切なアライメントと安全性を確保するための重要なタスクである。 LLMをトレーニングする場合、倫理的ガイドラインが従うことも多いが、アライメントの失敗は、レッドチームによる敵攻撃によって発見される可能性がある。 この研究は、マルコフ決定過程(MDP)として赤チームの問題を枠組み化し、モンテカルロ木探索を用いてブラックボックス、クローズドソース LLM の有害な挙動を発見する。 トークンレベルのプロンプト接尾辞を、ホワイトボックスLLM上での有害な動作に最適化し、より優れた解釈性を得るために、より自然な言語攻撃を生成するために、自然主義的な損失項、対数パープレクティリティを含む。 提案アルゴリズムであるKovは、敵の攻撃を最適化し、ブラックボックスのLSMからの応答を定期的に評価し、より有害なブラックボックス行動への探索を誘導する。 予備研究では,GPT-3.5のようなブラックボックスモデルを10クエリでジェイルブレイクできるが,GPT-4$-$でフェールすることは,新しいモデルの方がトークンレベルの攻撃に対してより堅牢であることを示している。 これらの結果を再現する作業はすべてオープンソースである(https://github.com/sisl/Kov.jl)。

Eliciting harmful behavior from large language models (LLMs) is an important task to ensure the proper alignment and safety of the models. Often when training LLMs, ethical guidelines are followed yet alignment failures may still be uncovered through red teaming adversarial attacks. This work frames the red-teaming problem as a Markov decision process (MDP) and uses Monte Carlo tree search to find harmful behaviors of black-box, closed-source LLMs. We optimize token-level prompt suffixes towards targeted harmful behaviors on white-box LLMs and include a naturalistic loss term, log-perplexity, to generate more natural language attacks for better interpretability. The proposed algorithm, Kov, trains on white-box LLMs to optimize the adversarial attacks and periodically evaluates responses from the black-box LLM to guide the search towards more harmful black-box behaviors. In our preliminary study, results indicate that we can jailbreak black-box models, such as GPT-3.5, in only 10 queries, yet fail on GPT-4$-$which may indicate that newer models are more robust to token-level attacks. All work to reproduce these results is open sourced (https://github.com/sisl/Kov.jl).
翻訳日:2024-08-25 14:21:10 公開日:2024-08-11
# 二重間隔による訓練後スパース注意

Post-Training Sparse Attention with Double Sparsity ( http://arxiv.org/abs/2408.07092v1 )

ライセンス: Link先を確認
Shuo Yang, Ying Sheng, Joseph E. Gonzalez, Ion Stoica, Lianmin Zheng, (参考訳) 大きな言語モデルの推論プロセスは遅く、メモリ集約的であり、最も重要なボトルネックの1つはキーバリュー(KV)キャッシュアクセス過剰である。 本稿では,KVキャッシュアクセスを削減し,このボトルネックを軽減するために設計された,新しい訓練後スパースアテンション技術である「ダブルスパシティ」を紹介する。 Double Sparsityは、自己アテンションを計算するための重要なトークンのみを活用するトークンのスペシャリティと、重要なトークンを識別するための重要な機能チャネルを使用するチャネルのスペシャリティを組み合わせたものだ。 私たちの重要な洞察は、チャネル空間のパターンは比較的静的であり、オフラインキャリブレーションを使用して実行時に効率良くし、重要なトークンの正確かつ効率的な識別を可能にします。 さらに、この手法をオフロードと組み合わせることで、メモリ使用量を大幅に削減することができる。 Llama-2-7B, Llama-2-70B, Mixtral-8x7B などのモデルを用いて, wiki-2 の難易度, キー値検索, 長期文脈ベンチマークなど, 各種タスクの精度に最小限の影響を伴って, ダブルスパシティは \(\frac{1}{16}\) トークンとチャネルスパシティを達成できることが実験的に証明された。 注意操作の14.1$\times$アクセラレーションとGPUのエンドツーエンド推論の1.9$\times$改善をもたらす。 オフローディングにより、16.3$\times$のデコード速度を、256Kのシークエンス長の最先端のソリューションと比較して達成する。 私たちのコードは、 \url{https://github.com/andy-yang-1/DoubleSparse}で公開されています。

The inference process for large language models is slow and memory-intensive, with one of the most critical bottlenecks being excessive Key-Value (KV) cache accesses. This paper introduces "Double Sparsity," a novel post-training sparse attention technique designed to alleviate this bottleneck by reducing KV cache access. Double Sparsity combines token sparsity, which focuses on utilizing only the important tokens for computing self-attention, with channel sparsity, an approach that uses important feature channels for identifying important tokens. Our key insight is that the pattern of channel sparsity is relatively static, allowing us to use offline calibration to make it efficient at runtime, thereby enabling accurate and efficient identification of important tokens. Moreover, this method can be combined with offloading to achieve significant memory usage reduction. Experimental results demonstrate that Double Sparsity can achieve \(\frac{1}{16}\) token and channel sparsity with minimal impact on accuracy across various tasks, including wiki-2 perplexity, key-value retrieval, and long context benchmarks with models including Llama-2-7B, Llama-2-70B, and Mixtral-8x7B. It brings up to a 14.1$\times$ acceleration in attention operations and a 1.9$\times$ improvement in end-to-end inference on GPUs. With offloading, it achieves a decoding speed acceleration of 16.3$\times$ compared to state-of-the-art solutions at a sequence length of 256K. Our code is publicly available at \url{https://github.com/andy-yang-1/DoubleSparse}.
翻訳日:2024-08-15 15:07:25 公開日:2024-08-11
# 極小ラクナリティのポリアディックカントールポテンシャル:超周期一般化カントールポテンシャルの特別な例

Polyadic Cantor potential of minimum lacunarity: Special case of super periodic generalized unified Cantor potential ( http://arxiv.org/abs/2405.11617v2 )

ライセンス: Link先を確認
Mohammad Umar, Mohammad Hasan, Vibhav Narayan Singh, Bhabani Prasad Mandal, (参考訳) フラクタルポテンシャルと非フラクタルポテンシャルをブリッジするために、一般化統一カントールポテンシャル(GUCP)の概念を、ステージ$S=1$のポテンシャルカウントを表すキーパラメータ$N$で導入する。 このシステムの特徴は、合計$L$、ステージ$S$、スケーリングパラメータ$\rho$、および2つの実数$\mu$と$\nu$である。 特に、極小ラクナリティを持つポリアディックカントールポテンシャル(PCP)システムは、GUCPパラダイムの特定の例である。 超周期ポテンシャル(SPP)形式を用いて、$q$-Pochhammerシンボルを用いて送信確率$T_{S}(k, N)$の閉形式表現を定式化し、このポテンシャル構成による非相対論的量子トンネルの特性について検討した。 本稿では,従来の量子システムと異なり,GUCP系は鋭い伝送共鳴を示すことを示す。 解析により,進行段階のS$による伝達プロファイルの飽和が明らかとなり,解析的導出による反射確率と波動ベクトル$k$のスケーリング関係が著しく確立された。

To bridge the fractal and non-fractal potentials we introduce the concept of generalized unified Cantor potential (GUCP) with the key parameter $N$ which represents the potential count at the stage $S=1$. This system is characterized by total span $L$, stages $S$, scaling parameter $\rho$ and two real numbers $\mu$ and $\nu$. Notably, the polyadic Cantor potential (PCP) system with minimal lacunarity is a specific instance within the GUCP paradigm. Employing the super periodic potential (SPP) formalism, we formulated a closed-form expression for transmission probability $T_{S}(k, N)$ using the $q$-Pochhammer symbol and investigated the features of non-relativistic quantum tunneling through this potential configuration. We show that GUCP system exhibits sharp transmission resonances, differing from traditional quantum systems. Our analysis reveals saturation in the transmission profile with evolving stages $S$ and establishes a significant scaling relationship between reflection probability and wave vector $k$ through analytical derivations.
翻訳日:2024-08-14 22:15:08 公開日:2024-08-11
# インメモリコンピューティングのための近似ADC

Approximate ADCs for In-Memory Computing ( http://arxiv.org/abs/2408.06390v1 )

ライセンス: Link先を確認
Arkapravo Ghosh, Hemkar Reddy Sadana, Mukut Debnath, Panthadip Maji, Shubham Negi, Sumeet Gupta, Mrigank Sharad, Kaushik Roy, (参考訳) 深層学習(DL)アクセラレーターのためのメモリコンピューティング(IMC)アーキテクチャでは、メモリアレイに直接実装されたエネルギー効率と高並列行列ベクトル乗算(MVM)演算を利用する。 IMCの設計はCMOSとRRAMのような新しい非揮発性メモリ(NVM)技術に基づいて研究されている。 IMCアーキテクチャは一般に、メモリアレイからなる多数のコアを含み、DLモデルのトレーニングされた重みを格納する。 DACやADCのような周辺ユニットは、入力を適用して出力値を読み出すためにも使われる。 最近報告された設計では、MVM結果を読み取るのに必要なADCが計算能力の85%以上を消費し、またその領域を支配しており、IMC方式の利点を浮き彫りにしている。 ADCにおける欠陥の軽減、すなわち非線形性やバリエーションは、専用の校正ユニットのために重大な設計上のオーバーヘッドを引き起こした。 本研究では,ICCコアの周辺認識設計を行い,そのオーバーヘッドを軽減する。 ADCの非理想性をDLモデルのトレーニングとメモリユニットのトレーニングに組み込む。 提案手法は、近年実証されているチャージモードMVM操作と同様に、現在のモードにも当てはまる。 また、混合信号MCユニットの設計を大幅に単純化することができる。

In memory computing (IMC) architectures for deep learning (DL) accelerators leverage energy-efficient and highly parallel matrix vector multiplication (MVM) operations, implemented directly in memory arrays. Such IMC designs have been explored based on CMOS as well as emerging non-volatile memory (NVM) technologies like RRAM. IMC architectures generally involve a large number of cores consisting of memory arrays, storing the trained weights of the DL model. Peripheral units like DACs and ADCs are also used for applying inputs and reading out the output values. Recently reported designs reveal that the ADCs required for reading out the MVM results, consume more than 85% of the total compute power and also dominate the area, thereby eschewing the benefits of the IMC scheme. Mitigation of imperfections in the ADCs, namely, non-linearity and variations, incur significant design overheads, due to dedicated calibration units. In this work we present peripheral aware design of IMC cores, to mitigate such overheads. It involves incorporating the non-idealities of ADCs in the training of the DL models, along with that of the memory units. The proposed approach applies equally well to both current mode as well as charge mode MVM operations demonstrated in recent years., and can significantly simplify the design of mixed-signal IMC units.
翻訳日:2024-08-14 19:48:49 公開日:2024-08-11
# マルチスケール多モード融合による自己回帰酵素機能予測

Autoregressive Enzyme Function Prediction with Multi-scale Multi-modality Fusion ( http://arxiv.org/abs/2408.06391v1 )

ライセンス: Link先を確認
Dingyi Rong, Wenzhuo Zheng, Bozitao Zhong, Zhouhan Lin, Liang Hong, Ning Liu, (参考訳) 酵素機能の正確な予測は、生物機構の解明と様々な分野におけるイノベーションの推進に不可欠である。 既存のディープラーニング手法は、シーケンスデータまたは構造データにのみ依存し、EC番号全体を予測し、EC番号の固有の階層構造を無視する傾向にある。 これらの制約に対処するため、MAPredという新しいマルチモーダリティ・マルチスケールモデルを導入し、EC数のタンパク質を自動回帰的に予測する。 MAPredは、タンパク質の一次アミノ酸配列と3Dトークンの両方を統合し、包括的タンパク質の特徴と重要な局所的機能部位を捉えるための二重経路アプローチを用いる。 さらに、MAPredは自己回帰予測ネットワークを使用して、EC分類の階層的構造を利用して、EC番号の桁数を逐次予測する。 New-392、Price、New-815といったベンチマークデータセットの評価は、我々の手法が既存のモデルよりも優れており、バイオインフォマティクスにおけるタンパク質機能予測の信頼性と粒度が著しく向上していることを示している。

Accurate prediction of enzyme function is crucial for elucidating biological mechanisms and driving innovation across various sectors. Existing deep learning methods tend to rely solely on either sequence data or structural data and predict the EC number as a whole, neglecting the intrinsic hierarchical structure of EC numbers. To address these limitations, we introduce MAPred, a novel multi-modality and multi-scale model designed to autoregressively predict the EC number of proteins. MAPred integrates both the primary amino acid sequence and the 3D tokens of proteins, employing a dual-pathway approach to capture comprehensive protein characteristics and essential local functional sites. Additionally, MAPred utilizes an autoregressive prediction network to sequentially predict the digits of the EC number, leveraging the hierarchical organization of EC classifications. Evaluations on benchmark datasets, including New-392, Price, and New-815, demonstrate that our method outperforms existing models, marking a significant advance in the reliability and granularity of protein function prediction within bioinformatics.
翻訳日:2024-08-14 19:39:00 公開日:2024-08-11
# EATFormer:進化的アルゴリズムにヒントを得た視覚変換器の改良

EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm ( http://arxiv.org/abs/2206.09325v3 )

ライセンス: Link先を確認
Jiangning Zhang, Xiangtai Li, Yabiao Wang, Chengjie Wang, Yibo Yang, Yong Liu, Dacheng Tao, (参考訳) 生物進化によって動機づけられた本論文は、実証された実用的な進化アルゴリズム(EA)と類似して視覚変換器の合理性を説明し、両者が一貫した数学的定式化を持つことを導出する。 提案するEAベースのトランスフォーマー(EAT)ブロックは,マルチスケール領域集約,グローバルおよびローカルインタラクション,フィードフォワードネットワークモジュールの3つの部分から構成される。 さらに,コンバータバックボーンを組み込んだタスク関連ヘッドを設計し,より柔軟に最終情報融合を完了し,不規則な位置を動的にモデル化する変形可能なMSAを改良する。 画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,最先端手法に対する我々のアプローチの有効性と優位性を実証している。 EATFormer-Tiny/Small/Base armed Mask-R-CNN get 45.4/47.4/49.0 box AP and 41.4/42.9/44.2 mask AP on COCO detection, compareding contemporary MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP and 0.4/1/0.9 mask AP with less FLs, EATFormer/Small/Small/Base armed Mask-R-CNN get 45.4/47.4/49.0 box AP and 41.4/9/44.2 mask AP with less FLs, EATFormer/Small/Small/Base armed Mask-R-CNN get 45.4/47.4/49.0 box AP on COCOCOCO detection, compared, compareding current MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP with 0.4.1/0 mask AP with less FLs FLs, EATFormer/Small/Small/Small/Small/Small/Small/Small/Small/Small/Small/Small/Small/Small/Small/Small/ 0 box AP by 2.8 コードはhttps://github.com/zhangzjn/EATFormer.comで入手できる。

Motivated by biological evolution, this paper explains the rationality of Vision Transformer by analogy with the proven practical evolutionary algorithm (EA) and derives that both have consistent mathematical formulation. Then inspired by effective EA variants, we propose a novel pyramid EATFormer backbone that only contains the proposed EA-based transformer (EAT) block, which consists of three residual parts, i.e., Multi-scale region aggregation, global and local interaction, and feed-forward network modules, to model multi-scale, interactive, and individual information separately. Moreover, we design a task-related head docked with transformer backbone to complete final information fusion more flexibly and improve a modulated deformable MSA to dynamically model irregular locations. Massive quantitative and quantitative experiments on image classification, downstream tasks, and explanatory experiments demonstrate the effectiveness and superiority of our approach over state-of-the-art methods. E.g., our Mobile (1.8 M), Tiny (6.1 M), Small (24.3 M), and Base (49.0 M) models achieve 69.4, 78.4, 83.1, and 83.9 Top-1 only trained on ImageNet-1K with naive training recipe; EATFormer-Tiny/Small/Base armed Mask-R-CNN obtain 45.4/47.4/49.0 box AP and 41.4/42.9/44.2 mask AP on COCO detection, surpassing contemporary MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP and 0.4/1.3/0.9 mask AP separately with less FLOPs; Our EATFormer-Small/Base achieve 47.3/49.3 mIoU on ADE20K by Upernet that exceeds Swin-T/S by 2.8/1.7. Code is available at https://github.com/zhangzjn/EATFormer.
翻訳日:2024-08-14 01:37:20 公開日:2024-08-11
# 非自明なリンクを持つランダムテンソルネットワーク

Random tensor networks with nontrivial links ( http://arxiv.org/abs/2206.10482v2 )

ライセンス: Link先を確認
Newton Cheng, Cécilia Lancien, Geoff Penington, Michael Walter, Freek Witteveen, (参考訳) ランダムテンソルネットワークはホログラフィック量子重力の絡み合い構造を理解するための強力な玩具モデルである。 しかし、ホログラフィックの量子重力とは異なり、その絡み合いスペクトルは平坦である。 したがって、より良いモデルは、最大絡み合っていない、すなわち非自明なスペクトルを持つリンク状態を持つランダムなテンソルネットワークで構成されていると論じられている。 本研究では,これらのネットワークの絡み合い特性の系統的研究を開始する。 我々は、自由確率、ランダム行列理論、ワンショット量子情報理論のツールを用いて、リンクスペクトルの有界および非有界な変動を持つランダムテンソルネットワーク、およびサブシステムが1つまたは複数の最小カットを持つ場合の研究を行う。 リンク状態が有界スペクトル変動を持つ場合、2つの最小カットを持つ部分系の制限エンタングルメントスペクトルは、マーチンコ・パストゥル分布とともに各カットの絡み合いスペクトルの自由積として表すことができる。 量子重力における半古典状態に類似したスペクトルの非有界な状態のクラスでは、2つの最小切断を持つ部分系の制限的絡み合いスペクトルと、2つの切断の最小絡み合いの分布を関連付ける。 これにより、分割転送プロトコル、ランダムテンソルネットワークにおける絡み合いの負性、量子重力におけるユークリッド経路積分に関する以前の研究と接続する。

Random tensor networks are a powerful toy model for understanding the entanglement structure of holographic quantum gravity. However, unlike holographic quantum gravity, their entanglement spectra are flat. It has therefore been argued that a better model consists of random tensor networks with link states that are not maximally entangled, i.e., have nontrivial spectra. In this work, we initiate a systematic study of the entanglement properties of these networks. We employ tools from free probability, random matrix theory, and one-shot quantum information theory to study random tensor networks with bounded and unbounded variation in link spectra, and in cases where a subsystem has one or multiple minimal cuts. If the link states have bounded spectral variation, the limiting entanglement spectrum of a subsystem with two minimal cuts can be expressed as a free product of the entanglement spectra of each cut, along with a Marchenko-Pastur distribution. For a class of states with unbounded spectral variation, analogous to semiclassical states in quantum gravity, we relate the limiting entanglement spectrum of a subsystem with two minimal cuts to the distribution of the minimal entanglement across the two cuts. In doing so, we draw connections to previous work on split transfer protocols, entanglement negativity in random tensor networks, and Euclidean path integrals in quantum gravity.
翻訳日:2024-08-14 01:37:20 公開日:2024-08-11
# SoK: エンドツーエンド暗号化システムにおけるコンテンツモデレーション方式

SoK: Content Moderation Schemes in End-to-End Encrypted Systems ( http://arxiv.org/abs/2208.11147v5 )

ライセンス: Link先を確認
Chaitanya Rahalkar, Anushka Virgaonkar, (参考訳) 本稿では,エンド・ツー・エンドの暗号化システムにおいて,コンテンツモデレーションに利用される様々な手法について検討する。 コンテンツモデレーションの難しい側面として,ユーザプライバシを確保しつつ,安全なプラットフォームを維持することを評価します。 メッセージの発信や知覚的ハッシュといったコンテンツモデレーション手法のユニークな特徴について検討し,その限界を強調した。 現在実装されているコンテンツモデレーション技術は、エンドツーエンドの暗号化メッセージングの目標をある程度違反している。 これにより、研究者たちは、エンドツーエンドの暗号化システムとコンテンツモデレーションを互換性を持たせるために、新しいセキュリティプリミティブを開発し、設計するに至った。 これらの開発について詳述し、提案した研究成果を分析し、それらのセキュリティ保証を評価し、他の提案したソリューションと相関し、特定のシナリオの下で適切な改善を判断する。

This paper aims to survey various techniques utilized for content moderation in end-to-end encryption systems. We assess the challenging aspect of content moderation: maintaining a safe platform while assuring user privacy. We study the unique features of some content moderation techniques, such as message franking and perceptual hashing, and highlight their limitations. Currently implemented content moderation techniques violate the goals of end-to-end encrypted messaging to some extent. This has led researchers to develop remediations and design new security primitives to make content moderation compatible with end-to-end encryption systems. We detail these developments, analyze the proposed research efforts, assess their security guarantees, correlate them with other proposed solutions, and determine suitable improvements under specific scenarios.
翻訳日:2024-08-14 01:29:39 公開日:2024-08-11
# 連続環境のための後方サンプリング

Posterior Sampling for Continuing Environments ( http://arxiv.org/abs/2211.15931v3 )

ライセンス: Link先を確認
Wanqiao Xu, Shi Dong, Benjamin Van Roy, (参考訳) 我々は, エージェント環境インタフェースに適合し, 複雑な環境にスケールするエージェント設計に自然に統合された, 強化学習のための後部サンプリング(PSRL)の拡張を開発する。 この手法はPSRLを継続し、統計的に妥当な環境モデルを維持し、予測される$\gamma$-discounted returnをそのモデルで最大化するポリシーに従う。 確率が1-\gamma$の場合、モデルは環境上の後部分布からのサンプルに置き換えられる。 地平線$T$に相応しい割引係数を選択するために、ベイズ的後悔に縛られる$\tilde{O}(\tau S \sqrt{A T})$を定め、そこで$S$は環境状態の数、$A$はアクションの数、$\tau$は報酬平均時間を表し、任意のポリシーの平均報酬を正確に見積もるのに必要な時間に縛られる。 私たちの研究は、ランダムな探索によって再サンプリングアプローチを形式化し、厳格に分析する最初のものです。

We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $\gamma$-discounted return in that model. At each time, with probability $1-\gamma$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(\tau S \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $\tau$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.
翻訳日:2024-08-14 01:29:38 公開日:2024-08-11
# 組合せ最適化問題に対する変分量子アルゴリズムの導入

An introduction to variational quantum algorithms for combinatorial optimization problems ( http://arxiv.org/abs/2212.11734v2 )

ライセンス: Link先を確認
Camille Grange, Michael Poss, Eric Bourreau, (参考訳) ノイズの多い中間規模量子コンピュータ(NISQ)が利用可能となり、多くの研究者が変分量子アルゴリズム(VQA)を実験する動機となった。 中でも、量子近似最適化アルゴリズム(QAOA)は、組合せ最適化コミュニティによって研究されている最も人気のあるアルゴリズムの1つである。 本チュートリアルでは,変分量子アルゴリズムのクラスを数学的に記述し,それ以前の量子物理学の知識を読者に与えていないと仮定する。 量子側(パラメタライズド量子回路)と古典側(誘導関数,最適化器)におけるこれらのハイブリッドアルゴリズムの重要な側面を正確に紹介する。 我々はQAOAに特に注意を払って、そのアルゴリズムに関わる量子回路と、その可能な誘導関数によって満たされる特性を詳述した。 最後に、近年のQAOAに関する文献について論じ、いくつかの研究動向を紹介する。

Noisy intermediate-scale quantum computers (NISQ computers) are now readily available, motivating many researchers to experiment with Variational Quantum Algorithms (VQAs). Among them, the Quantum Approximate Optimization Algorithm (QAOA) is one of the most popular one studied by the combinatorial optimization community. In this tutorial, we provide a mathematical description of the class of Variational Quantum Algorithms, assuming no previous knowledge of quantum physics from the readers. We introduce precisely the key aspects of these hybrid algorithms on the quantum side (parametrized quantum circuit) and the classical side (guiding function, optimizer). We devote a particular attention to QAOA, detailing the quantum circuits involved in that algorithm, as well as the properties satisfied by its possible guiding functions. Finally, we discuss the recent literature on QAOA, highlighting several research trends.
翻訳日:2024-08-14 01:29:38 公開日:2024-08-11
# 大規模自己監督型学習のブロックワイド化

Blockwise Self-Supervised Learning at Scale ( http://arxiv.org/abs/2302.01647v2 )

ライセンス: Link先を確認
Shoaib Ahmed Siddiqui, David Krueger, Yann LeCun, Stéphane Deny, (参考訳) 現在の最先端のディープネットワークはすべてバックプロパゲーションによって実現されている。 本稿では,自己教師型学習における最新の発展を生かして,ブロックワイズ学習ルールという形で完全なバックプロパゲーションに代わる方法を検討する。 本稿では,各ブロックにおけるBarlow Twinsの損失関数とResNet-50の4つの主要ブロックを独立にトレーニングしたブロックワイド事前学習手順が,ImageNet上でのエンドツーエンドのバックプロパゲーションとほぼ同等であることを示す: ブロックワイド事前学習モデル上でトレーニングした線形プローブは,トップ1分類精度70.48%,エンドツーエンド事前学習ネットワークの精度1.1%(精度71.57%)しか得られない。 我々は,本手法における様々なコンポーネントの影響を理解するための広範な実験を行い,ブロックワイドパラダイムへの自己教師型学習の多種多様な適応を探求し,ハードウェア設計から神経科学に至るまで,局所学習ルールを大規模ネットワークに拡張するための重要な方法の徹底的な理解を構築した。

Current state-of-the-art deep networks are all powered by backpropagation. In this paper, we explore alternatives to full backpropagation in the form of blockwise learning rules, leveraging the latest developments in self-supervised learning. We show that a blockwise pretraining procedure consisting of training independently the 4 main blocks of layers of a ResNet-50 with Barlow Twins' loss function at each block performs almost as well as end-to-end backpropagation on ImageNet: a linear probe trained on top of our blockwise pretrained model obtains a top-1 classification accuracy of 70.48%, only 1.1% below the accuracy of an end-to-end pretrained network (71.57% accuracy). We perform extensive experiments to understand the impact of different components within our method and explore a variety of adaptations of self-supervised learning to the blockwise paradigm, building an exhaustive understanding of the critical avenues for scaling local learning rules to large networks, with implications ranging from hardware design to neuroscience.
翻訳日:2024-08-14 01:29:38 公開日:2024-08-11
# PK-ICR:接地対話のためのペルソナ知識対話型文脈検索

PK-ICR: Persona-Knowledge Interactive Context Retrieval for Grounded Dialogue ( http://arxiv.org/abs/2302.06674v4 )

ライセンス: Link先を確認
Minsik Oh, Joosung Lee, Jiwei Li, Guoyin Wang, (参考訳) 対話システムにおける関連するペルソナや知識の同定は,対話応答生成において重要である。 しかし,近年の論文では,より実践的な多言語対話タスクと分離して研究が進められている。 我々は、複雑な多言語対話設定において、ペルソナと知識の2つのコンテキスト識別を、与えられた対話のためのペルソナと知識を協調的に識別するタスクとして定義する。 我々は,対話のすべての文脈を同時に活用する新しい接地検索手法を開発した。 提案手法では,ニューラルネットワークによるQA検索モデルを用いることで,計算能力の低下を図っている。 さらに,データ拡張に関連して,意味的に異なるサンプル(ハードネガティブ)のランク付け性能を計測する新しいヌル正ランクテストについても紹介する。

Identifying relevant persona or knowledge for conversational systems is critical to grounded dialogue response generation. However, each grounding has been mostly researched in isolation with more practical multi-context dialogue tasks introduced in recent works. We define Persona and Knowledge Dual Context Identification as the task to identify persona and knowledge jointly for a given dialogue, which could be of elevated importance in complex multi-context dialogue settings. We develop a novel grounding retrieval method that utilizes all contexts of dialogue simultaneously. Our method requires less computational power via utilizing neural QA retrieval models. We further introduce our novel null-positive rank test which measures ranking performance on semantically dissimilar samples (i.e. hard negatives) in relation to data augmentation.
翻訳日:2024-08-14 01:29:38 公開日:2024-08-11
# TalkCLIP: テキストガイド型表現型音声スタイルによる対話ヘッドジェネレーション

TalkCLIP: Talking Head Generation with Text-Guided Expressive Speaking Styles ( http://arxiv.org/abs/2304.00334v4 )

ライセンス: Link先を確認
Yifeng Ma, Suzhen Wang, Yu Ding, Bowen Ma, Tangjie Lv, Changjie Fan, Zhipeng Hu, Zhidong Deng, Xin Yu, (参考訳) 音声駆動音声ヘッド生成は注目を集めている。 所望の表情で話すヘッドビデオを作成するために、従来の手法は、表現情報を提供するために余分な参照ビデオに頼っている。 本研究では,自然言語で表現を指定した発話ヘッドを生成可能なフレームワークであるTalkCLIPを提案する。 テキストから表現へのマッピングをモデル化するために,まず,粗い感情ときめ細かい顔の動きの両方を表現した多彩なテキスト記述を持つテキスト-ビデオ対話ヘッドデータセットを構築した。 提案したデータセットを活用することで,表現表現に自然言語に基づく記述を投影するCLIPベースのスタイルエンコーダを導入する。 TalkCLIPはトレーニング中に見えない説明のために式を推測することもできます。 TalkCLIPはテキストを使って表現の強度を調節したり、表現を編集したりすることもできる。 広汎な実験により、TalkCLIPは、テキスト記述でガイドされた鮮やかな表情で、写真リアルな発話ヘッドを生成する高度な能力を実現することが実証された。

Audio-driven talking head generation has drawn growing attention. To produce talking head videos with desired facial expressions, previous methods rely on extra reference videos to provide expression information, which may be difficult to find and hence limits their usage. In this work, we propose TalkCLIP, a framework that can generate talking heads where the expressions are specified by natural language, hence allowing for specifying expressions more conveniently. To model the mapping from text to expressions, we first construct a text-video paired talking head dataset where each video has diverse text descriptions that depict both coarse-grained emotions and fine-grained facial movements. Leveraging the proposed dataset, we introduce a CLIP-based style encoder that projects natural language-based descriptions to the representations of expressions. TalkCLIP can even infer expressions for descriptions unseen during training. TalkCLIP can also use text to modulate expression intensity and edit expressions. Extensive experiments demonstrate that TalkCLIP achieves the advanced capability of generating photo-realistic talking heads with vivid facial expressions guided by text descriptions.
翻訳日:2024-08-14 01:18:22 公開日:2024-08-11
# ボットか人間か? 単一質問によるチャットGPTインポスタの検出

Bot or Human? Detecting ChatGPT Imposters with A Single Question ( http://arxiv.org/abs/2305.06424v4 )

ライセンス: Link先を確認
Hong Wang, Xuan Luo, Weizhi Wang, Xifeng Yan, (参考訳) GPT-4のような大規模言語モデル(LLM)は、最近、自然言語の理解と生成において印象的な能力を示した。 しかし、不正やサービス拒否攻撃など、悪意のある目的で悪用される可能性があるという懸念もある。 したがって、会話に関わる相手がボットか人間かを検出する方法を開発することが重要である。 本稿では,単一問合せと応答を用いた大規模言語モデル認証フレームワークFLAIRを提案し,対話型ボットをオンラインで検出する。 具体的には、人間のユーザーとボットを効果的に区別できる単一の質問シナリオをターゲットにしている。 質問は、人間にとって簡単だがボットにとって難しいもの(例:カウント、置換、探索、ASCIIアート推論)と、ロボットにとって簡単だが人間にとっては難しいもの(例:記憶と計算)に分けられる。 弊社のアプローチは、これらの質問の長所をその効果で示しており、オンラインサービスプロバイダが悪質な活動から身を守るための新しい方法を提供する。 私たちのコードと質問セットはhttps://github.com/hongwang600/FLAIR.comで公開されています。

Large language models (LLMs) like GPT-4 have recently demonstrated impressive capabilities in natural language understanding and generation. However, there is a concern that they can be misused for malicious purposes, such as fraud or denial-of-service attacks. Therefore, it is crucial to develop methods for detecting whether the party involved in a conversation is a bot or a human. In this paper, we propose a framework named FLAIR, Finding Large Language Model Authenticity via a Single Inquiry and Response, to detect conversational bots in an online manner. Specifically, we target a single question scenario that can effectively differentiate human users from bots. The questions are divided into two categories: those that are easy for humans but difficult for bots (e.g., counting, substitution, searching, and ASCII art reasoning), and those that are easy for bots but difficult for humans (e.g., memorization and computation). Our approach shows different strengths of these questions in their effectiveness, providing a new way for online service providers to protect themselves against nefarious activities. Our code and question set are available at https://github.com/hongwang600/FLAIR.
翻訳日:2024-08-14 01:18:22 公開日:2024-08-11
# SPARSEFIT:Sparse Fine-tuningを用いたFew-shot Promptingによる予測と自然言語説明の同時生成

SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations ( http://arxiv.org/abs/2305.13235v3 )

ライセンス: Link先を確認
Jesus Solano, Mardhiyah Sanni, Oana-Maria Camburu, Pasquale Minervini, (参考訳) 自然言語の説明(NLE)を生成するモデルは近年,関心が高まっている。 しかし、このアプローチは通常、トレーニング時に人間の手書きのNLEの大規模なデータセットを必要とする。 数個のNLE(数ショットのセットアップ)しか利用できないとき、プロンプトベースの学習と合わせて微調整済みの言語モデル(PLM)が、最近、有望な結果を示している。 しかし、PLMは通常数十億のパラメータを持ち、完全な微調整コストがかかる。 我々は、離散的なプロンプトを利用して予測とNLEを共同生成するスパース数発の微調整戦略であるSparseFitを提案する。 我々は、T5言語モデルと4つのデータセットの3つのサイズでSparseFitを実験し、既存のパラメータ効率の良い細調整(PEFT)技術と比較した。 モデルパラメータの6.8%しか微調整を行えば,タスク性能と生成したNLEの品質の両面での競争結果が得られ,予測精度とNLE品質の点で他のPEFT法よりも平均的に優れた結果が得られることがわかった。

Models that generate natural language explanations (NLEs) for their predictions have recently gained increasing interest. However, this approach usually demands large datasets of human-written NLEs for the ground-truth answers at training time, which can be expensive and potentially infeasible for some applications. When only a few NLEs are available (a few-shot setup), fine-tuning pre-trained language models (PLMs) in conjunction with prompt-based learning has recently shown promising results. However, PLMs typically have billions of parameters, making full fine-tuning expensive. We propose SparseFit, a sparse few-shot fine-tuning strategy that leverages discrete prompts to jointly generate predictions and NLEs. We experiment with SparseFit on three sizes of the T5 language model and four datasets and compare it against existing state-of-the-art Parameter-Efficient Fine-Tuning (PEFT) techniques. We find that fine-tuning only 6.8% of the model parameters leads to competitive results for both the task performance and the quality of the generated NLEs compared to full fine-tuning of the model and produces better results on average than other PEFT methods in terms of predictive accuracy and NLE quality.
翻訳日:2024-08-14 01:18:22 公開日:2024-08-11
# BiomedGPT: 多様なバイオメディカルタスクのための一般ビジョン言語基盤モデル

BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks ( http://arxiv.org/abs/2305.17100v4 )

ライセンス: Link先を確認
Kai Zhang, Rong Zhou, Eashan Adhikarla, Zhiling Yan, Yixin Liu, Jun Yu, Zhengliang Liu, Xun Chen, Brian D. Davison, Hui Ren, Jing Huang, Chen Chen, Yuyin Zhou, Sunyang Fu, Wei Liu, Tianming Liu, Xiang Li, Yong Chen, Lifang He, James Zou, Quanzheng Li, Hongfang Liu, Lichao Sun, (参考訳) 特定のタスクやモダリティのために設計された伝統的なバイオメディカル人工知能(AI)モデルは、現実の展開において限られた柔軟性を示し、総合的な情報を利用するのに苦労する。 汎用AIは、さまざまなデータタイプを解釈し、さまざまなニーズに合ったアウトプットを生成するという汎用性のために、これらの制限に対処する可能性を秘めている。 しかし、既存のバイオメディカル・ジェネリストのAIソリューションは、典型的には重く、研究者、実践者、患者に閉鎖的なソースである。 本稿では,様々なバイオメディカルタスクを遂行できるジェネラリストとして設計された,世界初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。 BiomedGPTは、コンピューティングフレンドリーなモデルスケールを維持しながら、25実験中16実験で最先端の結果を達成した。 また,放射線学的質問応答,レポート生成,要約におけるバイオメディカルGPTの能力を評価するために人体評価を行った。 BiomedGPTは、質問に対する回答の3.8%の低いエラー率、複雑な放射線学のレポートを書く際のエラー率8.3%の満足度、そして人間の専門家にほぼ同等の選好スコアを持つ競争的要約能力を示す。 本手法は, 多様なデータを用いた効果的なトレーニングが, 診断とワークフロー効率を向上させるために, より実践的なバイオメディカルAIに繋がることを示す。

Traditional biomedical artificial intelligence (AI) models, designed for specific tasks or modalities, often exhibit limited flexibility in real-world deployment and struggle to utilize holistic information. Generalist AI holds the potential to address these limitations due to its versatility in interpreting different data types and generating tailored outputs for diverse needs. However, existing biomedical generalist AI solutions are typically heavyweight and closed source to researchers, practitioners, and patients. Here, we propose BiomedGPT, the first open-source and lightweight vision-language foundation model, designed as a generalist capable of performing various biomedical tasks. BiomedGPT achieved state-of-the-art results in 16 out of 25 experiments while maintaining a computing-friendly model scale. We also conducted human evaluations to assess the capabilities of BiomedGPT in radiology visual question answering, report generation, and summarization. BiomedGPT exhibits robust prediction ability with a low error rate of 3.8% in question answering, satisfactory performance with an error rate of 8.3% in writing complex radiology reports, and competitive summarization ability with a nearly equivalent preference score to human experts. Our method demonstrates that effective training with diverse data can lead to more practical biomedical AI for improving diagnosis and workflow efficiency.
翻訳日:2024-08-14 01:18:22 公開日:2024-08-11
# Graph Agent Network: 分散通信機能を備えたノードのアドバイザレジリエンス

Graph Agent Network: Empowering Nodes with Decentralized Communications Capabilities for Adversarial Resilience ( http://arxiv.org/abs/2306.06909v2 )

ライセンス: Link先を確認
Ao Liu, Wenshan Li, Tao Li, Beibei Li, Guangquan Xu, Pan Zhou, Wengang Ma, Hanyuan Huang, (参考訳) グローバル最適化によるエンドツーエンドトレーニングは、ノード分類のためのグラフニューラルネットワーク(GNN)を普及させた。 敵はGNNの入力と出力の本質的にオープンなインターフェースを利用して、重要なエッジを摂動させ、分類結果を操作できる。 現在の防衛は、グローバル最適化に基づくエンドツーエンドのトレーニングスキームを継続的に活用しているため、本質的にはGNNの脆弱性をカプセル化している。 これは、標的とする二次攻撃に対して防御できないことが特に証明されている。 本稿では,前述のGNNの脆弱性に対処するグラフエージェントネットワーク(GAgN)を提案する。 GAgNはグラフ構造化エージェントネットワークであり、各ノードは1-hop-viewエージェントとして設計されている。 エージェント間の分散的な相互作用を通じて、グローバルな知覚を推論して、特定のノードに対する埋め込み、次数、隣接関係などのタスクを実行することができる。 これによりノードは、分類タスクを実行しながら、敵のエッジをフィルタリングすることが可能になる。 さらに、エージェントの限定的な見解は、悪意のあるメッセージがGAgNでグローバルに伝播するのを防ぎ、グローバル最適化ベースの二次攻撃に抵抗する。 単層多層パーセプトロン(MLP)は理論的にこれらの機能を達成するのに十分であることを示す。 実験の結果,GAgNは意図したすべての機能を効果的に実装し,最先端の防御技術と比較して,摂動データセットの最適な分類精度を実現することがわかった。

End-to-end training with global optimization have popularized graph neural networks (GNNs) for node classification, yet inadvertently introduced vulnerabilities to adversarial edge-perturbing attacks. Adversaries can exploit the inherent opened interfaces of GNNs' input and output, perturbing critical edges and thus manipulating the classification results. Current defenses, due to their persistent utilization of global-optimization-based end-to-end training schemes, inherently encapsulate the vulnerabilities of GNNs. This is specifically evidenced in their inability to defend against targeted secondary attacks. In this paper, we propose the Graph Agent Network (GAgN) to address the aforementioned vulnerabilities of GNNs. GAgN is a graph-structured agent network in which each node is designed as an 1-hop-view agent. Through the decentralized interactions between agents, they can learn to infer global perceptions to perform tasks including inferring embeddings, degrees and neighbor relationships for given nodes. This empowers nodes to filtering adversarial edges while carrying out classification tasks. Furthermore, agents' limited view prevents malicious messages from propagating globally in GAgN, thereby resisting global-optimization-based secondary attacks. We prove that single-hidden-layer multilayer perceptrons (MLPs) are theoretically sufficient to achieve these functionalities. Experimental results show that GAgN effectively implements all its intended capabilities and, compared to state-of-the-art defenses, achieves optimal classification accuracy on the perturbed datasets.
翻訳日:2024-08-14 01:08:32 公開日:2024-08-11
# Twitterの最大のハックに関するダイヤモンドモデル分析

A Diamond Model Analysis on Twitter's Biggest Hack ( http://arxiv.org/abs/2306.15878v3 )

ライセンス: Link先を確認
Chaitanya Rahalkar, (参考訳) サイバー攻撃はここ数年で顕著に増加しており、さまざまな領域の俳優を標的にしている。 このような攻撃の背後にあるモチベーション、インフラ、攻撃ベクトル等を理解することは、将来そのような攻撃を防ぐために積極的に取り組み、またそのような攻撃の経済的・社会的影響を分析するために不可欠である。 本稿では,ダイアモンドモデルを用いて,サイバー攻撃をハイジャックする2020年のTwitterアカウントの侵入分析ケーススタディを行う。 我々は、この標準化されたインシデント対応モデルに従い、敵、能力、インフラ、犠牲者をマッピングし、攻撃の包括的分析を行い、サイバーセキュリティ政策の観点からの攻撃による影響について分析する。

Cyberattacks have prominently increased over the past few years now, and have targeted actors from a wide variety of domains. Understanding the motivation, infrastructure, attack vectors, etc. behind such attacks is vital to proactively work against preventing such attacks in the future and also to analyze the economic and social impact of such attacks. In this paper, we leverage the diamond model to perform an intrusion analysis case study of the 2020 Twitter account hijacking Cyberattack. We follow this standardized incident response model to map the adversary, capability, infrastructure, and victim and perform a comprehensive analysis of the attack, and the impact posed by the attack from a Cybersecurity policy standpoint.
翻訳日:2024-08-14 01:08:32 公開日:2024-08-11
# 信頼できるデータセット蒸留を目指して

Towards Trustworthy Dataset Distillation ( http://arxiv.org/abs/2307.09165v2 )

ライセンス: Link先を確認
Shijie Ma, Fei Zhu, Zhen Cheng, Xu-Yao Zhang, (参考訳) 効率性と信頼性は、現実世界のアプリケーションにディープラーニングを適用するとき、永遠の追求である。 効率性に関して、データセット蒸留(DD)は、大規模なデータセットを小さな合成データセットに蒸留することで、トレーニングコストを削減する。 しかし、既存の手法は単に、オフ・オブ・ディストリビューション(OOD)サンプルを無視して、クローズド・ワールド・セッティングにおけるイン・ディストリビューション(In-distriion、InD)分類にのみ集中する。 一方、OOD検出は、フルデータ設定で常に非効率に達成されるモデルの信頼性を高めることを目的としている。 両問題を同時に検討し,TrustDD(Trustworthy Dataset Distillation)と呼ばれる新しいパラダイムを提案する。 InDサンプルと外れ値の両方を蒸留することにより、凝縮データセットは、InD分類とOOD検出の両方に適するモデルをトレーニングすることができる。 さらに、実際の外部データの必要性を軽減するために、擬外部データ(Pseudo-Outlier Exposure (POE))を生成するために、不正なInDサンプルを提案する。 様々な環境における総合的な実験は、TrustDDの有効性を示し、POEは最先端のOutlier Exposure(OE)を超越している。 以前のDDと比較すると、TrustDDはより信頼性が高く、オープンワールドのシナリオに適用できる。 私たちのコードはhttps://github.com/mashijie1028/TrustDDで利用可能です。

Efficiency and trustworthiness are two eternal pursuits when applying deep learning in real-world applications. With regard to efficiency, dataset distillation (DD) endeavors to reduce training costs by distilling the large dataset into a tiny synthetic dataset. However, existing methods merely concentrate on in-distribution (InD) classification in a closed-world setting, disregarding out-of-distribution (OOD) samples. On the other hand, OOD detection aims to enhance models' trustworthiness, which is always inefficiently achieved in full-data settings. For the first time, we simultaneously consider both issues and propose a novel paradigm called Trustworthy Dataset Distillation (TrustDD). By distilling both InD samples and outliers, the condensed datasets are capable of training models competent in both InD classification and OOD detection. To alleviate the requirement of real outlier data, we further propose to corrupt InD samples to generate pseudo-outliers, namely Pseudo-Outlier Exposure (POE). Comprehensive experiments on various settings demonstrate the effectiveness of TrustDD, and POE surpasses the state-of-the-art method Outlier Exposure (OE). Compared with the preceding DD, TrustDD is more trustworthy and applicable to open-world scenarios. Our code is available at https://github.com/mashijie1028/TrustDD
翻訳日:2024-08-14 01:08:32 公開日:2024-08-11
# Kmスケール大気下降における残留補正拡散モデル

Residual Corrective Diffusion Modeling for Km-scale Atmospheric Downscaling ( http://arxiv.org/abs/2309.15214v4 )

ライセンス: Link先を確認
Morteza Mardani, Noah Brenowitz, Yair Cohen, Jaideep Pathak, Chieh-Yu Chen, Cheng-Chin Liu, Arash Vahdat, Mohammad Amin Nabian, Tao Ge, Akshay Subramaniam, Karthik Kashinath, Jan Kautz, Mike Pritchard, (参考訳) 気象や気候からの物理的危険予知の最先端技術は、粗い解像度のグローバルな入力によって駆動される高価なkmスケールの数値シミュレーションを必要とする。 ここでは、コスト効率のよい機械学習代替手段として、このようなグローバルな入力をkmスケールにダウンスケールするために、生成拡散アーキテクチャを探索する。 このモデルは、台湾上空の地域気象モデルから2kmのデータを予測するために訓練され、世界25kmの再解析に基づいている。 UNetが平均を予測し、補正拡散(CorrDiff)モデルが残差を予測する2段階のアプローチを採用する。 CorrDiff は MAE と CRPS のスコアで励まされるスキルを誇示している。 CorrDiffの予測スペクトルと分布は、ターゲットデータにおける重要な電力法関係を忠実に回復する。 コヒーレント気象現象のケーススタディでは、コールディフは寒冷前線で激しい降雨を伴う風と温度勾配を鋭くし、台風を強化し、雨帯の構造を合成するのに役立つことが示されている。 モデル不確実性の校正は依然として困難である。 CorrDiffのような統一手法と粗い解像度のグローバル気象モデルの統合は、グローバル・ツー・リージョンのマルチスケール機械学習シミュレーションの可能性を示唆している。

The state of the art for physical hazard prediction from weather and climate requires expensive km-scale numerical simulations driven by coarser resolution global inputs. Here, a generative diffusion architecture is explored for downscaling such global inputs to km-scale, as a cost-effective machine learning alternative. The model is trained to predict 2km data from a regional weather model over Taiwan, conditioned on a 25km global reanalysis. To address the large resolution ratio, different physics involved at different scales and prediction of channels beyond those in the input data, we employ a two-step approach where a UNet predicts the mean and a corrector diffusion (CorrDiff) model predicts the residual. CorrDiff exhibits encouraging skill in bulk MAE and CRPS scores. The predicted spectra and distributions from CorrDiff faithfully recover important power law relationships in the target data. Case studies of coherent weather phenomena show that CorrDiff can help sharpen wind and temperature gradients that co-locate with intense rainfall in cold front, and can help intensify typhoons and synthesize rain band structures. Calibration of model uncertainty remains challenging. The prospect of unifying methods like CorrDiff with coarser resolution global weather models implies a potential for global-to-regional multi-scale machine learning simulation.
翻訳日:2024-08-14 00:48:29 公開日:2024-08-11
# キャビティQEDにおけるユニタリと測定によるスピンスクイーズとのトレードオフ

Trade-offs between unitary and measurement induced spin squeezing in cavity QED ( http://arxiv.org/abs/2309.15353v2 )

ライセンス: Link先を確認
Diego Barberena, Anjun Chu, James K. Thompson, Ana Maria Rey, (参考訳) 共振器内の単一電磁場モードと相互作用する原子のアンサンブルにおけるスピンスクイーズ生成に対する測定とユニタリ進化の複合効果について検討した。 測定に基づく絡み合い生成がユニタリプロトコルをオーバーパフォーマンスする条件を決定するための簡単な基準を導出する。 関係するデコヒーレンスの原因をすべて含み、最適なスピンスクイーズ効果と、量子化位相測定のダイナミックレンジを制限する測定ノイズの全体サイズの両方について研究する。 我々の結論は、標準量子限界以下の動作を目指す最先端原子時計に関係している。

We study the combined effects of measurements and unitary evolution on the preparation of spin squeezing in an ensemble of atoms interacting with a single electromagnetic field mode inside a cavity. We derive simple criteria that determine the conditions at which measurement based entanglement generation overperforms unitary protocols. We include all relevant sources of decoherence and study both their effect on the optimal spin squeezing and the overall size of the measurement noise, which limits the dynamical range of quantum-enhanced phase measurements. Our conclusions are relevant for state-of-the-art atomic clocks that aim to operate below the standard quantum limit.
翻訳日:2024-08-14 00:48:29 公開日:2024-08-11
# UNK-VQA:マルチモーダル大モデルの留意能力に関するデータセットと証明

UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models ( http://arxiv.org/abs/2310.10942v5 )

ライセンス: Link先を確認
Yangyang Guo, Fangkai Jiao, Zhiqi Shen, Liqiang Nie, Mohan Kankanhalli, (参考訳) 信頼できるAIシステムを構築するためには、VQA(Visual Question Answering)モデルに、解決不可能な質問への回答を控えるように教える必要がある。 現存する研究は、VQAの様々な側面を探求してきたが、この特質を幾らか無視した。 本稿では,UNK-VQAと呼ばれる包括的データセットを提供することで,研究ギャップを埋めることを目的とする。 データセットは、モデルが知らない問題に対処するために特別に設計されている。 この目的のために、私たちはまず、画像または疑問に対して意図的に摂動することで既存のデータを拡張します。 具体的には、質問画像のセマンティクスが元の未摂動分布に近いことを慎重に確認する。 これはつまり、解決不可能な質問の識別が難しくなり、単なる画像置換を含む他の問題とデータセットを分離します。 そこで我々は,新たなマルチモーダル大規模モデルのゼロショットと少数ショットのパフォーマンスを広範囲に評価し,データセットに適用した場合に,それらの重要な制限を見いだす。 また,これらの疑問に対処するための簡単な手法も提案する。 このデータセットは、VQAモデルの禁断能力を高めるための貴重なベンチマークとして機能し、それによってAIシステムの信頼性が向上すると考えています。 この分野のさらなる探索を容易にするため、データセット(https://github.com/guoyang9/UNK-VQA)を利用可能にしました。

Teaching Visual Question Answering (VQA) models to refrain from answering unanswerable questions is necessary for building a trustworthy AI system. Existing studies, though have explored various aspects of VQA but somewhat ignored this particular attribute. This paper aims to bridge the research gap by contributing a comprehensive dataset, called UNK-VQA. The dataset is specifically designed to address the challenge of questions that models do not know. To this end, we first augment the existing data via deliberate perturbations on either the image or question. In specific, we carefully ensure that the question-image semantics remain close to the original unperturbed distribution. By this means, the identification of unanswerable questions becomes challenging, setting our dataset apart from others that involve mere image replacement. We then extensively evaluate the zero- and few-shot performance of several emerging multi-modal large models and discover their significant limitations when applied to our dataset. Additionally, we also propose a straightforward method to tackle these unanswerable questions. This dataset, we believe, will serve as a valuable benchmark for enhancing the abstention capability of VQA models, thereby leading to increased trustworthiness of AI systems. We have made the dataset (https://github.com/guoyang9/UNK-VQA) available to facilitate further exploration in this area.
翻訳日:2024-08-14 00:48:29 公開日:2024-08-11
# スマートコントラクトの品質保証に関する調査

Survey on Quality Assurance of Smart Contracts ( http://arxiv.org/abs/2311.00270v3 )

ライセンス: Link先を確認
Zhiyuan Wei, Jing Sun, Zijian Zhang, Xianhao Zhang, Xiaoxuan Yang, Liehuang Zhu, (参考訳) スマートコントラクトの採用の増加に伴い、セキュリティの確保が重要な問題となっている。 多くの脆弱性や攻撃が特定され、悪用され、経済的に大きな損失を被った。 これに対し、研究者はスマートコントラクトの脆弱性を特定し、予防するための様々なツールとテクニックを開発した。 本稿では,スマートコントラクトの品質保証について,脆弱性,攻撃,防御,ツールサポートについて,体系的に概説する。 既知の攻撃に基づいて脆弱性を分類することで、対処すべきパターンと共通の弱点を識別できる。 さらに、スマートコントラクトを効果的に保護するために、さまざまな脆弱性検出ツールを評価し、その有効性を比較するラベル付きデータセットを作成しました。

With the increasing adoption of smart contracts, ensuring their security has become a critical concern. Numerous vulnerabilities and attacks have been identified and exploited, resulting in significant financial losses. In response, researchers have developed various tools and techniques to identify and prevent vulnerabilities in smart contracts. In this survey, we present a systematic overview of the quality assurance of smart contracts, covering vulnerabilities, attacks, defenses, and tool support. By classifying vulnerabilities based on known attacks, we can identify patterns and common weaknesses that need to be addressed. Moreover, in order to effectively protect smart contracts, we have created a labeled dataset to evaluate various vulnerability detection tools and compare their effectiveness.
翻訳日:2024-08-14 00:38:36 公開日:2024-08-11
# デジタルソクラテス:説明的批判によるLCMの評価

Digital Socrates: Evaluating LLMs through Explanation Critiques ( http://arxiv.org/abs/2311.09613v3 )

ライセンス: Link先を確認
Yuling Gu, Oyvind Tafjord, Peter Clark, (参考訳) LLMは、その答えとともに推論された説明を提供することができるが、これらの説明の性質と品質はいまだに理解されていない。 これに対し、我々のゴールは、高価なAPI呼び出しや人的アノテーションに頼ることなく、このような特徴を自動生成できる、最新のモデルの説明機能を詳細に表現し、微妙に解釈可能な説明評価ツールを作成することである。 私たちのアプローチは a) 説明基準の新たなタスクを定義する。 説明における主要な欠陥を特定し、分類し、その欠陥に対処するための提案を提供する。 (b)このタスクのためのサイズ、人間検証されたデータセットを作成し、 (c)このデータを用いてオープンソースの自動批評モデル(Digital Socratesと呼ばれる)を訓練する。 量的および質的な分析を通じて、デジタルソクラテスが学生モデルについての洞察を明らかにするのにどのように役立つかを示し、それらのモデル説明の高品質でニュアンスの高い自動評価を初めて提供するかを示す。 このように、Digital Socratesは、モデルの説明動作を理解し改善するための評価ツールの重要なギャップを埋める。

While LLMs can provide reasoned explanations along with their answers, the nature and quality of those explanations are still poorly understood. In response, our goal is to define a detailed way of characterizing the explanation capabilities of modern models and to create a nuanced, interpretable explanation evaluation tool that can generate such characterizations automatically, without relying on expensive API calls or human annotations. Our approach is to (a) define the new task of explanation critiquing - identifying and categorizing any main flaw in an explanation and providing suggestions to address the flaw, (b) create a sizeable, human-verified dataset for this task, and (c) train an open-source, automatic critique model (called Digital Socrates) using this data. Through quantitative and qualitative analysis, we demonstrate how Digital Socrates is useful for revealing insights about student models by examining their reasoning chains, and how it can provide high-quality, nuanced, automatic evaluation of those model explanations for the first time. Digital Socrates thus fills an important gap in evaluation tools for understanding and improving the explanation behavior of models.
翻訳日:2024-08-14 00:38:36 公開日:2024-08-11
# レイアウト・ツー・イメージ合成におけるオブジェクトコヒーレンス向上

Enhancing Object Coherence in Layout-to-Image Synthesis ( http://arxiv.org/abs/2311.10522v6 )

ライセンス: Link先を確認
Yibin Wang, Honghui Xu, Changhai Zhou, Weizhong Zhang, Cheng Jin, (参考訳) レイアウト・ツー・イメージ合成は条件付き画像生成において新たな技術である。 複雑なシーンを生成することを目的としており、ユーザーはシーン内のオブジェクトのレイアウトを細かく制御する必要がある。 しかし、セマンティックコヒーレンス(例:猫が花を見るかどうか)や物理的コヒーレンス(例:手とラケットを間違えてはならない)など、オブジェクトコヒーレンスを制御することは依然として困難である。 本稿では,グローバルな意味融合(GSF)と自己相似特徴拡張モジュールを用いた新しい拡散モデルを提案する。 セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内のセマンティックな関係を定義するための豊富な情報が含まれていると論じる。 本実験では, キャプションと潜伏画像の相互アテンションを別々に扱うのではなく, レイアウト制約とセマンティックコヒーレンスを個別に扱うことで, レイアウト制約とセマンティックコヒーレンス要求から監督を解き放ち, 画像合成プロセスの指針として利用するために, GSFを開発した。 さらに、物理コヒーレンスを改善するために、各画素の生成プロセスに局所的なコンテキスト的物理的コヒーレンス関係を明示的に統合する自己相似コヒーレンスアテンション(SCA)モジュールを開発する。 具体的には、物理的コヒーレンス制約を符号化する自己相似写像を採用し、テキスト埋め込みからコヒーレント特徴を抽出する。 自己相似性マップの可視化を通じて、SCAの本質を探求し、その効果が信頼性の高い物理的コヒーレンスパターンのキャプチャだけでなく、複雑なテクスチャ生成の強化にも有効であることを明らかにした。 画像生成品質と制御性の両方において,提案手法の優位性を示す実験を行った。

Layout-to-image synthesis is an emerging technique in conditional image generation. It aims to generate complex scenes, where users require fine control over the layout of the objects in a scene. However, it remains challenging to control the object coherence, including semantic coherence (e.g., the cat looks at the flowers or not) and physical coherence (e.g., the hand and the racket should not be misaligned). In this paper, we propose a novel diffusion model with effective global semantic fusion (GSF) and self-similarity feature enhancement modules to guide the object coherence for this task. For semantic coherence, we argue that the image caption contains rich information for defining the semantic relationship within the objects in the images. Instead of simply employing cross-attention between captions and latent images, which addresses the highly relevant layout restriction and semantic coherence requirement separately and thus leads to unsatisfying results shown in our experiments, we develop GSF to fuse the supervision from the layout restriction and semantic coherence requirement and exploit it to guide the image synthesis process. Moreover, to improve the physical coherence, we develop a Self-similarity Coherence Attention (SCA) module to explicitly integrate local contextual physical coherence relation into each pixel's generation process. Specifically, we adopt a self-similarity map to encode the physical coherence restrictions and employ it to extract coherent features from text embedding. Through visualization of our self-similarity map, we explore the essence of SCA, revealing that its effectiveness is not only in capturing reliable physical coherence patterns but also in enhancing complex texture generation. Extensive experiments demonstrate the superiority of our proposed method in both image generation quality and controllability.
翻訳日:2024-08-14 00:38:36 公開日:2024-08-11
# CLIP-Activated Students-Teacher Learning を用いたオープンボキャブラリ空中物体検出に向けて

Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning ( http://arxiv.org/abs/2311.11646v3 )

ライセンス: Link先を確認
Yan Li, Weiwei Guo, Xue Yang, Ning Liao, Dunyun He, Jiaqi Zhou, Wenxian Yu, (参考訳) 膨大な量のリモートセンシング画像が、新たなラベル付きデータを集めることなく、トレーニングカテゴリを超えてオブジェクトを検出する拡張可能なオブジェクト検出器の開発を加速させる。 本稿では,訓練データを超えるオブジェクトの語彙サイズを拡大する空画像におけるOVD(Open-vocabulary Object Detection)手法を提案する。 OVDの性能は、新しい対象カテゴリの分類に依存しない領域の提案や擬似ラベルの品質に大きく依存している。 高品質な提案と擬似ラベルを同時に生成するために,CLIPをベースとしたオープン語彙オブジェクト検出フレームワークであるCastDetを提案する。 学生-教師の自己学習メカニズムに従うエンドツーエンドのフレームワークは、RemoteCLIPモデルを用いて、豊富な知識を持つ全能教師として活用する。 このアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。 さらに、バッチトレーニング中に高品質な擬似ラベルを維持するための動的ラベル待ち行列戦略を考案する。 我々は、OVDタスク用に設定された複数の既存の空中物体検出データセットについて広範な実験を行う。 実験の結果,VisDroneZSDでは46.5%mAPに到達し,最先端の開語彙検出器の21.0%mAPを上回った。 我々の知る限り、これは航空画像にオープン語彙オブジェクト検出技術を適用し、開発する最初の試みである。 コードはhttps://github.com/lizzy8587/CastDet.comで入手できる。

An increasingly massive number of remote-sensing images spurs the development of extensible object detectors that can detect objects beyond training categories without costly collecting new labeled data. In this paper, we aim to develop open-vocabulary object detection (OVD) technique in aerial images that scales up object vocabulary size beyond training data. The performance of OVD greatly relies on the quality of class-agnostic region proposals and pseudo-labels for novel object categories. To simultaneously generate high-quality proposals and pseudo-labels, we propose CastDet, a CLIP-activated student-teacher open-vocabulary object Detection framework. Our end-to-end framework following the student-teacher self-learning mechanism employs the RemoteCLIP model as an extra omniscient teacher with rich knowledge. By doing so, our approach boosts not only novel object proposals but also classification. Furthermore, we devise a dynamic label queue strategy to maintain high-quality pseudo labels during batch training. We conduct extensive experiments on multiple existing aerial object detection datasets, which are set up for the OVD task. Experimental results demonstrate our CastDet achieving superior open-vocabulary detection performance, e.g., reaching 46.5% mAP on VisDroneZSD novel categories, which outperforms the state-of-the-art open-vocabulary detectors by 21.0% mAP. To our best knowledge, this is the first work to apply and develop the open-vocabulary object detection technique for aerial images. The code is available at https://github.com/lizzy8587/CastDet.
翻訳日:2024-08-14 00:38:36 公開日:2024-08-11
# ユーザインストラクションによるコンテキスト認識型屋内クラウドオブジェクト生成

Context-Aware Indoor Point Cloud Object Generation through User Instructions ( http://arxiv.org/abs/2311.16501v3 )

ライセンス: Link先を確認
Yiyang Luo, Ke Lin, Chao Gu, (参考訳) 屋内のシーン修正は、特に拡張現実(AR)と仮想現実(VR)の応用において、コンピュータビジョンにおいて顕著な領域として現れている。 従来のメソッドは、しばしば既存のオブジェクトデータベースと所定のオブジェクト位置に依存し、その柔軟性と新しいシナリオへの適応性を制限する。 この課題に対応するために、テキストによる指示によって駆動される、その周囲とシームレスに統合された点雲オブジェクトを生成することができる、新しいエンドツーエンドのマルチモーダルディープニューラルネットワークを提案する。 本モデルでは,既往のオブジェクトレイアウトで新しい環境を作成できるようにし,事前記憶したCADモデルを不要にすることで,シーン修正に革命をもたらす。 生成モデルとしてPoint-Eを活用することで,不明瞭な言語記述から生じる偽陰性問題に対処するため,定量化位置予測やTop-K推定などの革新的な手法を導入する。 さらに,本論文では,生成対象の多様性,テキストによる指示の有効性,定量的指標を総合的に評価し,室内オブジェクト生成におけるモデルの現実性と汎用性を確認した。 モデルにより生成されたシーンの品質とコヒーレンスを保証し,視覚的グラウンド化を付加指標として包含する。 これらの進歩を通じて、屋内のシーン修正における最先端の進歩だけでなく、没入型コンピューティングとデジタル環境創造における将来のイノベーションの基盤も築き上げている。

Indoor scene modification has emerged as a prominent area within computer vision, particularly for its applications in Augmented Reality (AR) and Virtual Reality (VR). Traditional methods often rely on pre-existing object databases and predetermined object positions, limiting their flexibility and adaptability to new scenarios. In response to this challenge, we present a novel end-to-end multi-modal deep neural network capable of generating point cloud objects seamlessly integrated with their surroundings, driven by textual instructions. Our model revolutionizes scene modification by enabling the creation of new environments with previously unseen object layouts, eliminating the need for pre-stored CAD models. Leveraging Point-E as our generative model, we introduce innovative techniques such as quantized position prediction and Top-K estimation to address the issue of false negatives resulting from ambiguous language descriptions. Furthermore, we conduct comprehensive evaluations to showcase the diversity of generated objects, the efficacy of textual instructions, and the quantitative metrics, affirming the realism and versatility of our model in generating indoor objects. To provide a holistic assessment, we incorporate visual grounding as an additional metric, ensuring the quality and coherence of the scenes produced by our model. Through these advancements, our approach not only advances the state-of-the-art in indoor scene modification but also lays the foundation for future innovations in immersive computing and digital environment creation.
翻訳日:2024-08-14 00:38:36 公開日:2024-08-11
# ガンプトから画像へのジェンダーバイアスは安定して拡散する

Stable Diffusion Exposed: Gender Bias from Prompt to Image ( http://arxiv.org/abs/2312.03027v2 )

ライセンス: Link先を確認
Yankun Wu, Yuta Nakashima, Noa Garcia, (参考訳) いくつかの研究は、画像生成モデルにおける社会的バイアスに対する意識を高め、ステレオタイプや不均衡に対する偏見を実証している。 本稿では, 安定拡散画像における生成過程の各ステップにおける性別指標の影響を解析する評価プロトコルを導入することにより, この成長する研究分野に寄与する。 先行研究から得られた知見を活かして、ジェンダー指標がジェンダー提示だけでなく、生成した画像内のオブジェクトやレイアウトの表現にもどのように影響するかを考察する。 以上の結果から,特定の性別に合わせて調整された楽器や,全体のレイアウトの変化など,物体の描写の違いの存在が示唆された。 また、中性的なプロンプトは、女性よりも男性的なプロンプトと整合したイメージを生成する傾向があることも明らかにした。 さらに、画像の表現的相違によるバイアスの発端と、即時イメージ依存による画像の表示方法についても検討し、画像生成における潜在的なバイアスを軽減するために、開発者やユーザに対して推奨する。

Several studies have raised awareness about social biases in image generative models, demonstrating their predisposition towards stereotypes and imbalances. This paper contributes to this growing body of research by introducing an evaluation protocol that analyzes the impact of gender indicators at every step of the generation process on Stable Diffusion images. Leveraging insights from prior work, we explore how gender indicators not only affect gender presentation but also the representation of objects and layouts within the generated images. Our findings include the existence of differences in the depiction of objects, such as instruments tailored for specific genders, and shifts in overall layouts. We also reveal that neutral prompts tend to produce images more aligned with masculine prompts than their feminine counterparts. We further explore where bias originates through representational disparities and how it manifests in the images via prompt-image dependencies, and provide recommendations for developers and users to mitigate potential bias in image generation.
翻訳日:2024-08-14 00:28:29 公開日:2024-08-11
# マルチクラス非教師付き異常検出のためのプレーンVIT再構成の検討

Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection ( http://arxiv.org/abs/2312.07495v2 )

ライセンス: Link先を確認
Jiangning Zhang, Xuhai Chen, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Ming-Hsuan Yang, Dacheng Tao, (参考訳) 本研究は,Multi-class unsupervised anomaly detection (MUAD)として知られる,困難かつ実用的な問題を研究する。 この問題は、複数のクラスにまたがる正常画像と異常画像の両方を同時にテストしながら、トレーニングのために通常の画像のみを必要とする。 既存の再構成に基づく手法では、典型的にエンコーダやデコーダとしてピラミッドネットワークを採用し、多解像度の機能を得る。 対照的に、より単純なアーキテクチャを示す平易なViT(Vit)は、検出やセグメンテーションタスクを含む複数の領域で有効であることが証明されている。 シンプルで、より効果的で、エレガントです。 この精神に続いて、MUAD のプレーンな ViT 機能のみの使用について検討する。 我々はまず,現在の再構築手法を合成することでメタADの概念を抽象化する。 その後、グローバルとローカルの両方の観点から漸進的に設計された新しいViTベースのViTAD構造をインスタンス化する。 このモデルは、将来の研究を促進するための強力なベースラインを提供する。 さらに,本研究では,さらなる調査を行うための興味深い発見をいくつか明らかにした。 最後に、8つのメトリクスを使って、様々なアプローチを包括的かつかなりベンチマークします。 MSE損失のみの基本的なトレーニングレギュレータを利用することで、MVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。 \Egは、MVTec ADデータセットでUniAD+3.0を超える85.4mADを達成し、1つのV100上でモデルトレーニングを完了するのに1.1時間2.3GのGPUメモリしか必要としない。 完全なコードはhttps://zhangzjn.github.io/projects/ViTAD/で入手できる。

This work studies a challenging and practical issue known as multi-class unsupervised anomaly detection (MUAD). This problem requires only normal images for training while simultaneously testing both normal and anomaly images across multiple classes. Existing reconstruction-based methods typically adopt pyramidal networks as encoders and decoders to obtain multi-resolution features, often involving complex sub-modules with extensive handcraft engineering. In contrast, a plain Vision Transformer (ViT) showcasing a more straightforward architecture has proven effective in multiple domains, including detection and segmentation tasks. It is simpler, more effective, and elegant. Following this spirit, we explore the use of only plain ViT features for MUAD. We first abstract a Meta-AD concept by synthesizing current reconstruction-based methods. Subsequently, we instantiate a novel ViT-based ViTAD structure, designed incrementally from both global and local perspectives. This model provide a strong baseline to facilitate future research. Additionally, this paper uncovers several intriguing findings for further investigation. Finally, we comprehensively and fairly benchmark various approaches using eight metrics. Utilizing a basic training regimen with only an MSE loss, ViTAD achieves state-of-the-art results and efficiency on MVTec AD, VisA, and Uni-Medical datasets. \Eg, achieving 85.4 mAD that surpasses UniAD by +3.0 for the MVTec AD dataset, and it requires only 1.1 hours and 2.3G GPU memory to complete model training on a single V100 that can serve as a strong baseline to facilitate the development of future research. Full code is available at https://zhangzjn.github.io/projects/ViTAD/.
翻訳日:2024-08-14 00:28:29 公開日:2024-08-11
# 生成AI時代のIoT - ビジョンと課題

IoT in the Era of Generative AI: Vision and Challenges ( http://arxiv.org/abs/2401.01923v3 )

ライセンス: Link先を確認
Xin Wang, Zhongwei Wan, Arvin Hekmati, Mingyu Zong, Samiul Alam, Mi Zhang, Bhaskar Krishnamachari, (参考訳) Generative AIの進歩は、IoT(Internet of Things)を次のレベルに押し上げるという大きな約束を持っている。 この記事では、ジェネレーティブAIの時代におけるIoTに関するビジョンを共有します。 IoT関連領域におけるジェネレーティブAIの最も重要な応用について論じる。 また、最も重要な課題のいくつかを特定し、現在のギャップを議論するとともに、IoTで生成AIを実現するための有望な機会についても議論しています。 この記事では、ジェネレーティブAIの時代におけるIoTに関する新たな研究を刺激できることを願っています。

Advancements in Generative AI hold immense promise to push Internet of Things (IoT) to the next level. In this article, we share our vision on IoT in the era of Generative AI. We discuss some of the most important applications of Generative AI in IoT-related domains. We also identify some of the most critical challenges and discuss current gaps as well as promising opportunities on enabling Generative AI for IoT. We hope this article can inspire new research on IoT in the era of Generative AI.
翻訳日:2024-08-14 00:18:18 公開日:2024-08-11
# クロム二量体Cr$_2$の「ノズル」に向けて:ボルン・オッペンハイマーの可視光スペクトルを予測する

Towards the "puzzle" of Chromium dimer Cr$_2$: predicting the Born-Oppenheimer rovibrational spectrum ( http://arxiv.org/abs/2401.03259v2 )

ライセンス: Link先を確認
Horacio Olivares-Pilón, Daniel Aguilar-Díaz, Alexander V. Turbiner, (参考訳) Cr$_2$二量体の実験的に観測された非自明な電子構造は、そのポテンシャルエネルギー曲線の計算を過去数十年で理論的に挑戦した。 小さな核間距離での摂動理論と大きな距離での多極展開の$R$(漸近的な性質の両方が仮定される)をマッチングし、Casey-Leopold (1993) の実験データから抽出された数個のRydberg-Klein-Rees (RKR) の回転点を追加することにより、基底状態に対するポテンシャルエネルギー曲線の解析形式 $X^1\Sigma^+$ of Cr$2$ dimer が最初に発見された。 これは2点Pad\'e近似の形で、29の実験振動エネルギーで3-4桁の精度を提供する。 結果として得られる基底状態 $X^1\Sigma^+$ ポテンシャル曲線は、最大振動数 $\nu_\text{max}=104$ で最大振動量 $L_\text{max}=312$ で最大振動量 $> 10^{-4}$ { hartree} で、さらに 218 で弱有界な状態 (解離極限に近い) でエネルギー$<10^{-4}$ { hartree} で支える。

The experimentally-observed non-trivial electronic structure of the Cr$_2$ dimer has made the calculation of its potential energy curve a theoretical challenge in the last decades. By matching the perturbation theory at small internuclear distances $R$ and the multipole expansion at large distances $R$ (supposedly both of asymptotic nature), and by adding a few Rydberg-Klein-Rees (RKR) turning points, extracted from experimental data by Casey-Leopold (1993), the analytic form of the potential energy curve for the ground state $X^1\Sigma^+$ of the Cr$_2$ dimer is found for the first time for the whole range of internuclear distances $R$. This has the form of a two-point Pad\'e approximant and provides an accuracy of 3-4 decimal digits in 29 experimental vibrational energies. The resulting ground state $X^1\Sigma^+$ potential curve supports 19694 rovibrational states with a maximal vibrational number $\nu_\text{max}=104$ at zero angular momentum and with a maximal angular momentum $L_\text{max}=312$ with energies $> 10^{-4}$ { hartree}, and additionally 218 weakly-bound states (close to the dissociation limit) with energies $< 10^{-4}$ { hartree}.
翻訳日:2024-08-14 00:18:18 公開日:2024-08-11
# RAVEN: 効率的な三面体ネットワークによる逆動画生成の再考

RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks ( http://arxiv.org/abs/2401.06035v2 )

ライセンス: Link先を確認
Partha Ghosh, Soubhik Sanyal, Cordelia Schmid, Bernhard Schölkopf, (参考訳) 本稿では,長期的空間的および時間的依存に対処し,計算とデータセットの効率性に着目した,新しい非条件ビデオ生成モデルを提案する。 本研究では3次元オブジェクト表現のために開発された3次元認識型生成フレームワークにインスパイアされ,ビデオクリップ全体をモデル化するために1つの潜在コードを用いる。 個々のビデオフレームは、中間三面体表現から合成される。 この新たな戦略は、最も効率的な最先端の手法と比較して、FLOPで測定される計算複雑性を半減する。 提案手法は,映像の効率的かつ時間的コヒーレントな生成を促進する。 さらに,我々の共同フレームモデリング手法は,自己回帰法とは対照的に,視覚的アーティファクトの生成を緩和する。 我々は、GAN(Generative Adversarial Network)ベースのジェネレータアーキテクチャに光フローベースモジュールを統合することにより、より小さなジェネレータサイズによる制約を補償することで、モデルの性能をさらに向上させる。 その結果,高精細度ビデオクリップを解像度256\times256$ピクセルで合成し,フレームレート30fpsで5ドル以上まで期間を延ばすことができた。 提案手法の有効性と汎用性は,合成ビデオクリップと実ビデオクリップの両方からなる3つのデータセットの質的,定量的な評価を通じて実証的に検証される。 トレーニングと推論のコードを公開します。

We present a novel unconditional video generative model designed to address long-term spatial and temporal dependencies, with attention to computational and dataset efficiency. To capture long spatio-temporal dependencies, our approach incorporates a hybrid explicit-implicit tri-plane representation inspired by 3D-aware generative frameworks developed for three-dimensional object representation and employs a single latent code to model an entire video clip. Individual video frames are then synthesized from an intermediate tri-plane representation, which itself is derived from the primary latent code. This novel strategy more than halves the computational complexity measured in FLOPs compared to the most efficient state-of-the-art methods. Consequently, our approach facilitates the efficient and temporally coherent generation of videos. Moreover, our joint frame modeling approach, in contrast to autoregressive methods, mitigates the generation of visual artifacts. We further enhance the model's capabilities by integrating an optical flow-based module within our Generative Adversarial Network (GAN) based generator architecture, thereby compensating for the constraints imposed by a smaller generator size. As a result, our model synthesizes high-fidelity video clips at a resolution of $256\times256$ pixels, with durations extending to more than $5$ seconds at a frame rate of 30 fps. The efficacy and versatility of our approach are empirically validated through qualitative and quantitative assessments across three different datasets comprising both synthetic and real video clips. We will make our training and inference code public.
翻訳日:2024-08-14 00:18:18 公開日:2024-08-11
# FedRSU: 道路ユニットのシーンフロー推定のためのフェデレーションラーニング

FedRSU: Federated Learning for Scene Flow Estimation on Roadside Units ( http://arxiv.org/abs/2401.12862v2 )

ライセンス: Link先を確認
Shaoheng Fang, Rui Ye, Wenhao Wang, Zuhong Liu, Yuxiao Wang, Yafei Wang, Siheng Chen, Yanfeng Wang, (参考訳) ロードサイドユニット(RSU)は、V2X通信を通じて、自動運転車の安全性とロバスト性を大幅に向上させることができる。 現在、単一のRSUの使用は主にリアルタイム推論とV2Xコラボレーションに焦点を当てているが、RSUセンサが収集した高品質データの潜在的な価値は無視されている。 多数のRSUから大量のデータを統合することで、モデルトレーニングのための豊富なデータソースを提供することができます。 しかし、根拠となる真理の注釈がないことと膨大な量のデータを送信することの難しさは、この隠れた価値を完全に活用するには避けられない2つの障壁である。 本稿では,自己監督型シーンフロー推定のための革新的なフェデレーション学習フレームワークであるFedRSUを紹介する。 FedRSUでは、各RSUに対して、各タイムスタンプにおける点のシーンフロー予測を、その後のマルチモーダルな観測によって監視することができる。 FedRSUのもうひとつの重要なコンポーネントはフェデレーション学習である。複数のデバイスが、トレーニングデータをローカルとプライベートに保ちながら、共同でMLモデルをトレーニングする。 再帰的な自己教師付き学習パラダイムの力により、FLはRASから無数の未使用データを活用できる。 FedRSU フレームワークを検証するため,大規模なマルチモーダルデータセット RSU-SF を構築した。 データセットは17のRSUクライアントで構成され、さまざまなシナリオ、モダリティ、センサー設定をカバーしている。 RSU-SFに基づいて、FedRSUはITSにおけるモデル性能を大幅に改善し、多様なFLシナリオ下で包括的なベンチマークを提供することを示す。 我々の知る限りでは、FLコミュニティのための最初の実世界のLiDARカメラマルチモーダルデータセットとベンチマークを提供する。

Roadside unit (RSU) can significantly improve the safety and robustness of autonomous vehicles through Vehicle-to-Everything (V2X) communication. Currently, the usage of a single RSU mainly focuses on real-time inference and V2X collaboration, while neglecting the potential value of the high-quality data collected by RSU sensors. Integrating the vast amounts of data from numerous RSUs can provide a rich source of data for model training. However, the absence of ground truth annotations and the difficulty of transmitting enormous volumes of data are two inevitable barriers to fully exploiting this hidden value. In this paper, we introduce FedRSU, an innovative federated learning framework for self-supervised scene flow estimation. In FedRSU, we present a recurrent self-supervision training paradigm, where for each RSU, the scene flow prediction of points at every timestamp can be supervised by its subsequent future multi-modality observation. Another key component of FedRSU is federated learning, where multiple devices collaboratively train an ML model while keeping the training data local and private. With the power of the recurrent self-supervised learning paradigm, FL is able to leverage innumerable underutilized data from RSU. To verify the FedRSU framework, we construct a large-scale multi-modality dataset RSU-SF. The dataset consists of 17 RSU clients, covering various scenarios, modalities, and sensor settings. Based on RSU-SF, we show that FedRSU can greatly improve model performance in ITS and provide a comprehensive benchmark under diverse FL scenarios. To the best of our knowledge, we provide the first real-world LiDAR-camera multi-modal dataset and benchmark for the FL community.
翻訳日:2024-08-14 00:18:18 公開日:2024-08-11
# タスク成功は十分ではない:望ましくないエージェント行動に対処するための行動批判としてのビデオ言語モデルの利用を探る

Task Success is not Enough: Investigating the Use of Video-Language Models as Behavior Critics for Catching Undesirable Agent Behaviors ( http://arxiv.org/abs/2402.04210v2 )

ライセンス: Link先を確認
Lin Guan, Yifan Zhou, Denis Liu, Yantian Zha, Heni Ben Amor, Subbarao Kambhampati, (参考訳) 大規模生成モデルは意味のある候補解を抽出するのに有用であるが、それらはしばしばタスク制約やユーザの好みを見落としている。 モデルが外部検証器と結合され、最終的な解が検証フィードバックに従って反復的または漸進的に導出される場合、それらの全パワーはより有効である。 具体的AIの文脈では、検証は多くの場合、命令で指定された目標条件が満たされたかどうかのみを評価する。 しかし,これらのエージェントが日常的にシームレスに統合されるためには,タスクの成功以上の幅広い制約や嗜好を考慮に入れることが不可欠である(例えば,ロボットは大きな変形を避けるために,パンを慎重に把握する必要がある)。 しかしながら、ロボットタスクの非有界なスコープを考えると、Goのゲームや定理証明のような明示的な知識タスクに使用されるものに似たスクリプト検証を構築することは不可能である。 大きな視覚と言語モデル(VLM)は、ビデオの中の望ましくないロボットの振る舞いを捉えるために、スケーラブルな行動批判として、ほぼ完璧に利用できますか? そこで我々はまず,目標達成型で望ましくないロボットポリシーの多様な事例を含むベンチマークを構築した。 そして,VLM批判を総合的に評価し,その強みや失敗モードをより深く理解する。 評価に基づいて,VLM批判を効果的に活用するためのガイドラインを提供し,フィードバックを政策改善の反復的なプロセスに統合する実践的な方法を示す。 データセットとコードベースは、https://guansuns.github.io/pages/vlm-critic.com/でリリースされている。

Large-scale generative models are shown to be useful for sampling meaningful candidate solutions, yet they often overlook task constraints and user preferences. Their full power is better harnessed when the models are coupled with external verifiers and the final solutions are derived iteratively or progressively according to the verification feedback. In the context of embodied AI, verification often solely involves assessing whether goal conditions specified in the instructions have been met. Nonetheless, for these agents to be seamlessly integrated into daily life, it is crucial to account for a broader range of constraints and preferences beyond bare task success (e.g., a robot should grasp bread with care to avoid significant deformations). However, given the unbounded scope of robot tasks, it is infeasible to construct scripted verifiers akin to those used for explicit-knowledge tasks like the game of Go and theorem proving. This begs the question: when no sound verifier is available, can we use large vision and language models (VLMs), which are approximately omniscient, as scalable Behavior Critics to catch undesirable robot behaviors in videos? To answer this, we first construct a benchmark that contains diverse cases of goal-reaching yet undesirable robot policies. Then, we comprehensively evaluate VLM critics to gain a deeper understanding of their strengths and failure modes. Based on the evaluation, we provide guidelines on how to effectively utilize VLM critiques and showcase a practical way to integrate the feedback into an iterative process of policy refinement. The dataset and codebase are released at: https://guansuns.github.io/pages/vlm-critic.
翻訳日:2024-08-14 00:07:59 公開日:2024-08-11
# 複数分布からの因果表現学習:一般設定

Causal Representation Learning from Multiple Distributions: A General Setting ( http://arxiv.org/abs/2402.05052v3 )

ライセンス: Link先を確認
Kun Zhang, Shaoan Xie, Ignavier Ng, Yujia Zheng, (参考訳) 多くの問題において、測定された変数(例えば、画像画素)は、潜在因果変数(例えば、基礎となる概念や対象)の数学的関数である。 環境の変化を予測したり、システムに適切な変更を加えるためには、潜伏する因果変数$Z_i$とその因果関係をグラフ$\mathcal{G}_Z$で表すのに役立つ。 この問題は近年、因果表現学習として知られている。 本稿では,複数分布(異種データや非定常時系列など)からの因果表現学習の一般的な非パラメトリックな設定について,分布変化の背景にある困難な介入を仮定することなく検討する。 製品として、パラメトリック因果モデルやハード介入といった他の仮定によってもたらされる独特な利点を見出すのに役立ちます。 本稿では, 因果関係の因果関係について, 因果関係に適切な変化条件と, 因果関係の因果関係を考慮し, 因果関係の因果関係を考慮し, 因果関係と因果関係の因果関係が関係していることを示す。 場合によっては、ほとんどの潜伏変数はコンポーネントワイド変換まで回収できる。 実験結果は我々の理論的主張を検証する。

In many problems, the measured variables (e.g., image pixels) are just mathematical functions of the latent causal variables (e.g., the underlying concepts or objects). For the purpose of making predictions in changing environments or making proper changes to the system, it is helpful to recover the latent causal variables $Z_i$ and their causal relations represented by graph $\mathcal{G}_Z$. This problem has recently been known as causal representation learning. This paper is concerned with a general, completely nonparametric setting of causal representation learning from multiple distributions (arising from heterogeneous data or nonstationary time series), without assuming hard interventions behind distribution changes. We aim to develop general solutions in this fundamental case; as a by product, this helps see the unique benefit offered by other assumptions such as parametric causal models or hard interventions. We show that under the sparsity constraint on the recovered graph over the latent variables and suitable sufficient change conditions on the causal influences, interestingly, one can recover the moralized graph of the underlying directed acyclic graph, and the recovered latent variables and their relations are related to the underlying causal model in a specific, nontrivial way. In some cases, most latent variables can even be recovered up to component-wise transformations. Experimental results verify our theoretical claims.
翻訳日:2024-08-13 23:57:57 公開日:2024-08-11
# PoisonedRAG: 大規模言語モデルの検索強化に対する知識破壊攻撃

PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models ( http://arxiv.org/abs/2402.07867v2 )

ライセンス: Link先を確認
Wei Zou, Runpeng Geng, Binghui Wang, Jinyuan Jia, (参考訳) 大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。 彼らの成功にもかかわらず、それらはまた、最新の知識と幻覚の欠如のような固有の制限も持っている。 Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。 RAGの鍵となる考え方は、知識データベースから取得した外部知識に基づいて、LCMの回答生成を行うことである。 既存の研究は主にRAGの正確さや効率の改善に重点を置いており、その安全性は明らかにされていない。 私たちはこの仕事のギャップを埋めることを目指しています。 RAGシステムにおける知識データベースは,新たな,実用的な攻撃面を導入している。 この攻撃面に基づいて、攻撃者はRAGシステムの知識データベースにいくつかの悪意のあるテキストを注入し、LSMを誘導して攻撃長ターゲット質問に対する攻撃長ターゲット応答を生成することができる、RAGに対する最初の知識汚職攻撃であるPoisonedRAGを提案する。 我々は、知識汚職攻撃を最適化問題として定式化し、その解決策は悪意のあるテキストの集合である。 RAGシステムにおける攻撃者の背景知識(例えば、ブラックボックスとホワイトボックスの設定)に応じて、最適化問題の解法を2つ提案する。 その結果,PoisonedRAGは,対象質問に対して悪意のある5つのテキストを数百万のテキストを含む知識データベースに注入することで,90%の攻撃成功率を達成することができた。 我々はまた、いくつかの防衛も評価し、新たな防衛の必要性を強調しながら、ポイセドラグを防衛するには不十分であることを示した。

Large language models (LLMs) have achieved remarkable success due to their exceptional generative capabilities. Despite their success, they also have inherent limitations such as a lack of up-to-date knowledge and hallucination. Retrieval-Augmented Generation (RAG) is a state-of-the-art technique to mitigate these limitations. The key idea of RAG is to ground the answer generation of an LLM on external knowledge retrieved from a knowledge database. Existing studies mainly focus on improving the accuracy or efficiency of RAG, leaving its security largely unexplored. We aim to bridge the gap in this work. We find that the knowledge database in a RAG system introduces a new and practical attack surface. Based on this attack surface, we propose PoisonedRAG, the first knowledge corruption attack to RAG, where an attacker could inject a few malicious texts into the knowledge database of a RAG system to induce an LLM to generate an attacker-chosen target answer for an attacker-chosen target question. We formulate knowledge corruption attacks as an optimization problem, whose solution is a set of malicious texts. Depending on the background knowledge (e.g., black-box and white-box settings) of an attacker on a RAG system, we propose two solutions to solve the optimization problem, respectively. Our results show PoisonedRAG could achieve a 90% attack success rate when injecting five malicious texts for each target question into a knowledge database with millions of texts. We also evaluate several defenses and our results show they are insufficient to defend against PoisonedRAG, highlighting the need for new defenses.
翻訳日:2024-08-13 23:57:57 公開日:2024-08-11
# 時系列表現学習改善のための双方向生成事前学習

Bidirectional Generative Pre-training for Improving Time Series Representation Learning ( http://arxiv.org/abs/2402.09558v2 )

ライセンス: Link先を確認
Ziyang Song, Qincheng Lu, He Zhu, David Buckeridge, Yue Li, (参考訳) 分類や回帰といった差別的なタスクに対する時系列表現の学習は、医療分野における長年にわたる課題である。 現在の事前学習方法は、一方向の次トーケン予測またはランダムにマスキングされたトークン予測で制限される。 本稿では, 生体信号と経時的臨床記録を交互変換器層で予測することにより, 生体信号と経時的臨床記録を事前学習する双方向時間生成事前学習型トランス (Bidirectional Timely Generative Pre-trained Transformer, BiTimelyGPT) を提案する。 この事前学習タスクは、時系列のオリジナルの分布とデータ形状を保存する。 さらに、フルランクの前方および後方の注意行列はより表現力のある表現能力を示す。 BiTimelyGPTは、生体信号と経時的臨床記録を用いて、神経機能、疾患診断、生理的兆候を予測する上で優れた性能を示す。 注意熱マップを可視化することにより、事前学習したBiTimelyGPTが、タスクを微調整した後でも、生体信号の時系列配列から識別セグメントを識別できることを観察する。

Learning time-series representations for discriminative tasks, such as classification and regression, has been a long-standing challenge in the healthcare domain. Current pre-training methods are limited in either unidirectional next-token prediction or randomly masked token prediction. We propose a novel architecture called Bidirectional Timely Generative Pre-trained Transformer (BiTimelyGPT), which pre-trains on biosignals and longitudinal clinical records by both next-token and previous-token prediction in alternating transformer layers. This pre-training task preserves original distribution and data shapes of the time-series. Additionally, the full-rank forward and backward attention matrices exhibit more expressive representation capabilities. Using biosignals and longitudinal clinical records, BiTimelyGPT demonstrates superior performance in predicting neurological functionality, disease diagnosis, and physiological signs. By visualizing the attention heatmap, we observe that the pre-trained BiTimelyGPT can identify discriminative segments from biosignal time-series sequences, even more so after fine-tuning on the task.
翻訳日:2024-08-13 23:57:57 公開日:2024-08-11
# 量子コンピュータにおける対称性検出トポロジカル物質のダイナミクス

Dynamics of Symmetry-Protected Topological Matter on a Quantum Computer ( http://arxiv.org/abs/2402.12661v3 )

ライセンス: Link先を確認
Miguel Mercado, Kyle Chen, Parth Darekar, Aiichiro Nakano, Rosa Di Felice, Stephan Haas, (参考訳) トポロジカルエッジモードの制御は、外部ノイズに対して弾力的に量子情報を符号化するのに望ましい。 しかしながら、量子ハードウェアへの実装は、現在の回路深度とノイズの制限により、時間ステップの数で増加するため、長年の問題のままである。 回路深度が時間に依存しない最近開発された定数深度量子回路を利用して、雑音のある中間スケール量子(NISQ)プロセッサ上のトポロジカル絶縁体におけるバルクおよび表面モードの長期動的シミュレーションを成功させ、局所化されたトポロジカルモードのロバストなシグネチャを示す。 さらに、NISQハードウェアで容易にシミュレートできる一次元トポロジカルハミルトニアンのクラスを同定する。 この結果は、現在の量子プロセッサ上でのトポロジカル量子スピン系の安定な長期実装への道筋を提供する。

Control of topological edge modes is desirable for encoding quantum information resiliently against external noise. Their implementation on quantum hardware, however, remains a long-standing problem due to current limitations of circuit depth and noise, which grows with the number of time steps. By utilizing recently developed constant-depth quantum circuits in which the circuit depth is independent of time, we demonstrate successful long-time dynamics simulation of bulk and surface modes in topological insulators on noisy intermediate-scale quantum (NISQ) processors, which exhibits robust signatures of localized topological modes. We further identify a class of one-dimensional topological Hamiltonians that can be readily simulated with NISQ hardware. Our results provide a pathway towards stable long-time implementation of topological quantum spin systems on present day quantum processors.
翻訳日:2024-08-13 23:57:57 公開日:2024-08-11
# 光位相感度非ガウス状態に対する時間領域プログラマブルビームスプリッタ演算

Time-domain programmable beam-splitter operations for an optical phase-sensitive non-Gaussian state ( http://arxiv.org/abs/2402.14372v2 )

ライセンス: Link先を確認
Daichi Okuno, Takato Yoshida, Ryoko Arita, Takahiro Kashiwazaki, Takeshi Umeki, Shigehito Miki, Hirotaka Terai, Masahiro Yabuno, Fumihiro China, Shuntaro Takeda, (参考訳) 位相感受性非ガウス状態に対する時間領域プログラマブルビームスプリッタ(BS)演算を可能にするループベース光プロセッサを提案する。 ループ自体は高品質であり、ウィグナーの負性性と位相コヒーレンスを保ちながら、7回の往復で非ガウス状態の保存を可能にする。 非ガウス状態で様々なBS演算を行い、状態の波形の変換として評価する。 我々の研究は非ガウス状態と時間多重化を統合し、大規模で普遍的な量子情報処理の基礎を築いた。

We present a loop-based optical processor enabling time-domain programmable beam-splitter (BS) operations for a phase-sensitive non-Gaussian state. The loop itself is of high quality, allowing for storage of a non-Gaussian state for up to seven round trips while preserving its Wigner negativity and phase coherence. We perform various BS operations on a non-Gaussian state and evaluate them as transformations of the state's waveforms. Our work integrates non-Gaussian states with time multiplexing, laying the foundation for large-scale universal quantum information processing.
翻訳日:2024-08-13 23:57:57 公開日:2024-08-11
# 弾性時間ステップによる強化学習

Reinforcement Learning with Elastic Time Steps ( http://arxiv.org/abs/2402.14961v4 )

ライセンス: Link先を確認
Dong Wang, Giovanni Beltrame, (参考訳) 従来の強化学習(RL)のポリシーは、しばしば制御率の選択の影響を無視して、固定的な制御率で実装される。 最適な制御速度がタスク要求によって異なるため、これは非効率につながる可能性がある。 本稿では, 動的制御周波数を動的に調整するために, 弾力的な時間ステップを用いた非政治アクター批判アルゴリズムであるMulti-Objective Soft Elastic Actor-Critic (MOSEAC)を提案する。 このアプローチは、最小の実効周波数を選択することで、計算資源を最小化する。 我々は,MOSEACが理論レベルで収束し,安定なポリシーを生成できることを示し,実時間3Dレースゲームにおける結果を検証する。 MOSEACはエネルギー効率とタスク効率の点で他の可変時間ステップのアプローチよりも大幅に優れていた。 さらに、MOSEACはより速くより安定したトレーニングを行い、ロボット工学における実世界のRL応用の可能性を示した。

Traditional Reinforcement Learning (RL) policies are typically implemented with fixed control rates, often disregarding the impact of control rate selection. This can lead to inefficiencies as the optimal control rate varies with task requirements. We propose the Multi-Objective Soft Elastic Actor-Critic (MOSEAC), an off-policy actor-critic algorithm that uses elastic time steps to dynamically adjust the control frequency. This approach minimizes computational resources by selecting the lowest viable frequency. We show that MOSEAC converges and produces stable policies at the theoretical level, and validate our findings in a real-time 3D racing game. MOSEAC significantly outperformed other variable time step approaches in terms of energy efficiency and task effectiveness. Additionally, MOSEAC demonstrated faster and more stable training, showcasing its potential for real-world RL applications in robotics.
翻訳日:2024-08-13 23:57:57 公開日:2024-08-11
# 学習と自己調整 : インストラクションの微調整を再考する

Learning or Self-aligning? Rethinking Instruction Fine-tuning ( http://arxiv.org/abs/2402.18243v3 )

ライセンス: Link先を確認
Mengjie Ren, Boxi Cao, Hongyu Lin, Cao Liu, Xianpei Han, Ke Zeng, Guanglu Wan, Xunliang Cai, Le Sun, (参考訳) インストラクションファインチューニング~(IFT)は、大きな言語モデル~(LLM)を構築する上で重要なフェーズである。 これまでの研究は主に、行動規範の伝達と追加の世界知識の学習におけるIFTの役割に焦点を当てていた。 しかし、IFTの基盤となるメカニズムの理解は依然として著しく制限されている。 本稿では,IFTの潜在的な要因を分離し,異なる要因の個別分析を可能にする知識介入フレームワークを設計する。 驚くべきことに、我々の実験では、IFTを通じてさらなる世界の知識を学ぼうとすると、ポジティブな影響を生み出すのに苦戦し、重大なネガティブな影響を招きかねないことがわかりました。 さらに、IFTの前後における内部知識の整合性を維持することが、IFTの成功に欠かせない要因であることが判明した。 本研究は,IFTの基盤となるメカニズムを明らかにするとともに,最近の将来的な研究に対する堅牢な支援を提供するものである。

Instruction Fine-tuning~(IFT) is a critical phase in building large language models~(LLMs). Previous works mainly focus on the IFT's role in the transfer of behavioral norms and the learning of additional world knowledge. However, the understanding of the underlying mechanisms of IFT remains significantly limited. In this paper, we design a knowledge intervention framework to decouple the potential underlying factors of IFT, thereby enabling individual analysis of different factors. Surprisingly, our experiments reveal that attempting to learn additional world knowledge through IFT often struggles to yield positive impacts and can even lead to markedly negative effects. Further, we discover that maintaining internal knowledge consistency before and after IFT is a critical factor for achieving successful IFT. Our findings reveal the underlying mechanisms of IFT and provide robust support for some very recent and potential future works.
翻訳日:2024-08-13 23:48:12 公開日:2024-08-11
# FSL-Rectifier:テスト時間拡張によるFew-Shot学習におけるアウトリーチの定式化

FSL-Rectifier: Rectify Outliers in Few-Shot Learning via Test-Time Augmentation ( http://arxiv.org/abs/2402.18292v4 )

ライセンス: Link先を確認
Yunwei Bai, Ying Kiat Tan, Shiming Chen, Yao Shu, Tsuhan Chen, (参考訳) FSL(Few-shot-learning)は通常、新しいクラス(サポートセット)のラベル付きサンプルを基準として、トレーニング中に目に見えないクラスに属する画像(クエリ)を識別するモデルを必要とする。 これまでのところ、FSLモデルの一般化能力を改善するためにデータ拡張をトレーニングするアルゴリズムはたくさんありますが、推論中の外部クエリやイメージのサポートは、依然として大きな一般化課題を生じさせます。 本研究は, 外部サンプルによるバイアスを軽減するため, 生成画像コンバインダを用いて, 原サンプルと適切な列車級サンプルを組み合わせることで, 追加の試験クラスサンプルを生成する。 次に,拡張器を用いて平均的特徴を抽出し,平均化によりより典型的な表現を導出する。 実験により,FSLモデルの精度向上率を約10%(例:46.86%から53.28%)とした。 重要なことは、事前訓練された画像コンバインダーが与えられた場合、本手法は市販のFSLモデルのトレーニングを不要とし、追加のデータセットやモデル自体のさらなるトレーニングを必要とせず、性能を向上させることができる。

Few-shot-learning (FSL) commonly requires a model to identify images (queries) that belong to classes unseen during training, based on a few labeled samples of the new classes (support set) as reference. So far, plenty of algorithms involve training data augmentation to improve the generalization capability of FSL models, but outlier queries or support images during inference can still pose great generalization challenges. In this work, to reduce the bias caused by the outlier samples, we generate additional test-class samples by combining original samples with suitable train-class samples via a generative image combiner. Then, we obtain averaged features via an augmentor, which leads to more typical representations through the averaging. We experimentally and theoretically demonstrate the effectiveness of our method, e.g., obtaining a test accuracy improvement proportion of around 10% (e.g., from 46.86% to 53.28%) for trained FSL models. Importantly, given pretrained image combiner, our method is training-free for off-the-shelf FSL models, whose performance can be improved without extra datasets nor further training of the models themselves.
翻訳日:2024-08-13 23:48:12 公開日:2024-08-11
# 古典系の3つの統計的記述とそのハイブリッド量子古典系への拡張

Three statistical descriptions of classical systems and their extensions to hybrid quantum-classical systems ( http://arxiv.org/abs/2403.07738v2 )

ライセンス: Link先を確認
Andrés Darío Bermúdez Manjarres, Marcel Reginatto, Sebastian Ulbricht, (参考訳) 古典粒子系の統計的記述を3つ提示し、それらのハイブリッド量子古典系への拡張について考察する。 古典的な記述は、構成空間上のアンサンブル、位相空間上のアンサンブル、およびクープマン・ヴォン・ノイマンの定式化の代替となるファン・ホーヴ作用素を用いたヒルベルト空間アプローチである。 いずれの場合も、位相空間の通常のポアソン代数に同型な古典的可観測環と対応するリー代数を定義する自然な方法が存在する。 古典粒子の場合、3つの記述は等価であり、どのように関連しているかを示す。 次に、これらの記述を修正して拡張し、古典粒子が量子粒子と相互作用するハイブリッドモデルを導入する。 位相空間上のアンサンブルのアプローチと、新しいヒルベルト空間アプローチは等価なハイブリッドモデルをもたらすが、構成空間上のアンサンブルのアプローチのハイブリッドモデルと等価ではない。 したがって、2つの非等価なハイブリッドシステムを特定し、特に絡み合いに関して異なる予測を行う。 これらの結果は、重力が量子化されなければならないかどうかの問題に対処する古典的なメディエーターを介して相互作用する量子系に関する「no-go'」定理に関する関心事である。 このような定理は通常、モデルを依存させる仮定を必要とする。 ここで論じるハイブリッドシステムは、簡単な例を計算して `no-go'' 定理の仮定とそれらの適用性をテストするために使用できる非等価モデルの具体的な例を提供する。

We present three statistical descriptions for systems of classical particles and consider their extension to hybrid quantum-classical systems. The classical descriptions are ensembles on configuration space, ensembles on phase space, and a Hilbert space approach using van Hove operators which provides an alternative to the Koopman-von Neumann formulation. In all cases, there is a natural way to define classical observables and a corresponding Lie algebra that is isomorphic to the usual Poisson algebra in phase space. We show that in the case of classical particles, the three descriptions are equivalent and indicate how they are related. We then modify and extend these descriptions to introduce hybrid models where a classical particle interacts with a quantum particle. The approach of ensembles on phase space and the Hilbert space approach, which are novel, lead to equivalent hybrid models, while they are not equivalent to the hybrid model of the approach of ensembles on configuration space. Thus, we end up identifying two inequivalent types of hybrid systems, making different predictions, especially when it comes to entanglement. These results are of interest regarding ``no-go'' theorems about quantum systems interacting via a classical mediator which address the issue of whether gravity must be quantized. Such theorems typically require assumptions that make them model dependent. The hybrid systems that we discuss provide concrete examples of inequivalent models that can be used to compute simple examples to test the assumptions of the ``no-go'' theorems and their applicability.
翻訳日:2024-08-13 23:48:12 公開日:2024-08-11
# denoiSplit: 関節顕微鏡画像分割法と教師なし復調法

denoiSplit: a method for joint microscopy image splitting and unsupervised denoising ( http://arxiv.org/abs/2403.11854v3 )

ライセンス: Link先を確認
Ashesh Ashesh, Florian Jug, (参考訳) 本研究では,新しい分析課題,すなわち共同意味画像分割と教師なし認知の課題に対処する手法であるdenoiSplitを提案する。 この二重アプローチは蛍光顕微鏡において重要な応用であり、セマンティック画像分割は重要な応用であるが、ノイズは一般的に画像内容の下流解析を妨げる。 画像分割は、イメージを識別可能なセマンティック構造に分割することを含む。 この課題に対する現在の最先端の手法は、意図せず予測された出力にノイズを分散させることによって、画像ノイズの存在に苦しむことを示す。 ここでは、教師なしの遮音サブタスクを統合することで、画像ノイズに対処することができる。 この統合により、画像ノイズの顕著かつ現実的なレベルが存在する場合でも、セマンティックイメージのアンミックスが改善される。 デノワスプリットの重要な革新は、特に定式化されたノイズモデルの使用と、我々が訓練している高次元階層型潜在空間に対するKL偏差損失の適切な調整である。 実世界の顕微鏡画像において,複数のタスクにまたがるデノワスプリットの性能を示す。 さらに、定性的かつ定量的な評価を行い、既存のベンチマークと比較し、単一の変分分割エンコーダデコーダ(VSE)ネットワークを用いて、セマンティックスプリッティングとデノナイジングを併用して、セマンティックスプリッティングとデノナイジングを併用する効果を示す。

In this work, we present denoiSplit, a method to tackle a new analysis task, i.e. the challenge of joint semantic image splitting and unsupervised denoising. This dual approach has important applications in fluorescence microscopy, where semantic image splitting has important applications but noise does generally hinder the downstream analysis of image content. Image splitting involves dissecting an image into its distinguishable semantic structures. We show that the current state-of-the-art method for this task struggles in the presence of image noise, inadvertently also distributing the noise across the predicted outputs. The method we present here can deal with image noise by integrating an unsupervised denoising subtask. This integration results in improved semantic image unmixing, even in the presence of notable and realistic levels of imaging noise. A key innovation in denoiSplit is the use of specifically formulated noise models and the suitable adjustment of KL-divergence loss for the high-dimensional hierarchical latent space we are training. We showcase the performance of denoiSplit across multiple tasks on real-world microscopy images. Additionally, we perform qualitative and quantitative evaluations and compare the results to existing benchmarks, demonstrating the effectiveness of using denoiSplit: a single Variational Splitting Encoder-Decoder (VSE) Network using two suitable noise models to jointly perform semantic splitting and denoising.
翻訳日:2024-08-13 23:48:12 公開日:2024-08-11
# 意味ベクトルの脳基底化は視覚刺激の神経復号を改善する

Brain-grounding of semantic vectors improves neural decoding of visual stimuli ( http://arxiv.org/abs/2403.15176v2 )

ライセンス: Link先を確認
Shirin Vafaei, Ryohei Fukuma, Huixiang Yang, Haruhiko Kishima, Takufumi Yanagisawa, (参考訳) メンタルコンテンツの正確なニューラルデコードのためのアルゴリズムを開発することは、神経科学の分野における長年の目標である。 脳の復号化は通常、ニューラルネットワークを刺激の事前訓練された特徴ベクトル表現にマッピングするために機械学習モデルを訓練するために使用される。 これらのベクトルは通常、画像ベースまたは/またはテキストベースの特徴空間から駆動される。 これは、その固有の特性が神経活動パターンに符号化されたものと根本的に異なる可能性があり、脳デコーダがこのマッピングを正確に学習する能力を制限することを意味する。 そこで本研究では,人間の脳における視覚刺激の神経的表現構造をよりよく整合させる,セマンティックベクターの脳基底化という表現学習フレームワークを提案する。 我々は150の視覚刺激カテゴリーの機能的磁気共鳴画像(fMRI)を用いてこのモデルを訓練し、ゼロショット脳デコーディングを行った。 1)fMRI, 2)脳磁図(MEG)、及び 3)視覚刺激の脳波データ(ECoG)。 その結果、fMRIを用いた脳基底ベクトルを用いて、3つの脳画像から得られる脳データのゼロショット復号精度が増大することが判明した。 これらの知見は、脳復号アルゴリズムの性能を高めるために、より豊富な脳由来の機能を組み込むことの可能性を強調している。

Developing algorithms for accurate neural decoding of mental contents is a long-cherished goal in the field of neuroscience. Brain decoding is typically employed by training machine learning models to map neural data into a pretrained feature vector representation of stimuli. These vectors are usually driven from imagebased and/or text-based feature spaces. This implies that their intrinsic characteristics might be fundamentally different than those encoded in neural activity patterns, resulting in limiting the capability of brain decoders to accurately learn this mapping. To address this issue, we propose a representation learning framework, termed brain-grounding of semantic vectors, that fine-tunes pretrained feature vectors to better align with the structure of neural representation of visual stimuli in the human brain. We trained this model with functional magnetic resonance imaging (fMRI) of 150 visual stimuli categories and then performed zero-shot brain decoding on 1) fMRI, 2) magnetoencephalography (MEG), and 3) electrocorticography (ECoG) neural data of visual stimuli. Our results demonstrated that by using the fMRI-based brain-grounded vectors, the zero-shot decoding accuracy of brain data from all three neuroimaging modalities increases. These findings underscore the potential of incorporating a richer array of brain-derived features to enhance the performance of brain decoding algorithms.
翻訳日:2024-08-13 23:38:15 公開日:2024-08-11
# ChatGPT関連プロジェクトの実証研究とGitHub上の課題

An Empirical Study of ChatGPT-Related Projects and Their Issues on GitHub ( http://arxiv.org/abs/2403.17437v2 )

ライセンス: Link先を確認
Zheng Lin, Neng Zhang, Chao Liu, Zibin Zheng, (参考訳) 2022年にChatGPTがローンチされて以来、多くのChatGPT関連プロジェクトがGitHubで公開され、広く議論されている。 しかし、GitHubは、ユーザーが興味のあるプロジェクトを効果的に探索するのを助けるために、これらのプロジェクトの詳細な分類を提供していない。 さらに、これらのプロジェクトのユーザによって提起された問題は、例えば、インストール、使用方法、更新など、さまざまな側面をカバーしている。 開発者がより緊急な問題を優先順位付けし、開発効率を向上させるのを助けることは価値があるでしょう。 私たちは‘ChatGPT’というキーワードを使ってGitHubから71,244のプロジェクトを取り出し、データセットとして最も多くの星を持つ上位200のプロジェクトを選択しました。 プロジェクト記述を分析し,ChatGPT関連プロジェクト,すなわちChatGPT実装・トレーニング,ChatGPTアプリケーション,ChatGPT改善・拡張の3つの主要なカテゴリを特定した。 次に、これらのプロジェクトの23,609の課題に対してトピックモデリング手法を適用し、モデル応答、インタラクションインターフェースなど10の課題を特定した。 さらに、3つのプロジェクトカテゴリにおいて、各課題トピックの人気、難易度、および進化について分析した。 主な発見は次のとおりである。 1)3つのカテゴリにおけるプロジェクト数の増加は、ChatGPTの開発と密接に関連している。 2) 課題トピックの人気,難易度,進化の傾向には,3つのプロジェクトカテゴリ間で大きな違いがある。 これらの知見に基づき,ChatGPT関連プロジェクトの開発・管理方法について,プロジェクト開発者とプラットフォームマネージャにようやく示唆を与えた。

Since the launch of ChatGPT in 2022, an increasing number of ChatGPT-related projects are being published on GitHub, sparking widespread discussions. However, GitHub does not provide a detailed classification of these projects to help users effectively explore interested projects. Additionally, the issues raised by users for these projects cover various aspects, e.g., installation, usage, and updates. It would be valuable to help developers prioritize more urgent issues and improve development efficiency. We retrieved 71,244 projects from GitHub using the keyword `ChatGPT' and selected the top 200 representative projects with the highest numbers of stars as our dataset. By analyzing the project descriptions, we identified three primary categories of ChatGPT-related projects, namely ChatGPT Implementation & Training, ChatGPT Application, ChatGPT Improvement & Extension. Next, we applied a topic modeling technique to 23,609 issues of those projects and identified ten issue topics, e.g., model reply and interaction interface. We further analyzed the popularity, difficulty, and evolution of each issue topic within the three project categories. Our main findings are: 1) The increase in the number of projects within the three categories is closely related to the development of ChatGPT; and 2) There are significant differences in the popularity, difficulty, and evolutionary trends of the issue topics across the three project categories. Based on these findings, we finally provided implications for project developers and platform managers on how to better develop and manage ChatGPT-related projects.
翻訳日:2024-08-13 23:38:15 公開日:2024-08-11
# 後遺症を伴わない : 重症心疾患患者に対する薬剤的勧告の強化

Leave No Patient Behind: Enhancing Medication Recommendation for Rare Disease Patients ( http://arxiv.org/abs/2403.17745v2 )

ライセンス: Link先を確認
Zihao Zhao, Yi Jing, Fuli Feng, Jiancan Wu, Chongming Gao, Xiangnan He, (参考訳) 医薬推奨システムは、患者の臨床情報に基づいて、調整された効果的な薬物の組み合わせを提供する手段として、医療において大きな注目を集めている。 しかし, 既往のアプローチは, 稀な疾患の患者に比べて, より正確である傾向があるため, 公平性の問題に悩まされることが多い。 本稿では,レアな疾患の精度を高めるために,事前学習パラダイムを活用したRobust and Accurate Recommendations for Medication (RAREMed) と呼ばれる新しいモデルを提案する。 RAREMedは、入力シーケンスを統一したトランスフォーマーエンコーダを使用して、疾患と手続きコードの間の複雑な関係をキャプチャする。 さらに、SMP(Sequence Matching Prediction)とSR(Self Restruction)という2つの自己指導型事前訓練タスクを導入し、臨床コード間の専門的な薬物ニーズと相互関係を学習する。 2つの実世界のデータセットによる実験結果から、RAREMedは、稀な疾患と一般的な疾患の両方に対して正確な薬物セットを提供しており、医薬品推奨システムにおける不公平さを軽減していることが示された。

Medication recommendation systems have gained significant attention in healthcare as a means of providing tailored and effective drug combinations based on patients' clinical information. However, existing approaches often suffer from fairness issues, as recommendations tend to be more accurate for patients with common diseases compared to those with rare conditions. In this paper, we propose a novel model called Robust and Accurate REcommendations for Medication (RAREMed), which leverages the pretrain-finetune learning paradigm to enhance accuracy for rare diseases. RAREMed employs a transformer encoder with a unified input sequence approach to capture complex relationships among disease and procedure codes. Additionally, it introduces two self-supervised pre-training tasks, namely Sequence Matching Prediction (SMP) and Self Reconstruction (SR), to learn specialized medication needs and interrelations among clinical codes. Experimental results on two real-world datasets demonstrate that RAREMed provides accurate drug sets for both rare and common disease patients, thereby mitigating unfairness in medication recommendation systems.
翻訳日:2024-08-13 23:38:15 公開日:2024-08-11
# 効率的なLDM生成のためのプロンプトプロンプト型適応型構造化プルーニング

Prompt-prompted Adaptive Structured Pruning for Efficient LLM Generation ( http://arxiv.org/abs/2404.01365v3 )

ライセンス: Link先を確認
Harry Dong, Beidi Chen, Yuejie Chi, (参考訳) トランスフォーマーベースの大規模言語モデル (LLM) の開発により、これらのモデルは目覚ましい実用性のために多くの分野に適用されているが、デプロイにはかなりの計算コストがかかる。 幸いなことに、専門家の混合体(MoE)の切断や構築などの手法は、トランスフォーマーフィードフォワード(FF)ブロックの疎結合を利用して、高速化とメモリ要求の削減を図っている。 しかしながら、これらのテクニックは、トレーニングを必要とすることや、特定のタイプのアーキテクチャに制限されることが多いため、実際には非常にコストがかかり、柔軟性がない。 GRIFFINは,非ReLUアクティベーション関数の異なる複数のLLMをまたいで効率よく生成するために,シーケンスレベルで独自のFFエキスパートを選択する,新しいトレーニングフリーでキャリブレーションのない手法である。 これは、多くの訓練されたLLMが自然に配列内で高度に構造化されたFF活性化パターンを発生させるという批判的な観察のためである。 提案手法の単純さにもかかわらず,GRIFFIN は FF パラメータの 50% で,GRIFFIN は様々な分類タスクと生成タスクの分解をほとんど行わずに,元のモデルの性能を維持している (例えば Gemma 7B と Llama 2 13B でそれぞれ 1.29$\times$ と 1.25$\times$ のスピードアップ)。 コードはhttps://github.com/hdong920/GRIFFINで入手できる。

With the development of transformer-based large language models (LLMs), they have been applied to many fields due to their remarkable utility, but this comes at a considerable computational cost at deployment. Fortunately, some methods such as pruning or constructing a mixture of experts (MoE) aim at exploiting sparsity in transformer feedforward (FF) blocks to gain boosts in speed and reduction in memory requirements. However, these techniques can be very costly and inflexible in practice, as they often require training or are restricted to specific types of architectures. To address this, we introduce GRIFFIN, a novel training-free and calibration-free method that selects unique FF experts at the sequence level for efficient generation across a plethora of LLMs with different non-ReLU activation functions. This is possible due to a critical observation that many trained LLMs naturally produce highly structured FF activation patterns within a sequence, which we call flocking. Despite our method's simplicity, we show with 50% of the FF parameters, GRIFFIN maintains the original model's performance with little to no degradation on a variety of classification and generation tasks, all while improving latency (e.g. 1.29$\times$ and 1.25$\times$ speed-ups in Gemma 7B and Llama 2 13B, respectively, on an NVIDIA L40). Code is available at https://github.com/hdong920/GRIFFIN.
翻訳日:2024-08-13 23:27:39 公開日:2024-08-11
# LLM推論器:大規模言語モデルを用いたステップバイステップ推論の新しい評価,ライブラリ,解析

LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models ( http://arxiv.org/abs/2404.05221v2 )

ライセンス: Link先を確認
Shibo Hao, Yi Gu, Haotian Luo, Tianyang Liu, Xiyan Shao, Xinyuan Wang, Shuhua Xie, Haodi Ma, Adithya Samavedhi, Qiyue Gao, Zhen Wang, Zhiting Hu, (参考訳) 複雑な問題に対処し、堅牢性と解釈可能性を高めるために、LLM(Large Language Models)には正確なステップバイステップ推論を生成することが不可欠である。 先進的な推論手法の開発に関する研究が山積しているにもかかわらず、多種多様なLCMを体系的に分析し、推論連鎖を生成するための推論戦略は重要な課題である。 課題は,(1)異なるタスク上で生成された推論連鎖を自動評価する手法,(2)体系的比較のための多種多様な推論アプローチの統一的な形式化と実装の2つの重要な要素の欠如に起因している。 本稿では,(1)完全自動推論チェーン評価のためのAutoRaceを導入する。 既存のメトリクスは、高価なヒューマンアノテーションや事前定義されたLCMプロンプトに依存しているため、異なるタスクに適応できない。 対照的にAutoRaceは、各タスクに適した詳細な評価基準を自動的に作成し、基準に従って正確な評価を行うためにGPT-4を使用する。 2) LLM Reasonersは,検索,報酬,世界モデルコンポーネントの統一的な定式化の下で,既存の推論アルゴリズムと新しい推論アルゴリズムのモジュール実装を標準化したライブラリである。 新しい評価とライブラリーにより,(3)異なる推論手法(例えば,CoT,ToT,RAP)について広範な研究を行う。 この分析は、報酬誘導、検索の幅広さ、世界モデル、プロンプトフォーマットなど、推論に寄与するさまざまな要因に関する興味深い知見を明らかにしている。

Generating accurate step-by-step reasoning is essential for Large Language Models (LLMs) to address complex problems and enhance robustness and interpretability. Despite the flux of research on developing advanced reasoning approaches, systematically analyzing the diverse LLMs and reasoning strategies in generating reasoning chains remains a significant challenge. The difficulties stem from the lack of two key elements: (1) an automatic method for evaluating the generated reasoning chains on different tasks, and (2) a unified formalism and implementation of the diverse reasoning approaches for systematic comparison. This paper aims to close the gap: (1) We introduce AutoRace for fully automated reasoning chain evaluation. Existing metrics rely on expensive human annotations or pre-defined LLM prompts not adaptable to different tasks. In contrast, AutoRace automatically creates detailed evaluation criteria tailored for each task, and uses GPT-4 for accurate evaluation following the criteria. (2) We develop LLM Reasoners, a library for standardized modular implementation of existing and new reasoning algorithms, under a unified formulation of the search, reward, and world model components. With the new evaluation and library, (3) we conduct extensive study of different reasoning approaches (e.g., CoT, ToT, RAP). The analysis reveals interesting findings about different factors contributing to reasoning, including the reward-guidance, breadth-vs-depth in search, world model, and prompt formats, etc.
翻訳日:2024-08-13 23:27:39 公開日:2024-08-11
# Unbridled Icarus:Multimodal Large Language Model Securityにおける画像入力の可能性に関する調査

Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security ( http://arxiv.org/abs/2404.05264v2 )

ライセンス: Link先を確認
Yihe Fan, Yuxin Cao, Ziyu Zhao, Ziyao Liu, Shaofeng Li, (参考訳) MLLM(Multimodal Large Language Models)は,AGI(Artificial General Intelligence)の新たな境界を常に定義し,日常生活のさまざまな側面に影響を与える顕著な能力を示す。 画像モダリティは、深い意味情報と、他のモダリティと比較してより連続的な数学的性質に富み、統合されたMLLMの機能を大幅に強化する。 しかし、この統合は二重刃の剣として機能し、攻撃者に非常に隠蔽的で有害な攻撃を悪用するための広範な脆弱性を提供する。 強力なMLLMのような信頼性の高いAIシステムの追求は、現代研究の重要な領域として現れている。 本稿では,画像モダリティのMLLMへの導入に伴う多面的リスクの軽減に努める。 まず,MLLMの基礎的構成要素とトレーニングプロセスについて述べる。 その後,MLLMに固有のセキュリティ脆弱性を概説し,脅威モデルを構築した。 さらに,MLLMの攻撃・防御機構に関する既存の学術談話を分析し,分析し,今後のMLLMのセキュリティ研究への提言をまとめる。 この包括的分析を通じて,MLLMのセキュリティ問題に対する学術的理解を深め,信頼性の高いMLLMシステムの開発を促進することを目的としている。

Multimodal Large Language Models (MLLMs) demonstrate remarkable capabilities that increasingly influence various aspects of our daily lives, constantly defining the new boundary of Artificial General Intelligence (AGI). Image modalities, enriched with profound semantic information and a more continuous mathematical nature compared to other modalities, greatly enhance the functionalities of MLLMs when integrated. However, this integration serves as a double-edged sword, providing attackers with expansive vulnerabilities to exploit for highly covert and harmful attacks. The pursuit of reliable AI systems like powerful MLLMs has emerged as a pivotal area of contemporary research. In this paper, we endeavor to demostrate the multifaceted risks associated with the incorporation of image modalities into MLLMs. Initially, we delineate the foundational components and training processes of MLLMs. Subsequently, we construct a threat model, outlining the security vulnerabilities intrinsic to MLLMs. Moreover, we analyze and summarize existing scholarly discourses on MLLMs' attack and defense mechanisms, culminating in suggestions for the future research on MLLM security. Through this comprehensive analysis, we aim to deepen the academic understanding of MLLM security challenges and propel forward the development of trustworthy MLLM systems.
翻訳日:2024-08-13 23:27:39 公開日:2024-08-11
# 非階層型変圧器を用いたピアノ自動書き起こしのためのスコーリング時間間隔

Scoring Time Intervals using Non-Hierarchical Transformer For Automatic Piano Transcription ( http://arxiv.org/abs/2404.09466v5 )

ライセンス: Link先を確認
Yujia Yan, Zhiyao Duan, (参考訳) 半マルコフ条件ランダムフィールド(semi-CRF)フレームワークは、イベントベースのピアノの書き起こしを約束している。 このフレームワークでは、すべてのイベント(ノートまたはペダル)は、特定のイベントタイプに結びついた閉じた時間間隔として表現される。 神経半CRFアプローチでは、各候補区間のスコアを割り当てるインターバルスコア行列が必要となる。 しかし、間隔を測るための効率的で表現力豊かなアーキテクチャを設計するのは簡単ではない。 本稿では,変圧器における注目スコアの方法に類似したスケール内積演算を用いた簡易なスコアリング手法を提案する。 理論的には、重複しない区間を符号化する特別な構造のため、内部積演算は、正しい転写結果が得られる理想的なスコアリング行列を表現するのに十分である。 次に,低分解能特徴写像のみで動作するエンコーダのみの構造化非階層トランスフォーマーバックボーンが,高精度かつ高精度にピアノ音符やペダルを転写可能であることを示す。 実験により,提案手法は,Maestroデータセット上のF1測度を用いて,すべてのサブタスクにまたがる新しい最先端性能を実現することを示す。

The neural semi-Markov Conditional Random Field (semi-CRF) framework has demonstrated promise for event-based piano transcription. In this framework, all events (notes or pedals) are represented as closed time intervals tied to specific event types. The neural semi-CRF approach requires an interval scoring matrix that assigns a score for every candidate interval. However, designing an efficient and expressive architecture for scoring intervals is not trivial. This paper introduces a simple method for scoring intervals using scaled inner product operations that resemble how attention scoring is done in transformers. We show theoretically that, due to the special structure from encoding the non-overlapping intervals, under a mild condition, the inner product operations are expressive enough to represent an ideal scoring matrix that can yield the correct transcription result. We then demonstrate that an encoder-only structured non-hierarchical transformer backbone, operating only on a low-time-resolution feature map, is capable of transcribing piano notes and pedals with high accuracy and time precision. The experiment shows that our approach achieves the new state-of-the-art performance across all subtasks in terms of the F1 measure on the Maestro dataset.
翻訳日:2024-08-13 23:17:20 公開日:2024-08-11
# FreqMamba: 画像レイニングの周波数視点からMambaを見る

FreqMamba: Viewing Mamba from a Frequency Perspective for Image Deraining ( http://arxiv.org/abs/2404.09476v2 )

ライセンス: Link先を確認
Zou Zhen, Yu Hu, Zhao Feng, (参考訳) 雨害による画像の劣化は、知覚に欠かせない周波数情報を失うことが多く、画像のデライン化は、グローバルおよび局所的な劣化モデリングに依存するこの問題を解決することを目的としている。 近年の研究では、パッチ間の局所的相関を利用して、グローバルおよびローカルな情報を知覚するためのMambaの有効性と効率が指摘されているが、画像デラリニングの周波数解析による拡張の試みは稀であり、周波数モデリング(例えばフーリエ変換)に関連するグローバルな劣化を知覚する能力が制限されている。 本稿では,マンバと周波数解析の相補性を利用した画像デライニングの効率的かつ効率的なパラダイムであるFreqMambaを提案する。 本手法のコアとなるのは,周波数相関を利用する周波数帯域の拡張と,大域的劣化モデリングのためのフーリエ変換の2つの観点からの周波数解析によるマンバの拡張である。 具体的には、FreqMambaは空間マンバ、周波数帯域マンバ、フーリエグローバルモデリングなどの相補的な3重相互作用構造を導入している。 周波数帯域のMambaは、画像を異なる周波数のサブバンドに分解し、周波数次元から2Dスキャンを可能にする。 さらに、Mambaのユニークなデータ依存特性を活用して、異なるスケールの雨画像を用いて、ネットワークに先立って劣化をもたらすことにより、効率的なトレーニングを容易にする。 広汎な実験により,本手法は視覚的,定量的に最先端の手法より優れていることが示された。

Images corrupted by rain streaks often lose vital frequency information for perception, and image deraining aims to solve this issue which relies on global and local degradation modeling. Recent studies have witnessed the effectiveness and efficiency of Mamba for perceiving global and local information based on its exploiting local correlation among patches, however, rarely attempts have been explored to extend it with frequency analysis for image deraining, limiting its ability to perceive global degradation that is relevant to frequency modeling (e.g. Fourier transform). In this paper, we propose FreqMamba, an effective and efficient paradigm that leverages the complementary between Mamba and frequency analysis for image deraining. The core of our method lies in extending Mamba with frequency analysis from two perspectives: extending it with frequency-band for exploiting frequency correlation, and connecting it with Fourier transform for global degradation modeling. Specifically, FreqMamba introduces complementary triple interaction structures including spatial Mamba, frequency band Mamba, and Fourier global modeling. Frequency band Mamba decomposes the image into sub-bands of different frequencies to allow 2D scanning from the frequency dimension. Furthermore, leveraging Mamba's unique data-dependent properties, we use rainy images at different scales to provide degradation priors to the network, thereby facilitating efficient training. Extensive experiments show that our method outperforms state-of-the-art methods both visually and quantitatively.
翻訳日:2024-08-13 23:17:20 公開日:2024-08-11
# LEGENT: Embodied Agentsのオープンプラットフォーム

LEGENT: Open Platform for Embodied Agents ( http://arxiv.org/abs/2404.18243v2 )

ライセンス: Link先を確認
Zhili Cheng, Zhitong Wang, Jinyi Hu, Shengding Hu, An Liu, Yuge Tu, Pengkai Li, Lei Shi, Zhiyuan Liu, Maosong Sun, (参考訳) LLM(Large Language Models)とLMM(Large Multimodal Models)の進歩にもかかわらず、言語を基盤とした人間のようなエンボディエージェントへの統合は未完成のままであり、物理的環境における複雑な実環境タスクのパフォーマンスを妨げている。 既存の統合はしばしば、この分野での集合的な進歩に挑戦する、限られたオープンソースを特徴としている。 LLMとLMMを用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームであるLEGENTを紹介する。 LEGENTは、リッチでインタラクティブな3D環境と、コミュニケーション可能でアクション可能なエージェント、ユーザフレンドリなインターフェースとの組み合わせ、高度なアルゴリズムを活用した高度なデータ生成パイプライン、という2つのアプローチを提供する。 実験では, LEGENT生成データに基づいて学習した胚の視覚-言語-行動モデルが, 具体化タスクにおけるGPT-4Vを超越し, 有望な一般化能力を示す。

Despite advancements in Large Language Models (LLMs) and Large Multimodal Models (LMMs), their integration into language-grounded, human-like embodied agents remains incomplete, hindering complex real-life task performance in physical environments. Existing integrations often feature limited open sourcing, challenging collective progress in this field. We introduce LEGENT, an open, scalable platform for developing embodied agents using LLMs and LMMs. LEGENT offers a dual approach: a rich, interactive 3D environment with communicable and actionable agents, paired with a user-friendly interface, and a sophisticated data generation pipeline utilizing advanced algorithms to exploit supervision from simulated worlds at scale. In our experiments, an embryonic vision-language-action model trained on LEGENT-generated data surpasses GPT-4V in embodied tasks, showcasing promising generalization capabilities.
翻訳日:2024-08-13 23:17:20 公開日:2024-08-11
# VQEによるBethe根の推定

Estimating Bethe roots with VQE ( http://arxiv.org/abs/2404.18244v2 )

ライセンス: Link先を確認
David Raveh, Rafael I. Nepomechie, (参考訳) 解が対応する可積分ハミルトニアンの正確な固有値と固有状態を決定する方程式は、一般に解くのが難しい。 我々は、Bethe状態を試行状態とし、Bethe根を変分パラメータとして扱うことにより、スピン-1/2 XXZ量子スピン鎖のBethe根を推定するための変分量子固有解器(VQE)アプローチを実装した。 最大6までの大きさの系の数値シミュレーションでは、閉および開のXXZ鎖に対して、基底状態と最大5個のダウンスピンを持つ励起状態の両方に対応するBethe根の推定値を得る。 このアプローチは実際のBetheのルーツに限ったものではない。

Bethe equations, whose solutions determine exact eigenvalues and eigenstates of corresponding integrable Hamiltonians, are generally hard to solve. We implement a Variational Quantum Eigensolver (VQE) approach to estimating Bethe roots of the spin-1/2 XXZ quantum spin chain, by using Bethe states as trial states, and treating Bethe roots as variational parameters. In numerical simulations of systems of size up to 6, we obtain estimates for Bethe roots corresponding to both ground states and excited states with up to 5 down-spins, for both the closed and open XXZ chains. This approach is not limited to real Bethe roots.
翻訳日:2024-08-13 23:17:20 公開日:2024-08-11
# ゲノム規模メタボリックネットワークモデルにおける遺伝子機能の能動的学習のためのブール行列論理プログラミング

Boolean matrix logic programming for active learning of gene functions in genome-scale metabolic network models ( http://arxiv.org/abs/2405.06724v3 )

ライセンス: Link先を確認
Lun Ai, Stephen H. Muggleton, Shi-Shun Liang, Geoff S. Baldwin, (参考訳) 研究を自律的に推進する技術はComputational Scientific Discoveryにおいて顕著であり、Synthetic Biologyは有用な目的のために新しい生物学的システムの設計と構築に焦点を当てた科学分野である。 ここでは、細胞工学の促進と生物学的発見の促進に論理ベースの機械学習技術を適用したい。 ゲノムスケールメタボリックネットワークモデル (GEMs) と呼ばれる代謝過程の包括的データベースは、しばしば標的化合物生産を最適化するための細胞工学的戦略を評価するために使用される。 しかしながら、予測されたホストの振る舞いは、しばしばモデル内のエラーのために、常にGEMによって正しく記述されるわけではない。 GEM内の複雑な遺伝的相互作用を学習するタスクは、計算的および経験的課題を提示する。 これらの問題に対処するために,ブール行列を利用して大規模論理プログラムを評価する,Boolean Matrix Logic Programming (BMLP) と呼ばれる新しい手法について述べる。 能動的学習を通じて情報的実験を導くことにより,ゲノム仮説空間を効率的に探索するシステム「BMLP_{active}$」を導入する。 サブシンボリックな方法とは対照的に、$BMLP_{active}$は、データログ論理プログラムを用いて解釈可能で論理的な表現で広く受け入れられている細菌ホストの最先端のGEMを符号化する。 特に、$BMLP_{active}$は、ランダムな実験よりも訓練例が少ない遺伝子ペア間の相互作用をうまく学習することができ、実験的な設計空間の増加を克服することができる。 $BMLP_{active}$は、代謝モデルの迅速な最適化を可能にし、有用な化合物を製造するための生物学的システムを確実に設計する。 それは、微生物工学のための自動運転ラボを作るための現実的なアプローチを提供する。

Techniques to autonomously drive research have been prominent in Computational Scientific Discovery, while Synthetic Biology is a field of science that focuses on designing and constructing new biological systems for useful purposes. Here we seek to apply logic-based machine learning techniques to facilitate cellular engineering and drive biological discovery. Comprehensive databases of metabolic processes called genome-scale metabolic network models (GEMs) are often used to evaluate cellular engineering strategies to optimise target compound production. However, predicted host behaviours are not always correctly described by GEMs, often due to errors in the models. The task of learning the intricate genetic interactions within GEMs presents computational and empirical challenges. To address these, we describe a novel approach called Boolean Matrix Logic Programming (BMLP) by leveraging boolean matrices to evaluate large logic programs. We introduce a new system, $BMLP_{active}$, which efficiently explores the genomic hypothesis space by guiding informative experimentation through active learning. In contrast to sub-symbolic methods, $BMLP_{active}$ encodes a state-of-the-art GEM of a widely accepted bacterial host in an interpretable and logical representation using datalog logic programs. Notably, $BMLP_{active}$ can successfully learn the interaction between a gene pair with fewer training examples than random experimentation, overcoming the increase in experimental design space. $BMLP_{active}$ enables rapid optimisation of metabolic models to reliably engineer biological systems for producing useful compounds. It offers a realistic approach to creating a self-driving lab for microbial engineering.
翻訳日:2024-08-13 23:07:09 公開日:2024-08-11
# 高忠実なシーンテキスト合成

High Fidelity Scene Text Synthesis ( http://arxiv.org/abs/2405.14701v2 )

ライセンス: Link先を確認
Yibin Wang, Weizhong Zhang, Changhai Zhou, Cheng Jin, (参考訳) シーンテキスト合成では、指定されたテキストを任意の画像にレンダリングする。 現在の方法は、通常、このタスクをエンドツーエンドで定式化するが、トレーニング中に効果的なキャラクタレベルのガイダンスが欠如している。 さらに、それらのテキストエンコーダは、1つのフォントタイプで事前訓練されており、実用的なアプリケーションで遭遇する多様なフォントスタイルに適応するのに苦労している。 結果として、これらの手法は、特にポリスチリスティックなシナリオにおいて、文字の歪み、繰り返し、欠如に悩まされる。 そこで本研究では,高忠実度シーンテキスト合成のためのDreamTextを提案する。 我々のキーとなる考え方は、拡散訓練プロセスの再構築であり、このタスクに合わせたより洗練されたガイダンスを導入し、文字レベルでモデルの注意を露呈し、修正し、テキスト領域の学習を強化することである。 この変換は、離散変数と連続変数の両方を含むハイブリッド最適化の課題となる。 この課題に効果的に対処するために、ヒューリスティックな代替最適化戦略を採用する。 一方、テキストエンコーダとジェネレータを共同でトレーニングし、トレーニングデータセットに存在する多様なフォントを包括的に学習し、活用する。 このジョイントトレーニングは、代替最適化プロセスにシームレスに統合され、学習文字埋め込みと再推定文字アテンションの相乗的関係を育む。 具体的には、各ステップにおいて、まずクロスアテンションマップから潜在文字マスクへの潜在的文字生成位置情報を符号化する。 これらのマスクは、現在のステップで特定の文字の表現を更新するために使用される。 定性的かつ定量的な結果は,本手法の最先端性を示すものである。

Scene text synthesis involves rendering specified texts onto arbitrary images. Current methods typically formulate this task in an end-to-end manner but lack effective character-level guidance during training. Besides, their text encoders, pre-trained on a single font type, struggle to adapt to the diverse font styles encountered in practical applications. Consequently, these methods suffer from character distortion, repetition, and absence, particularly in polystylistic scenarios. To this end, this paper proposes DreamText for high-fidelity scene text synthesis. Our key idea is to reconstruct the diffusion training process, introducing more refined guidance tailored to this task, to expose and rectify the model's attention at the character level and strengthen its learning of text regions. This transformation poses a hybrid optimization challenge, involving both discrete and continuous variables. To effectively tackle this challenge, we employ a heuristic alternate optimization strategy. Meanwhile, we jointly train the text encoder and generator to comprehensively learn and utilize the diverse font present in the training dataset. This joint training is seamlessly integrated into the alternate optimization process, fostering a synergistic relationship between learning character embedding and re-estimating character attention. Specifically, in each step, we first encode potential character-generated position information from cross-attention maps into latent character masks. These masks are then utilized to update the representation of specific characters in the current step, which, in turn, enables the generator to correct the character's attention in the subsequent steps. Both qualitative and quantitative results demonstrate the superiority of our method to the state of the art.
翻訳日:2024-08-13 21:12:59 公開日:2024-08-11
# 多ラベル特性予測のための階層型プロンプトを用いた微分分子表現の適応

Adapting Differential Molecular Representation with Hierarchical Prompts for Multi-label Property Prediction ( http://arxiv.org/abs/2405.18724v2 )

ライセンス: Link先を確認
Linjia Kang, Songhua Zhou, Shuyan Fang, Shichao Liu, (参考訳) 分子特性の正確な予測は、薬物発見に不可欠である。 従来の手法では、現実世界の分子が複雑な相関を持つ複数の特性ラベルを持つのが一般的である。 そこで本研究では,階層的な分子表現学習フレームワークであるHiPMを提案する。 HiPMは、タスク認識プロンプトを利用して、分子表現におけるタスクの差分表現を強化し、個々のタスク情報の衝突に起因する負の移動を緩和する。 本フレームワークは,分子表現エンコーダ(MRE)とタスク認識プロンプタ(TAP)の2つのコアコンポーネントから構成される。 MREは、原子レベルとモチーフレベルの両方で分子の特徴を捉えるために、階層的なメッセージパッシングネットワークアーキテクチャを採用している。 一方、TAPは集約的階層的クラスタリングアルゴリズムを用いて、タスク親和性と特徴性を反映したプロンプトツリーを構築し、タスク間の多粒性相関情報を考慮し、マルチラベル特性予測の複雑さを効果的に処理する。 大規模な実験により、HiPMは様々なマルチラベルデータセットにまたがって最先端のパフォーマンスを達成し、マルチラベル分子表現学習の新しい視点を提供する。

Accurate prediction of molecular properties is crucial in drug discovery. Traditional methods often overlook that real-world molecules typically exhibit multiple property labels with complex correlations. To this end, we propose a novel framework, HiPM, which stands for hierarchical prompted molecular representation learning framework. HiPM leverages task-aware prompts to enhance the differential expression of tasks in molecular representations and mitigate negative transfer caused by conflicts in individual task information. Our framework comprises two core components: the Molecular Representation Encoder (MRE) and the Task-Aware Prompter (TAP). MRE employs a hierarchical message-passing network architecture to capture molecular features at both the atom and motif levels. Meanwhile, TAP utilizes agglomerative hierarchical clustering algorithm to construct a prompt tree that reflects task affinity and distinctiveness, enabling the model to consider multi-granular correlation information among tasks, thereby effectively handling the complexity of multi-label property prediction. Extensive experiments demonstrate that HiPM achieves state-of-the-art performance across various multi-label datasets, offering a novel perspective on multi-label molecular representation learning.
翻訳日:2024-08-13 21:12:59 公開日:2024-08-11
# バイト型ニューラルネットワーク翻訳のためのマルチスケールコンテキスト情報の統合

Integrating Multi-scale Contextualized Information for Byte-based Neural Machine Translation ( http://arxiv.org/abs/2405.19290v3 )

ライセンス: Link先を確認
Langlin Huang, Yang Feng, (参考訳) サブワードトークン化はニューラル機械翻訳(NMT)モデルにおける語彙構築の一般的な方法である。 しかし、ますます複雑なタスクは、その欠点を明らかにしている。 第一に、語彙は一度学習されると変更できず、新しい単語への適応が困難になる。 第二に、多言語翻訳では、異なる言語にまたがるデータボリュームの不均衡が語彙に広がり、低リソース言語を含む翻訳が悪化する。 バイトベースのトークン化はこれらの問題に対処するが、バイトベースのモデルはUTF-8のバイト列に固有の低情報密度に悩まされる。 事前の作業は、局所的なコンテキスト化を通じてトークンセマンティクスを強化するが、入力に基づいて適切なコンテキスト化スコープを選択することに失敗する。 そこで本研究では,異なる隠れ状態次元の様々なスケールのコンテキスト化情報を学習するマルチスケールコンテキスト化(MSC)手法を提案する。 次に、アテンションモジュールを利用して、マルチスケールのコンテキスト化情報を動的に統合する。 実験により、MSCはサブワードベースおよび他のバイトベースの手法を多言語およびドメイン外のシナリオで大幅に上回っていることが示された。 コードはhttps://github.com/ictnlp/Multiscale-Contextualizationにある。

Subword tokenization is a common method for vocabulary building in Neural Machine Translation (NMT) models. However, increasingly complex tasks have revealed its disadvantages. First, a vocabulary cannot be modified once it is learned, making it hard to adapt to new words. Second, in multilingual translation, the imbalance in data volumes across different languages spreads to the vocabulary, exacerbating translations involving low-resource languages. While byte-based tokenization addresses these issues, byte-based models struggle with the low information density inherent in UTF-8 byte sequences. Previous works enhance token semantics through local contextualization but fail to select an appropriate contextualizing scope based on the input. Consequently, we propose the Multi-Scale Contextualization (MSC) method, which learns contextualized information of varying scales across different hidden state dimensions. It then leverages the attention module to dynamically integrate the multi-scale contextualized information. Experiments show that MSC significantly outperforms subword-based and other byte-based methods in both multilingual and out-of-domain scenarios. Code can be found in https://github.com/ictnlp/Multiscale-Contextualization.
翻訳日:2024-08-13 21:12:59 公開日:2024-08-11
# FastLGS: 機能グリッドマッピングによる言語組み込みガウスの高速化

FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping ( http://arxiv.org/abs/2406.01916v3 )

ライセンス: Link先を確認
Yuzhou Ji, He Zhu, Junshu Tang, Wuyi Liu, Zhizhong Zhang, Yuan Xie, Xin Tan, (参考訳) セマンティック・インタラクティブなラディアンス・フィールドは、ユーザフレンドリーで自動化された現実世界の3Dシーン理解アプリケーションを促進する可能性に対して、常に魅力的なタスクであった。 しかし,レージアンス分野のセマンティクスを用いて,高品質,効率,ゼロショット能力を同時に達成することは難しい課題である。 本研究では,3次元ガウススプラッティング(3DGS)におけるリアルタイムなオープン語彙クエリをサポートするアプローチであるFastLGSを提案する。 本稿では,Segment Anything Model (SAM) マスクから抽出したマルチビューCLIP機能を保存するためのセマンティック特徴グリッドを提案し,そのグリッドを3DGSによるセマンティックフィールドトレーニングのための低次元特徴にマッピングする。 一度トレーニングすれば、オープン語彙クエリのレンダリング機能からフィーチャーグリッドを通じて、ピクセル整列CLIP埋め込みを復元できます。 FastLGSはLERFより98倍、LangSplatより4倍高速である。 一方、実験により、FastLGSは他の3D操作システムに容易に適用可能な3Dセグメンテーションや3Dオブジェクトのインペインティングなど、多くの下流タスクに適応し互換性があることが示されている。

The semantically interactive radiance field has always been an appealing task for its potential to facilitate user-friendly and automated real-world 3D scene understanding applications. However, it is a challenging task to achieve high quality, efficiency and zero-shot ability at the same time with semantics in radiance fields. In this work, we present FastLGS, an approach that supports real-time open-vocabulary query within 3D Gaussian Splatting (3DGS) under high resolution. We propose the semantic feature grid to save multi-view CLIP features which are extracted based on Segment Anything Model (SAM) masks, and map the grids to low dimensional features for semantic field training through 3DGS. Once trained, we can restore pixel-aligned CLIP embeddings through feature grids from rendered features for open-vocabulary queries. Comparisons with other state-of-the-art methods prove that FastLGS can achieve the first place performance concerning both speed and accuracy, where FastLGS is 98x faster than LERF and 4x faster than LangSplat. Meanwhile, experiments show that FastLGS is adaptive and compatible with many downstream tasks, such as 3D segmentation and 3D object inpainting, which can be easily applied to other 3D manipulation systems.
翻訳日:2024-08-13 21:03:04 公開日:2024-08-11
# Parrot: 多言語ビジュアルインストラクションチューニング

Parrot: Multilingual Visual Instruction Tuning ( http://arxiv.org/abs/2406.02539v2 )

ライセンス: Link先を確認
Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye, (参考訳) GPT-4Vのようなマルチモーダル大言語モデル(MLLM)の急速な開発は、人工知能への大きな一歩を踏み出した。 既存の手法は主に、教師付き微調整(SFT)による視覚エンコーダのLLMとの整合に焦点を合わせ、マルチモーダルな能力でLLMを動作させ、訓練プロセスが進むにつれて、MLLM固有の複数の言語に反応する能力が徐々に悪化する。 我々は、主に英語中心の画像テキストペアからなる不均衡なSFTデータセットが、非英語言語の性能を著しく低下させることを実証的に見出した。 これは、SFTプロセス中にビジョンエンコーダとLLMを多言語トークンで整列できないためである。 本稿では,テキストガイドを用いた言語レベルでの視覚的トークンアライメントを促進する新しい手法であるParrotを紹介する。 Parrotは多様な言語入力に視覚トークンを条件付け、Mixture-of-Experts (MoE) を使用して多言語トークンのアライメントを促進する。 具体的には、非英語の視覚的トークンアライメントを強化するために、初期視覚特徴とテキスト埋め込みを用いて、クロスアテンションを計算し、その結果をMoEルータに入力し、最も関係のある専門家を選択する。 選択された専門家は、初期視覚トークンを言語固有の視覚トークンに変換する。 さらに、フィールド内の多言語機能を評価するためのベンチマークの欠如を考慮すると、MMMBという名前の6言語、15カテゴリ、12,000の質問を含むMultilingual Multimodal Benchmarkを収集、利用可能にしています。 本手法は,多言語MMBenchおよびMMMB上での最先端性能を示すだけでなく,多モーダルタスクにも優れる。 Parrotのソースコードとトレーニングデータセットの両方が公開されている。 コードは、https://github.com/AIDC-AI/Parrot.comで入手できる。

The rapid development of Multimodal Large Language Models (MLLMs) like GPT-4V has marked a significant step towards artificial general intelligence. Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves. We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages. This is due to the failure of aligning the vision encoder and LLM with multilingual tokens during the SFT process. In this paper, we introduce Parrot, a novel method that utilizes textual guidance to drive visual token alignment at the language level. Parrot makes the visual tokens condition on diverse language inputs and uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens. Specifically, to enhance non-English visual tokens alignment, we compute the cross-attention using the initial visual features and textual embeddings, the result of which is then fed into the MoE router to select the most relevant experts. The selected experts subsequently convert the initial visual tokens into language-specific visual tokens. Moreover, considering the current lack of benchmarks for evaluating multilingual capabilities within the field, we collect and make available a Massive Multilingual Multimodal Benchmark which includes 6 languages, 15 categories, and 12,000 questions, named as MMMB. Our method not only demonstrates state-of-the-art performance on multilingual MMBench and MMMB, but also excels across a broad range of multimodal tasks. Both the source code and the training dataset of Parrot will be made publicly available. Code is available at: https://github.com/AIDC-AI/Parrot.
翻訳日:2024-08-13 21:03:04 公開日:2024-08-11
# SAMM:Sharded Automated Market Maker

SAMM: Sharded Automated Market Maker ( http://arxiv.org/abs/2406.05568v3 )

ライセンス: Link先を確認
Hongyin Chen, Amit Vaisman, Ittay Eyal, (参考訳) Automated Market Makers(AMMs)は、分散型金融(DeFi)ブロックチェーンベースのプラットフォームの基礎である。 トレーダーはAMMとトークンを交換し、手数料を支払い、流動性はそれらの手数料で支払われる流動性プロバイダから得られる。 需要が増えているにもかかわらず、AMMのパフォーマンスは限られている。 最先端のブロックチェーンプラットフォームは、トランザクションの並列実行を可能にする。 しかし,AMMは並列化できないため,これらの利得を享受できないことを示す。 複数の独立したシャードからなるAMMであるSAMMを提案する。 すべてのシャードは同じチェーンで動作しますが、それぞれが独立しているため、並列実行が可能です。 課題は、トレーダが各取引を既存の設計のすべてのAMMに分割するインセンティブを得て、スループットを低下させることである。 SAMMは取引手数料の新しい設計でこの問題に対処する。 トレーダーは最小のシャードのみを使用するようにインセンティブを得ている。 流動性プロバイダは、すべてのシャード間の流動性のバランスをとるため、取引が均等に分散された状態に収束し、不安定化攻撃を克服します。 SuiブロックチェーンとSolanaブロックチェーンの評価によると、SAMMはスループットをそれぞれ5倍、16倍改善し、その限界に近づいた。 SAMMは直接デプロイ可能で、個人やDeFiアプリケーションの大規模取引を可能にする。

Automated Market Makers (AMMs) are a cornerstone of decentralized finance (DeFi) blockchain-based platforms. They enable direct exchange of virtual tokens: Traders exchange tokens with the AMM, paying a fee; liquidity comes from liquidity providers, paid by those fees. Despite growing demand, the performance of AMMs is limited. State-of-the-art blockchain platforms allow for parallel execution of transactions. However, we show that AMMs do not enjoy these gains since their operations are not parallelizable. We present SAMM, an AMM comprising multiple independent shards. All shards operate in the same chain, but they allow for parallel execution as each is independent. The challenge is that traders are incentivized to split each trade among all AMMs in existing designs, leading to lower throughput. SAMM addresses this issue with a novel design of the trading fees. Traders are incentivized to use only a single smallest shard. We show that all Subgame-Perfect Nash Equilibria (SPNE) fit the desired behavior: Liquidity providers balance the liquidity among all shards, so the system converges to the state where trades are evenly distributed, overcoming destabilization attacks. Evaluation in the Sui and Solana blockchains shows that SAMM improves throughput by 5 and by 16, respectively, approaching their limit. SAMM is directly deployable, allowing trading at scale for individuals and DeFi applications.
翻訳日:2024-08-13 21:03:04 公開日:2024-08-11
# SU(1,1)コヒーレント状態を用いた様々な検出手法によるマッハ・ツェンダー干渉計の位相感度向上

Enhancing phase sensitivity in Mach-Zehnder interferometer with various detection schemes using SU(1,1) coherent states ( http://arxiv.org/abs/2406.08007v2 )

ライセンス: Link先を確認
Nour-Eddine Abouelkhir, Abdallah Slaoui, El Hassan Saidi, Rachid Ahl Laamara, Hanane El Hadfi, (参考訳) インターフェロメトリ位相感度の向上は、急速に発展する量子技術において、高精度な測定に不可欠である。 マッハ・ツェンダー干渉計(Mach-Zehnder Interferometer, MZI)は、この現象を解析するための多用途ツールである。 ビームスプリッターを用いて光線を分割・再結合することにより、MZIは量子クラム・ラオ境界(QCRB)や量子フィッシャー情報(QFI)といったツールを用いて正確な位相感度解析を行うことができる。 本稿では,異なる検出手法と入力状態を用いて,MZIの位相感度を種々のシナリオで解析する。 我々は、両腕、上腕(非対称)、両腕の対称的な3つの位相シフト状況について、1パラメータと2パラメータの量子推定と関連するQCRBを比較した。 次に, 差分強度, 単モード強度, 平衡ホモダインという3つの検出手法による位相感度について検討した。 さらに、すべてのシナリオにおいて、Perelomov と Barut-Girardello コヒーレント状態(SU(1,1)コヒーレント状態の2種類)の使用について検討する。 特に、最適条件下では、全ての検出スキームが、絡み合ったSU(1,1)コヒーレント状態を入力状態として利用することにより、QCRBを実現することができることを示す。

Improving interferometric phase sensitivity is crucial for high-precision measurements in rapidly developing quantum technologies. The Mach-Zehnder interferometer (MZI) is a versatile tool for analyzing this phenomenon. By splitting and recombining a light beam using beam splitters, MZIs allow for precise phase sensitivity analysis using tools like the quantum Cram\'er-Rao bound (QCRB) and the quantum Fisher information (QFI). This paper analyzes the phase sensitivity of a MZI in various scenarios using different detection schemes and input states. We compare the single- and two-parameter quantum estimation and their associated QCRB for three phase-shift situations: in both arms, only in the upper arm (asymmetric), and in both arms symmetrically. We then investigate the phase sensitivity under three detection schemes: difference intensity, single-mode intensity, and balanced homodyne. Additionally, we explore the use of Perelomov and Barut-Girardello coherent states, two types of SU(1,1) coherent states, in all scenarios. Notably, we demonstrate that under optimal conditions, all detection schemes can achieve the QCRB by utilizing entangled SU(1,1) coherent states as input states.
翻訳日:2024-08-13 21:03:04 公開日:2024-08-11
# 大規模言語モデル Tokenizer バイアス: GPT-4o のケーススタディと解法

Large Language Model Tokenizer Bias: A Case Study and Solution on GPT-4o ( http://arxiv.org/abs/2406.11214v2 )

ライセンス: Link先を確認
Jin Yang, Zhiqiang Wang, Yanbin Lin, Zunduo Zhao, (参考訳) GPT-4やGPT-4oのような大規模言語モデル(LLM)の最近の進歩は、特に英語のような豊富なリソースを持つ言語では、堅牢なトレーニングを保証する広範なデータセットのおかげで、例外的な性能を示している。 逆に、これらのモデルでは、幻覚反応などの問題が相次ぎ、中国語や韓国語などの未資源言語を処理する際に制限がある。 本稿では,これらの相違点のルーツを,これらのモデル固有のトークン化プロセスに遡る。 具体的には、トークン化プロセスのスピードアップとトークンの削減によく使用されるトークン化語彙について検討するが、実際のモデルトレーニングデータとは独立して構築され、英語以外の言語を不適切に表現している。 この誤表現は、バイアスを持続させ、データセキュリティや倫理基準に関する深刻な懸念を生じさせる'アンダートレーニング'や'アントレーニング'トークンの伝播をもたらす。 我々は,GPT-4oのトークン化機構を解明し,その単純化されたトークン処理手法がこれらのリスクを増幅し,関連するセキュリティや倫理的問題を緩和するための戦略的ソリューションを提供することを目的としている。 この研究を通じて、より公平でセキュアなAI技術を育むために、トークン化フレームワークを再考する重要な必要性を強調した。

Recent advancements in large language models (LLMs), such as GPT-4 and GPT-4o, have shown exceptional performance, especially in languages with abundant resources like English, thanks to extensive datasets that ensure robust training. Conversely, these models exhibit limitations when processing under-resourced languages such as Chinese and Korean, where issues including hallucinatory responses remain prevalent. This paper traces the roots of these disparities to the tokenization process inherent to these models. Specifically, it explores how the tokenizer vocabulary, often used to speed up the tokenization process and reduce tokens but constructed independently of the actual model training data, inadequately represents non-English languages. This misrepresentation results in the propagation of 'under-trained' or 'untrained' tokens, which perpetuate biases and pose serious concerns related to data security and ethical standards. We aim to dissect the tokenization mechanics of GPT-4o, illustrating how its simplified token-handling methods amplify these risks and offer strategic solutions to mitigate associated security and ethical issues. Through this study, we emphasize the critical need to rethink tokenization frameworks to foster more equitable and secure AI technologies.
翻訳日:2024-08-13 21:03:04 公開日:2024-08-11
# SQLFixAgent: 一貫性を強化したマルチエージェントコラボレーションによるセマンティックなテキストからSQLへのパーシングを目指す

SQLFixAgent: Towards Semantic-Accurate Text-to-SQL Parsing via Consistency-Enhanced Multi-Agent Collaboration ( http://arxiv.org/abs/2406.13408v3 )

ライセンス: Link先を確認
Jipeng Cen, Jiaxin Liu, Zhixu Li, Jingjing Wang, (参考訳) 微調整された大言語モデル(LLM)は、テキストからSQLへのパースにおいて文法的に有効なSQLを生成するのに優れていますが、クエリのセマンティックな正確性を保証するのに苦労し、ユーザの混乱とシステムのユーザビリティの低下につながります。 この課題に対処するために、私たちはSQLFixAgentを紹介します。 私たちのフレームワークはコアエージェントであるSQLRefinerと、SQLReviewerとQueryCrafterの2つの補助エージェントで構成されています。 SQLReviewerエージェントは、ゴム製のアヒルデバッグメソッドを使用して、SQLとユーザクエリ間の潜在的なセマンティックミスマッチを特定する。 エラーが検出された場合、QueryCrafterエージェントは、微調整されたSQLToolを使用して、候補修正として複数のSQLを生成する。 その後、同様の修復検索と障害メモリリフレクションを活用して、SQLRefinerエージェントは、候補から最も適したSQLステートメントを最終的な修復として選択する。 提案したフレームワークを5つのText-to-SQLベンチマークで評価した。 実験結果から,本手法はベースラインモデルの性能を継続的に向上し,特にBirdベンチマークの3倍以上の実行精度向上を実現していることがわかった。 当社のフレームワークは,他の高度なメソッドと比較してトークン効率も高く,競争力も向上しています。

While fine-tuned large language models (LLMs) excel in generating grammatically valid SQL in Text-to-SQL parsing, they often struggle to ensure semantic accuracy in queries, leading to user confusion and diminished system usability. To tackle this challenge, we introduce SQLFixAgent, a new consistency-enhanced multi-agent collaborative framework designed for detecting and repairing erroneous SQL. Our framework comprises a core agent, SQLRefiner, alongside two auxiliary agents: SQLReviewer and QueryCrafter. The SQLReviewer agent employs the rubber duck debugging method to identify potential semantic mismatches between SQL and user query. If the error is detected, the QueryCrafter agent generates multiple SQL as candidate repairs using a fine-tuned SQLTool. Subsequently, leveraging similar repair retrieval and failure memory reflection, the SQLRefiner agent selects the most fitting SQL statement from the candidates as the final repair. We evaluated our proposed framework on five Text-to-SQL benchmarks. The experimental results show that our method consistently enhances the performance of the baseline model, specifically achieving an execution accuracy improvement of over 3\% on the Bird benchmark. Our framework also has a higher token efficiency compared to other advanced methods, making it more competitive.
翻訳日:2024-08-13 20:53:08 公開日:2024-08-11
# 多変量自転車コード

Multivariate Bicycle Codes ( http://arxiv.org/abs/2406.19151v3 )

ライセンス: Link先を確認
Lukas Voss, Sim Jian Xian, Tobias Haug, Kishor Bharti, (参考訳) 量子誤差補正は、高精度な計算を可能にするために量子系のノイズを抑制する。 本稿では,Bravyi et al (Nature, 627, 778-782 (2024)) が開発したフレームワークの拡張を通じて,多変量自転車 (MB) 量子低密度パリティ・チェック (QLDPC) 符号を導入し,特に三変量自転車 (TB) 符号に着目した。 彼らの研究で提案された重み6符号とは違って、重量4および重み5TB-QLDPC符号の具体例は、短期的な実験的な設定に対してより快適であることを約束する。 TB-QLDPC符号の重み6までの符号は平面構造を持つことを示す。 さらに、新しいコードのほとんどは2次元のトーリックレイアウトで配置することもでき、類似したエラー抑制機能を提供しながら、同等の表面コードよりも符号化レートが大幅に向上する。 例えば、距離5の4つの論理量子ビットをウェイト5チェック測定で30個の物理量子ビットにエンコードできるが、これらのパラメータを持つ曲面コードは100個の物理量子ビットを必要とする。 高符号化率とコンパクトなレイアウトにより、我々のコードは短期ハードウェア実装に非常に適した候補となり、量子誤り訂正プロトコルの実現への道が開かれた。

Quantum error correction suppresses noise in quantum systems to allow for high-precision computations. In this work, we introduce Multivariate Bicycle (MB) Quantum Low-Density Parity-Check (QLDPC) codes, via an extension of the framework developed by Bravyi et al. [Nature, 627, 778-782 (2024)] and particularly focus on Trivariate Bicycle (TB) codes. Unlike the weight-6 codes proposed in their study, we offer concrete examples of weight-4 and weight-5 TB-QLDPC codes which promise to be more amenable to near-term experimental setups. We show that our TB-QLDPC codes up to weight-6 have a bi-planar structure. Further, most of our new codes can also be arranged in a two-dimensional toric layout, and have substantially better encoding rates than comparable surface codes while offering similar error suppression capabilities. For example, we can encode 4 logical qubits with distance 5 into 30 physical qubits with weight-5 check measurements, while a surface code with these parameters requires 100 physical qubits. The high encoding rate and compact layout make our codes highly suitable candidates for near-term hardware implementations, paving the way for a realizable quantum error correction protocol.
翻訳日:2024-08-13 20:53:08 公開日:2024-08-11
# 分散最適化の高速化: ローカルステップの2次元的パースペクティブ

Accelerating Distributed Optimization: A Primal-Dual Perspective on Local Steps ( http://arxiv.org/abs/2407.02689v2 )

ライセンス: Link先を確認
Junchi Yang, Murat Yildirim, Qiu Feng, (参考訳) 分散機械学習では、異なるデータ分散を持つ複数のエージェント間の効率的なトレーニングが大きな課題となる。 集中コーディネータでさえ、最適な通信複雑性を達成する現在のアルゴリズムは、通常、大きなミニバッチまたは勾配複雑性の妥協を必要とする。 本研究では,強い凸,凸,非凸の目的にまたがる集中的および分散的設定に取り組む。 まず、分散最適化のラグランジアンに応用された基本原始双対法((Accelerated) Gradient Ascent Multiple Stochastic Gradient Descent (GA-MSGD))が局所的な更新を本質的に含んでいることを実証した。 特に、(加速された) GA-MSGD は、ラグランジアンが双対変数でのみ線型であるにもかかわらず、通信ラウンドにおける線形収束を達成する。 これは双対変数がカップリング行列のスパンに制限される構造的性質のためであり、双対問題は強く凹む。 Catalystフレームワークと統合すると,ミニバッチを必要とせずに,様々な設定でほぼ最適な通信複雑性を実現することができる。

In distributed machine learning, efficient training across multiple agents with different data distributions poses significant challenges. Even with a centralized coordinator, current algorithms that achieve optimal communication complexity typically require either large minibatches or compromise on gradient complexity. In this work, we tackle both centralized and decentralized settings across strongly convex, convex, and nonconvex objectives. We first demonstrate that a basic primal-dual method, (Accelerated) Gradient Ascent Multiple Stochastic Gradient Descent (GA-MSGD), applied to the Lagrangian of distributed optimization inherently incorporates local updates, because the inner loops of running Stochastic Gradient Descent on the primal variable require no inter-agent communication. Notably, for strongly convex objectives, (Accelerated) GA-MSGD achieves linear convergence in communication rounds despite the Lagrangian being only linear in the dual variables. This is due to a structural property where the dual variable is confined to the span of the coupling matrix, rendering the dual problem strongly concave. When integrated with the Catalyst framework, our approach achieves nearly optimal communication complexity across various settings without the need for minibatches.
翻訳日:2024-08-13 20:53:08 公開日:2024-08-11
# テスト時間で学ぶ)学習 : 表現型隠れ状態を持つRNN

Learning to (Learn at Test Time): RNNs with Expressive Hidden States ( http://arxiv.org/abs/2407.04620v2 )

ライセンス: Link先を確認
Yu Sun, Xinhao Li, Karan Dalal, Jiarui Xu, Arjun Vikram, Genghan Zhang, Yann Dubois, Xinlei Chen, Xiaolong Wang, Sanmi Koyejo, Tatsunori Hashimoto, Carlos Guestrin, (参考訳) 自己注意は長い文脈ではうまく機能するが、二次的な複雑さがある。 既存のRNN層は線形複雑性を持つが、長いコンテキストでの性能は隠れ状態の表現力によって制限される。 本稿では,線形複雑度と表現的隠蔽状態を有する新しいシーケンスモデリング層を提案する。 キーとなるアイデアは、隠れた状態を機械学習モデル自身にし、更新ルールを自己教師型学習のステップとすることです。 テストシーケンスでも隠れた状態がトレーニングによって更新されるので、私たちのレイヤはテスト時間トレーニング(TTT)層と呼ばれます。 隠れ状態が線形モデルであるTT-LinearとTT-MLPの2つのインスタンスについて検討する。 125Mから1.3Bのパラメータでのインスタンス化を、強力なTransformerと最新のRNNであるMambaと比較して評価する。 TTT-Linear と TTT-MLP はどちらも基準線を超えている。 Transformerと同様に、より多くのトークンを条件付けすることで、パープレキシティの低減を継続できる。 予備システム最適化では、TT-Linearは8kコンテキストでTransformerよりも高速で、壁時計時間でMambaにマッチする。 TTT-MLPは依然としてメモリI/Oの課題に直面しているが、長期的には大きな可能性を秘めており、将来の研究にとって有望な方向性を示している。

Self-attention performs well in long context but has quadratic complexity. Existing RNN layers have linear complexity, but their performance in long context is limited by the expressive power of their hidden state. We propose a new class of sequence modeling layers with linear complexity and an expressive hidden state. The key idea is to make the hidden state a machine learning model itself, and the update rule a step of self-supervised learning. Since the hidden state is updated by training even on test sequences, our layers are called Test-Time Training (TTT) layers. We consider two instantiations: TTT-Linear and TTT-MLP, whose hidden state is a linear model and a two-layer MLP respectively. We evaluate our instantiations at the scale of 125M to 1.3B parameters, comparing with a strong Transformer and Mamba, a modern RNN. Both TTT-Linear and TTT-MLP match or exceed the baselines. Similar to Transformer, they can keep reducing perplexity by conditioning on more tokens, while Mamba cannot after 16k context. With preliminary systems optimization, TTT-Linear is already faster than Transformer at 8k context and matches Mamba in wall-clock time. TTT-MLP still faces challenges in memory I/O, but shows larger potential in long context, pointing to a promising direction for future research.
翻訳日:2024-08-13 20:53:08 公開日:2024-08-11
# ElecBench: 大規模言語モデルの分散評価ベンチマーク

ElecBench: a Power Dispatch Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2407.05365v2 )

ライセンス: Link先を確認
Xiyuan Zhou, Huan Zhao, Yuheng Cheng, Yuji Cao, Gaoqi Liang, Guolong Liu, Wenxuan Liu, Yan Xu, Junhua Zhao, (参考訳) 電力セクターは、グリッド安定性の急激な需要と再生可能エネルギー統合と電力市場のダイナミクスによって引き起こされる複雑な課題に応えて、革新的な技術的解決策をますます求めている。 この文脈において、大規模言語モデル(LLM)は、その優れた自然言語処理、論理的推論、一般化能力によって、効率を改善し、電力セクターのインテリジェントな進歩を促進する重要な技術となっている。 これらの可能性にもかかわらず、電力セクターにおけるLCMの性能評価ベンチマークが欠如していることは、これらの技術の有効利用を制限している。 このギャップに対処するために、電力セクター内のLLMの評価ベンチマークである"ElecBench"を紹介した。 ElecBenchは、セクター固有のシナリオを包括的にカバーし、専門知識のテストを強化し、意思決定の精度を向上させることで、既存の評価ベンチマークの欠点を克服することを目指している。 このフレームワークは、シナリオを一般的な知識とプロフェッショナルビジネスに分類し、さらに6つのパフォーマンス指標(事実性、論理性、安定性、セキュリティ、公正性、表現性)に分類し、パワーセクターにおけるLLMアプリケーションの能力と限界に関する深い洞察を提供する24のサブメトリックに分割する。 透明性を確保するため、私たちは完全なテストセットを公開し、さまざまなシナリオやメトリクスにわたる8つのLCMのパフォーマンスを評価しました。 ElecBenchは、パワーセクターにおけるLLMアプリケーションの標準ベンチマークとして機能し、シナリオ、メトリクス、モデルの継続的な更新をサポートし、技術的進歩とアプリケーションを促進することを目指している。

In response to the urgent demand for grid stability and the complex challenges posed by renewable energy integration and electricity market dynamics, the power sector increasingly seeks innovative technological solutions. In this context, large language models (LLMs) have become a key technology to improve efficiency and promote intelligent progress in the power sector with their excellent natural language processing, logical reasoning, and generalization capabilities. Despite their potential, the absence of a performance evaluation benchmark for LLM in the power sector has limited the effective application of these technologies. Addressing this gap, our study introduces "ElecBench", an evaluation benchmark of LLMs within the power sector. ElecBench aims to overcome the shortcomings of existing evaluation benchmarks by providing comprehensive coverage of sector-specific scenarios, deepening the testing of professional knowledge, and enhancing decision-making precision. The framework categorizes scenarios into general knowledge and professional business, further divided into six core performance metrics: factuality, logicality, stability, security, fairness, and expressiveness, and is subdivided into 24 sub-metrics, offering profound insights into the capabilities and limitations of LLM applications in the power sector. To ensure transparency, we have made the complete test set public, evaluating the performance of eight LLMs across various scenarios and metrics. ElecBench aspires to serve as the standard benchmark for LLM applications in the power sector, supporting continuous updates of scenarios, metrics, and models to drive technological progress and application.
翻訳日:2024-08-13 20:43:18 公開日:2024-08-11
# テキスト-SQLタスクにおける大規模言語モデルの適用に関する調査

A Survey on Employing Large Language Models for Text-to-SQL Tasks ( http://arxiv.org/abs/2407.15186v2 )

ライセンス: Link先を確認
Liang Shi, Zhengju Tang, Nan Zhang, Xiaotong Zhang, Zhi Yang, (参考訳) リレーショナルデータベースに格納されるデータの量の増加により、様々な分野において、このデータの効率的なクエリと利用の必要性が高まっている。 しかし、SQLクエリを書くには特別な知識が必要です。 テキストからSQLへの構文解析は、自然言語クエリをSQLクエリに変換することでこの問題を解決する。 LLM(Large Language Models)の最近の発展を活かすため、様々な新しい手法が登場し、迅速なエンジニアリングと微調整に重点が置かれている。 この調査では、テキストからSQLまでのタスクにおけるLLMの概要、ベンチマークデータセットの議論、迅速なエンジニアリング、微調整方法、今後の研究方向性について概説する。 このレビューは、読者がこの分野の最近の進歩をより深く理解し、その将来的な軌道についての洞察を得られることを願っている。

The increasing volume of data stored in relational databases has led to the need for efficient querying and utilization of this data in various sectors. However, writing SQL queries requires specialized knowledge, which poses a challenge for non-professional users trying to access and query databases. Text-to-SQL parsing solves this issue by converting natural language queries into SQL queries, thus making database access more accessible for non-expert users. To take advantage of the recent developments in Large Language Models (LLMs), a range of new methods have emerged, with a primary focus on prompt engineering and fine-tuning. This survey provides a comprehensive overview of LLMs in text-to-SQL tasks, discussing benchmark datasets, prompt engineering, fine-tuning methods, and future research directions. We hope this review will enable readers to gain a broader understanding of the recent advances in this field and offer some insights into its future trajectory.
翻訳日:2024-08-13 20:33:33 公開日:2024-08-11
# 大規模言語モデルは構成能力を持つか? : 限界と拡張性の検討

Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability ( http://arxiv.org/abs/2407.15720v2 )

ライセンス: Link先を確認
Zhuoyan Xu, Zhenmei Shi, Yingyu Liang, (参考訳) 大規模言語モデル(LLM)は多くのAI問題に対して強力なツールとして登場し、優れたコンテキスト内学習(ICL)機能を示す。 2つ以上の単純なタスクを組み合わせた、目に見えない複雑なタスクを解く構成能力は、人工知能にとって必須の推論能力である。 LLMの素晴らしい成功にもかかわらず、コンポジットタスク、特にプレトレーニング期間中に遭遇しなかったタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。 本研究では,複合タスクにおけるLCMのICL機能について,インコンテキストとして単純なタスクのみを用いて検討する。 言語的・論理的な課題を含む複合的なタスクのテストスイートを開発し、異なるLLMファミリーを対象とした実証的研究を行う。 1)異なる入力セグメントに異なるマッピング機構を適用する単純な複合タスクに対して、モデルをスケールアップしながら、適切な構成能力を示す。(2)複数のステップの推論を含むより複雑な複合タスクでは、各ステップが1つのタスクを表現し、モデルは通常過小評価され、スケールアップは一般的に改善されない。 我々は,タスクが異なる入力部品を別々に扱う場合,モデルが構成能力を示すことを説明して,簡易な設定で理論的解析を行う。 我々は,LLMがタスクの性質やモデルスケールに関する複合タスクを解く上での能力に新たな光を当てていると信じている。 データセットとコードは {\url{https://github.com/OliverXUZY/LLM_Compose}}で利用可能です。

Large language models (LLMs) have emerged as powerful tools for many AI problems and exhibit remarkable in-context learning (ICL) capabilities. Compositional ability, solving unseen complex tasks that combine two or more simple tasks, is an essential reasoning ability for Artificial General Intelligence. Despite the tremendous success of LLMs, how they approach composite tasks, especially those not encountered during the pretraining phase, remains an open and largely underexplored question. In this study, we delve into the ICL capabilities of LLMs on composite tasks, with only simple tasks as in-context examples. We develop a test suite of composite tasks including linguistic and logical challenges and perform empirical studies across different LLM families. We observe that models exhibit divergent behaviors: (1) For simpler composite tasks that apply distinct mapping mechanisms to different input segments, the models demonstrate decent compositional ability, while scaling up the model enhances this ability; (2) for more complex composite tasks involving reasoning multiple steps, where each step represents one task, models typically underperform, and scaling up generally provides no improvements. We offer theoretical analysis in a simplified setting, explaining that models exhibit compositional capability when the task handles different input parts separately. We believe our work sheds new light on the capabilities of LLMs in solving composite tasks regarding the nature of the tasks and model scale. Our dataset and code are available at {\url{https://github.com/OliverXUZY/LLM_Compose}}.
翻訳日:2024-08-13 20:33:33 公開日:2024-08-11
# 時間的問題:バイオメディカル言語モデルにおける時間的効果の検討

Time Matters: Examine Temporal Effects on Biomedical Language Models ( http://arxiv.org/abs/2407.17638v2 )

ライセンス: Link先を確認
Weisi Liu, Zhe He, Xiaolei Huang, (参考訳) バイオメディカル・アプリケーションに言語モデルを適用する際の時間根: モデルは過去のデータに基づいてトレーニングされ、新しいデータや将来のデータのためにデプロイされる。 バイオメディカル・タスクの増加には最先端の言語モデルが採用されているが、通常、データが開発や展開にまたがる場合のバイオメディカル・モデルに対する時間的影響を調査する研究はほとんどない。 本研究は,3つのバイオメディカルタスクにおける言語モデルの性能とデータシフトの関係を統計的に検証することによって,ギャップを埋めるものである。 生物医学的言語モデルにおける時間的影響を定量的に評価するための多様な指標、データドリフト計測のための距離法、統計的手法を配置する。 本研究は,バイオメディカル言語モデルの展開に要する時間を,バイオメディカルタスクや統計量化手法によって性能劣化の程度が異なることを示す。 本研究は,バイオメディカル言語モデルの展開における時間的効果を評価・評価するための確固たるベンチマークを確立できると考えている。

Time roots in applying language models for biomedical applications: models are trained on historical data and will be deployed for new or future data, which may vary from training data. While increasing biomedical tasks have employed state-of-the-art language models, there are very few studies have examined temporal effects on biomedical models when data usually shifts across development and deployment. This study fills the gap by statistically probing relations between language model performance and data shifts across three biomedical tasks. We deploy diverse metrics to evaluate model performance, distance methods to measure data drifts, and statistical methods to quantify temporal effects on biomedical language models. Our study shows that time matters for deploying biomedical language models, while the degree of performance degradation varies by biomedical tasks and statistical quantification approaches. We believe this study can establish a solid benchmark to evaluate and assess temporal effects on deploying biomedical language models.
翻訳日:2024-08-13 20:33:33 公開日:2024-08-11
# 旅行メールマン:ユーザ中心再限定のためのトポロジ的最適化手法

The Traveling Mailman: Topological Optimization Methods for User-Centric Redistricting ( http://arxiv.org/abs/2407.19535v3 )

ライセンス: Link先を確認
Nelson A. Colón Vargas, (参考訳) 本研究では,US Postal Service ネットワークを用いた地域間接続性評価手法を提案する。 我々は、地域境界がコミュニティの整合性に与える影響を評価するために、トポロジカルデータ分析とマルコフ・チェイン・モンテカルロ法を組み合わせる。 アイオワ州をケーススタディとして、KMeansクラスタリングと確率的再バランスを用いて地区計画を作成し、洗練する。 提案手法は, ゆるやかな条件下でのアイオワ州の公式計画よりも, カットエッジが少なく, コンパクトな形状の計画を生成する。 正式な計画ほど破壊的な計画を見つける可能性が低いことは、既存の境界における潜在的な非効率性を示唆している。 ガウス混合モデル解析により、地区景観における3つの異なる分布が明らかになった。 このフレームワークは、より公平な政治的表現のためのコミュニティの相互作用をより正確に反映する。

This study introduces a new districting approach using the US Postal Service network to measure community connectivity. We combine Topological Data Analysis with Markov Chain Monte Carlo methods to assess district boundaries' impact on community integrity. Using Iowa as a case study, we generate and refine districting plans using KMeans clustering and stochastic rebalancing. Our method produces plans with fewer cut edges and more compact shapes than the official Iowa plan under relaxed conditions. The low likelihood of finding plans as disruptive as the official one suggests potential inefficiencies in existing boundaries. Gaussian Mixture Model analysis reveals three distinct distributions in the districting landscape. This framework offers a more accurate reflection of community interactions for fairer political representation.
翻訳日:2024-08-13 20:23:30 公開日:2024-08-11
# ビジュアライゼーション・インストラクション・チューニングを用いたチャート質問応答における多モーダル大言語モデルの改善

Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning ( http://arxiv.org/abs/2407.20174v2 )

ライセンス: Link先を確認
Xingchen Zeng, Haichuan Lin, Yilin Ye, Wei Zeng, (参考訳) MLLM (Emerging multimodal large language model) は、チャート質問応答 (CQA) に大きな可能性を示す。 近年の取り組みは、データ収集と合成を通じてトレーニングデータセット(チャート、データテーブル、質問応答(QA)ペア)のスケールアップに重点を置いている。 しかし、既存のMLLMとCQAデータセットに関する実証研究により、顕著なギャップが明らかとなった。 まず、現在のデータ収集と合成はデータ量に重点を置いており、細粒度の視覚的エンコーディングやQAタスクを考慮していないため、実際のCQAシナリオとは相容れない。 第二に、既存の研究は、もともと自然画像用に設計された基本MLLMのトレーニングレシピに従い、リッチテキスト要素のようなユニークなチャート特性への適応を探索している。 このギャップを埋めるために、トレーニングデータセットの強化とモデル開発をガイドする可視化参照型指導チューニング手法を提案する。 具体的には、既存のデータセットから多種多様な高品質なデータを効果的にフィルタリングし、LLMベースの生成技術を用いてデータを洗練・拡張し、実用的なQAタスクや視覚的エンコーディングとの整合性を向上する新しいデータエンジンを提案する。 そこで, 図形特性への適応を容易にするため, リッチなデータを用いて視覚エンコーダを解凍してMLLMを訓練し, 微粒化認識のための混合解像度適応戦略を取り入れた。 提案手法の有効性を実験的に検証した。 トレーニングの例が少なくても、我々のモデルは確立したベンチマークで最先端のCQAモデルよりも一貫して優れています。 また、将来の研究のベンチマークとしてデータセット分割も提供します。 本論文のソースコードとデータセットはhttps://github.com/zengxingchen/ChartQA-MLLMで公開されている。

Emerging multimodal large language models (MLLMs) exhibit great potential for chart question answering (CQA). Recent efforts primarily focus on scaling up training datasets (i.e., charts, data tables, and question-answer (QA) pairs) through data collection and synthesis. However, our empirical study on existing MLLMs and CQA datasets reveals notable gaps. First, current data collection and synthesis focus on data volume and lack consideration of fine-grained visual encodings and QA tasks, resulting in unbalanced data distribution divergent from practical CQA scenarios. Second, existing work follows the training recipe of the base MLLMs initially designed for natural images, under-exploring the adaptation to unique chart characteristics, such as rich text elements. To fill the gap, we propose a visualization-referenced instruction tuning approach to guide the training dataset enhancement and model development. Specifically, we propose a novel data engine to effectively filter diverse and high-quality data from existing datasets and subsequently refine and augment the data using LLM-based generation techniques to better align with practical QA tasks and visual encodings. Then, to facilitate the adaptation to chart characteristics, we utilize the enriched data to train an MLLM by unfreezing the vision encoder and incorporating a mixture-of-resolution adaptation strategy for enhanced fine-grained recognition. Experimental results validate the effectiveness of our approach. Even with fewer training examples, our model consistently outperforms state-of-the-art CQA models on established benchmarks. We also contribute a dataset split as a benchmark for future research. Source codes and datasets of this paper are available at https://github.com/zengxingchen/ChartQA-MLLM.
翻訳日:2024-08-13 20:23:30 公開日:2024-08-11
# AIの実用性を評価する - シーケンシャルな意思決定システムのためのランダムギーザーテスト

Assessing AI Utility: The Random Guesser Test for Sequential Decision-Making Systems ( http://arxiv.org/abs/2407.20276v2 )

ライセンス: Link先を確認
Shun Ide, Allison Blunt, Djallel Bouneffouf, (参考訳) 本稿では,人工知能(AI)システムのリスクと脆弱性を定量的に評価する一般的な手法を提案する。 提案手法の導出原理は、任意のAIアルゴリズムがランダムな推測よりも優れていることである。 これはささやかなように見えるかもしれないが、ルーレットゲームを含む簡潔なシーケンシャルな意思決定シナリオによる経験的な結果は、洗練されたAIベースのアプローチが、しばしばランダムな推測をかなりの差で下回っていることを示している。 現代のリコメンデータシステムは、リスクの低い選択肢を優先する傾向が似たようなものである可能性があることを強調する。 我々は、この「ランダムな推測テスト」が、AI行動の有用性を評価する有用なツールとなり得ると論じ、そのようなシステムに対する潜在的な改善として探索の増加を指摘する。

We propose a general approach to quantitatively assessing the risk and vulnerability of artificial intelligence (AI) systems to biased decisions. The guiding principle of the proposed approach is that any AI algorithm must outperform a random guesser. This may appear trivial, but empirical results from a simplistic sequential decision-making scenario involving roulette games show that sophisticated AI-based approaches often underperform the random guesser by a significant margin. We highlight that modern recommender systems may exhibit a similar tendency to favor overly low-risk options. We argue that this "random guesser test" can serve as a useful tool for evaluating the utility of AI actions, and also points towards increasing exploration as a potential improvement to such systems.
翻訳日:2024-08-13 20:23:30 公開日:2024-08-11
# 量子コンピュータを用いた量子回路のコンパイル

Quantum circuit compilation with quantum computers ( http://arxiv.org/abs/2408.00077v2 )

ライセンス: Link先を確認
Davide Rattacaso, Daniel Jaschke, Marco Ballarin, Ilaria Siloi, Simone Montangero, (参考訳) コンパイルは、現実世界の量子コンピュータ上での量子アルゴリズムのパフォーマンスを最適化する。 現在までに、古典的な最適化戦略によって行われている。 我々は、量子コンピュータによるコンパイルを行うための量子アルゴリズムのクラスを導入し、コンパイルにおける量子アドバンテージの道を開く。 我々は、最大64キュービットと64タイムステップのトロッター化ハミルトンシミュレーションと、最大40キュービットと71タイムステップの量子フーリエ変換のコンパイルに成功した。 変換不変回路では, 入力回路のサイズが広く増加し, 局所的あるいは準局所的なコンパイル手法よりも優れていることを示す。

Compilation optimizes quantum algorithms performances on real-world quantum computers. To date, it is performed via classical optimization strategies. We introduce a class of quantum algorithms to perform compilation via quantum computers, paving the way for a quantum advantage in compilation. We demonstrate the effectiveness of this approach via Quantum and Simulated Annealing-based compilation: we successfully compile a Trotterized Hamiltonian simulation with up to 64 qubits and 64 time-steps and a Quantum Fourier Transform with up to 40 qubits and 771 time steps. We show that, for a translationally invariant circuit, the compilation results in a fidelity gain that grows extensively in the size of the input circuit, outperforming any local or quasi-local compilation approach.
翻訳日:2024-08-13 20:13:45 公開日:2024-08-11
# 変化点検出のためのディープラーニングアプローチ:ペナルティパラメータ最適化

Deep Learning Approach for Changepoint Detection: Penalty Parameter Optimization ( http://arxiv.org/abs/2408.00856v2 )

ライセンス: Link先を確認
Tung L Nguyen, Toby Dylan Hocking, (参考訳) データシーケンス内の重要なシフトを特定する技術である変更点検出は、財務、ゲノム学、医学など、さまざまな分野において不可欠である。 動的プログラミングによる変更点検出アルゴリズムは、変更点数を制御するためにペナルティパラメータに依存するシーケンス内の変更点の位置を特定するために使用される。 このペナルティパラメータを推定するために、以前の研究は線形モデルや決定木のような単純なモデルを用いていた。 本研究では,ペナルティパラメータの予測のための新しい深層学習手法を提案する。これにより,従来の手法と比較して,大規模なベンチマーク教師付きラベル付きデータセットにおいて,変更点検出精度が著しく向上した。

Changepoint detection, a technique for identifying significant shifts within data sequences, is crucial in various fields such as finance, genomics, medicine, etc. Dynamic programming changepoint detection algorithms are employed to identify the locations of changepoints within a sequence, which rely on a penalty parameter to regulate the number of changepoints. To estimate this penalty parameter, previous work uses simple models such as linear models or decision trees. This study introduces a novel deep learning method for predicting penalty parameters, leading to demonstrably improved changepoint detection accuracy on large benchmark supervised labeled datasets compared to previous methods.
翻訳日:2024-08-13 20:13:45 公開日:2024-08-11
# 知識グラフを用いた接地交換を用いた対話における情報ギャップのブリッジ化

Bridging Information Gaps in Dialogues With Grounded Exchanges Using Knowledge Graphs ( http://arxiv.org/abs/2408.01088v2 )

ライセンス: Link先を確認
Phillip Schneider, Nektarios Machner, Kristiina Jokinen, Florian Matthes, (参考訳) 知識モデルは対話システムの基本であり、ドメイン固有の知識を扱う必要がある。 情報提供会話における効果的なコミュニケーションの確保には、ユーザの理解とシステムに利用可能な知識の整合が不可欠である。 しかしながら、対話システムは、自然言語で情報がどのように表現されるかという点における意味的な矛盾から生じる課題に直面することが多い。 この問題に対処するために,対話参加者間の共有知識を確立することで,情報ギャップを埋めるメカニズムである対話基盤のための大規模言語モデルの可能性を検討する。 私たちのアプローチでは、5つの知識領域にまたがる人間の会話を注釈付けして、BridgeKGと呼ばれる対話コーパスを作成します。 本データセットの一連の実験を通じて,知識グラフ構造内の接地行動の分類と接地情報項目の同定において,大規模言語モデルの有効性を実証的に評価した。 本研究は,これらのモデルが会話の接地作業や一般的な予測誤りに対して,文脈内学習をどのように利用するかの知見を提供する。 本稿では,非構造化対話発話と構造化情報項目のセマンティックレイヤとして,モデルが知識グラフをどのように扱うかについて議論する。

Knowledge models are fundamental to dialogue systems for enabling conversational interactions, which require handling domain-specific knowledge. Ensuring effective communication in information-providing conversations entails aligning user understanding with the knowledge available to the system. However, dialogue systems often face challenges arising from semantic inconsistencies in how information is expressed in natural language compared to how it is represented within the system's internal knowledge. To address this problem, we study the potential of large language models for conversational grounding, a mechanism to bridge information gaps by establishing shared knowledge between dialogue participants. Our approach involves annotating human conversations across five knowledge domains to create a new dialogue corpus called BridgeKG. Through a series of experiments on this dataset, we empirically evaluate the capabilities of large language models in classifying grounding acts and identifying grounded information items within a knowledge graph structure. Our findings offer insights into how these models use in-context learning for conversational grounding tasks and common prediction errors, which we illustrate with examples from challenging dialogues. We discuss how the models handle knowledge graphs as a semantic layer between unstructured dialogue utterances and structured information items.
翻訳日:2024-08-13 20:13:45 公開日:2024-08-11
# ゼロショット ObjectNav に適した人工エージェント間の生成的コミュニケーションは可能か?

Is Generative Communication between Embodied Agents Good for Zero-Shot ObjectNav? ( http://arxiv.org/abs/2408.01877v2 )

ライセンス: Link先を確認
Vishnu Sashank Dorbala, Vishnu Dutt Sharma, Pratap Tokekar, Dinesh Manocha, (参考訳) Zero-Shot ObjectNavでは、具体化された接地エージェントが、環境固有の微調整なしで自然言語ラベルで指定されたターゲットオブジェクトにナビゲートされる。 地上エージェントの限られた見方と、その独立した探索行動を考えると、これは難しい。 これらの問題に対処するために、地上エージェントと並んでグローバルな視野を持つ補助的オーバーヘッドエージェントと、司法探索のための2つの協調ナビゲーションスキームを提案する。 我々は、ゼロショットObjectNavを改善するためにビジョンランゲージモデル(VLM)を具備したエンボディエージェント間のジェネレーティブコミュニケーション(GC)の効果を確立し、シミュレーションにおける未支援のセットアップと比較して、対象物を見つける能力の10%向上を実現した。 我々はさらに,幻覚と協調の存在を定量化するためのGCの分析を行った。 特に,具体的設定に特有な「プリエンプティブ・幻覚」の特徴を識別する。そこでは,オーバヘッドエージェントが,まだ動作していないとき,地上エージェントが対話の中でアクションを実行したと仮定する。 最後に、GCを用いて実世界の推論を行い、プリエンプティブ幻覚に対処することで、実世界のObjectNavのパフォーマンスを向上する定性的な例を示す。

In Zero-Shot ObjectNav, an embodied ground agent is expected to navigate to a target object specified by a natural language label without any environment-specific fine-tuning. This is challenging, given the limited view of a ground agent and its independent exploratory behavior. To address these issues, we consider an assistive overhead agent with a bounded global view alongside the ground agent and present two coordinated navigation schemes for judicious exploration. We establish the influence of the Generative Communication (GC) between the embodied agents equipped with Vision-Language Models (VLMs) in improving zero-shot ObjectNav, achieving a 10% improvement in the ground agent's ability to find the target object in comparison with an unassisted setup in simulation. We further analyze the GC for unique traits quantifying the presence of hallucination and cooperation. In particular, we identify a unique trait of "preemptive hallucination" specific to our embodied setting, where the overhead agent assumes that the ground agent has executed an action in the dialogue when it is yet to move. Finally, we conduct real-world inferences with GC and showcase qualitative examples where countering pre-emptive hallucination via prompt finetuning improves real-world ObjectNav performance.
翻訳日:2024-08-13 20:13:45 公開日:2024-08-11
# 双対パラメトリックマージンSVMによるマルチビュー学習

Multiview learning with twin parametric margin SVM ( http://arxiv.org/abs/2408.01981v2 )

ライセンス: Link先を確認
A. Quadir, M. Tanveer, (参考訳) マルチビュー学習(MVL)は、さまざまな視点の利点を活用して相互補完し、データセット内の潜伏情報を効果的に抽出し活用することを目指している。 いくつかのツインサポートベクタベースMVL(MvTSVM)モデルが導入され、様々な学習タスクで優れた性能を示した。 しかし、MvTSVMベースのモデルは、4つの行列逆転による計算複雑性の形式、非線型ケースを扱うためにカーネル生成表面を利用する最適化問題、トレーニングデータにおける一様雑音仮定の制約など、大きな課題に直面している。 特にデータがヘテロセダスティックなエラー構造を持つ場合、これらの課題はさらに顕著になる。 上記の課題を踏まえ,マルチビュー双対パラメトリック・マージン支援ベクトルマシン(MvTPMSVM)を提案する。 MvTPMSVMは、両クラスに対応するパラメトリック・マージン・ハイパープレーンを構築し、データ内に存在する異方性雑音構造の影響を規制し、管理することを目的としている。 提案したMvTPMSVMモデルは、二重定式化における行列逆変換の明示的な計算を回避し、計算効率を向上する。 UCI,KEEL,Synthetic,Animals with Attributes (AwA)といったベンチマークデータセットを用いて,MvTPMSVMモデルを広範囲に評価する。 実験結果は,厳密な統計解析と合わせて,提案したMvTPMSVMモデルのベースラインモデルと比較して,優れた一般化能力を確認した。 提案されたMvTPMSVMモデルのソースコードは、 \url{https://github.com/mtanveer1/MvTPMSVM}で入手できる。

Multiview learning (MVL) seeks to leverage the benefits of diverse perspectives to complement each other, effectively extracting and utilizing the latent information within the dataset. Several twin support vector machine-based MVL (MvTSVM) models have been introduced and demonstrated outstanding performance in various learning tasks. However, MvTSVM-based models face significant challenges in the form of computational complexity due to four matrix inversions, the need to reformulate optimization problems in order to employ kernel-generated surfaces for handling non-linear cases, and the constraint of uniform noise assumption in the training data. Particularly in cases where the data possesses a heteroscedastic error structure, these challenges become even more pronounced. In view of the aforementioned challenges, we propose multiview twin parametric margin support vector machine (MvTPMSVM). MvTPMSVM constructs parametric margin hyperplanes corresponding to both classes, aiming to regulate and manage the impact of the heteroscedastic noise structure existing within the data. The proposed MvTPMSVM model avoids the explicit computation of matrix inversions in the dual formulation, leading to enhanced computational efficiency. We perform an extensive assessment of the MvTPMSVM model using benchmark datasets such as UCI, KEEL, synthetic, and Animals with Attributes (AwA). Our experimental results, coupled with rigorous statistical analyses, confirm the superior generalization capabilities of the proposed MvTPMSVM model compared to the baseline models. The source code of the proposed MvTPMSVM model is available at \url{https://github.com/mtanveer1/MvTPMSVM}.
翻訳日:2024-08-13 20:13:45 公開日:2024-08-11
# コントラスト学習と抽象概念:自然数の場合

Contrastive Learning and Abstract Concepts: The Case of Natural Numbers ( http://arxiv.org/abs/2408.02247v2 )

ライセンス: Link先を確認
Daniel N. Nissani, (参考訳) 対照的学習(CL)は、ImageNetデータセットに含まれるオブジェクトなど、具体的な概念に関連する分類や下流タスクにうまく適用されている。 これまでのところ、より抽象的なエンティティにこの有望なスキームを適用する試みは行われていないようだ。 これらの顕著な例は、(離散的な)量の概念である。 CLはしばしば、深遠でユビキタスな保存原理(例えば、オブジェクト分類タスクにおけるアイデンティティの保存)によって導かれる自己教師型スキームとして解釈される。 この入門研究では、離散量の推定や予測が可能な自然数の半抽象概念に適切な保存原理を適用する。 実験により、おもちゃの問題により、対照的な学習は、人間でも超人的範囲でも高い精度で、一目で数えられるように訓練できることが示される。 と。 類似アーキテクチャのニューラルネットワークスキームを,一見教師付き学習(SL)のトレーニング・ツー・カウントの結果と比較した。 両スキームは, トレーニング段階と試験段階の分布が等しいベースライン実験において, 同様の性能を示すことを示す。 重要なことは、分散のトレーニングとテストが異なるいくつかの一般化シナリオにおいて、CLはより堅牢ではるかに優れたエラー性能を誇示している。

Contrastive Learning (CL) has been successfully applied to classification and other downstream tasks related to concrete concepts, such as objects contained in the ImageNet dataset. No attempts seem to have been made so far in applying this promising scheme to more abstract entities. A prominent example of these could be the concept of (discrete) Quantity. CL can be frequently interpreted as a self-supervised scheme guided by some profound and ubiquitous conservation principle (e.g. conservation of identity in object classification tasks). In this introductory work we apply a suitable conservation principle to the semi-abstract concept of natural numbers by which discrete quantities can be estimated or predicted. We experimentally show, by means of a toy problem, that contrastive learning can be trained to count at a glance with high accuracy both at human as well as at super-human ranges.. We compare this with the results of a trained-to-count at a glance supervised learning (SL) neural network scheme of similar architecture. We show that both schemes exhibit similar good performance on baseline experiments, where the distributions of the training and testing stages are equal. Importantly, we demonstrate that in some generalization scenarios, where training and testing distributions differ, CL boasts more robust and much better error performance.
翻訳日:2024-08-13 20:13:45 公開日:2024-08-11
# 推薦のための大規模言語モデルの生涯パーソナライズされた低ランク適応

Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation ( http://arxiv.org/abs/2408.03533v2 )

ライセンス: Link先を確認
Jiachen Zhu, Jianghao Lin, Xinyi Dai, Bo Chen, Rong Shan, Jieming Zhu, Ruiming Tang, Yong Yu, Weinan Zhang, (参考訳) 我々は、最近積極的に研究され、論理的推論能力とオープンワールド知識を備えたレコメンダシステムを効果的に強化する上で、重要な課題となっている、リコメンデーションのための大規模言語モデル(LLM)の分野に主に焦点を当てている。 現在の主流の取り組みは、入力テンプレートをカスタマイズしたり、予測層におけるセマンティックとレコメンデーション空間間の表現を調整することで、レコメンデーションモデルからLLMにパーソナライズされた情報を注入することを中心にしている。 1) LoRAは既存の作業のコアコンポーネントとして主に使用されているが、LoRAパラメータではパーソナライズが十分に確立されていない。 2)生涯にわたるパーソナライズ行動シーケンスはパーソナライズに理想的であるが,LLMはテキストの長さを延長するためにトレーニングと推論のエスカレーションを必要とするため,有効性と効率の問題を提起する。 (3) 既存のアプローチは、トレーニング効率の制約のため、大規模なデータセットには拡張性がない。 従って、LLMはデータセット全体ではなく、データセットのごく一部(例:10%未満)しか見ることができず、完全なトレーニングスペースへの露出を制限することができる。 これらの問題に対処するため、RecLoRAを提案する。 このモデルにはパーソナライズされたLoRAモジュールが組み込まれており、異なるユーザに対して独立したLoRAをメンテナンスし、異なるモダリティに対して異なる履歴長を検索し、最小の時間コストを追加しながらパフォーマンスを大幅に改善するLong-Short Modality Retrieverが組み込まれている。 さらに、Few2Manyラーニング戦略を設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。 公開データセットに関する大規模な実験は、既存のベースラインモデルと比較して、RecLoRAの有効性を示している。

We primarily focus on the field of large language models (LLMs) for recommendation, which has been actively explored recently and poses a significant challenge in effectively enhancing recommender systems with logical reasoning abilities and open-world knowledge. Current mainstream efforts mainly center around injecting personalized information from recommendation models into LLMs by customizing input templates or aligning representations between semantic and recommendation spaces at the prediction layer. However, they face three significant limitations: (1) LoRA is mostly used as a core component in existing works, but personalization is not well established in LoRA parameters as the LoRA matrix shared by every user may not cater to different users' characteristics, leading to suboptimal performance. (2) Although lifelong personalized behavior sequences are ideal for personalization, their use raises effectiveness and efficiency issues since LLMs require escalating training and inference time to extend text lengths. (3) Existing approaches aren't scalable for large datasets due to training efficiency constraints. Thus, LLMs only see a small fraction of the datasets (e.g., less than 10%) instead of the whole datasets, limiting their exposure to the full training space. To address these problems, we propose RecLoRA. This model incorporates a Personalized LoRA module that maintains independent LoRAs for different users and a Long-Short Modality Retriever that retrieves different history lengths for different modalities, significantly improving performance while adding minimal time cost. Furthermore, we design a Few2Many Learning Strategy, using a conventional recommendation model as a lens to magnify small training spaces to full spaces. Extensive experiments on public datasets demonstrate the efficacy of our RecLoRA compared to existing baseline models.
翻訳日:2024-08-13 20:04:01 公開日:2024-08-11
# CodexGraph: コードグラフデータベースによる大規模言語モデルとコードリポジトリのブリッジ

CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases ( http://arxiv.org/abs/2408.03910v2 )

ライセンス: Link先を確認
Xiangyan Liu, Bo Lan, Zhiyuan Hu, Yang Liu, Zhicheng Zhang, Fei Wang, Michael Shieh, Wenmeng Zhou, (参考訳) 大きな言語モデル(LLM)は、HumanEvalやMBPPのようなスタンドアロンのコードタスクに優れていますが、コードリポジトリ全体の処理に苦労しています。 この課題は、LLM-codebaseインタラクションをリポジトリスケールで強化する研究のきっかけとなった。 現在のソリューションは類似性に基づく検索や手動のツールやAPIに依存しており、それぞれに顕著な欠点がある。 類似性に基づく検索は複雑なタスクではリコールが低いことが多いが、手動ツールやAPIは通常タスク固有であり、専門家の知識を必要とする。 これらの制限を緩和するために,コードリポジトリから抽出したグラフデータベースインタフェースにLLMエージェントを統合するシステムであるCodexGraphを導入する。 グラフデータベースの構造特性とグラフクエリ言語の柔軟性を活用することで、CodexGraphはLLMエージェントがクエリの構築と実行を可能にし、正確なコード構造を意識したコンテキスト検索とコードナビゲーションを可能にします。 我々は、CrossCodeEval、SWE-bench、EvoCodeBenchの3つのベンチマークを使用してCodexGraphを評価する。 さらに,実世界の5つのコーディングアプリケーションを開発した。 CodexGraphは、統合されたグラフデータベーススキーマによって、学術的および現実世界の環境において、競争力のあるパフォーマンスとポテンシャルを示し、その汎用性とソフトウェア工学における有効性を示している。 私たちのアプリケーションのデモは、https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agentです。

Large Language Models (LLMs) excel in stand-alone code tasks like HumanEval and MBPP, but struggle with handling entire code repositories. This challenge has prompted research on enhancing LLM-codebase interaction at a repository scale. Current solutions rely on similarity-based retrieval or manual tools and APIs, each with notable drawbacks. Similarity-based retrieval often has low recall in complex tasks, while manual tools and APIs are typically task-specific and require expert knowledge, reducing their generalizability across diverse code tasks and real-world applications. To mitigate these limitations, we introduce CodexGraph, a system that integrates LLM agents with graph database interfaces extracted from code repositories. By leveraging the structural properties of graph databases and the flexibility of the graph query language, CodexGraph enables the LLM agent to construct and execute queries, allowing for precise, code structure-aware context retrieval and code navigation. We assess CodexGraph using three benchmarks: CrossCodeEval, SWE-bench, and EvoCodeBench. Additionally, we develop five real-world coding applications. With a unified graph database schema, CodexGraph demonstrates competitive performance and potential in both academic and real-world environments, showcasing its versatility and efficacy in software engineering. Our application demo: https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent.
翻訳日:2024-08-13 20:04:01 公開日:2024-08-11
# 低レベル中間表現におけるオーナシップ

Ownership in low-level intermediate representation ( http://arxiv.org/abs/2408.04043v2 )

ライセンス: Link先を確認
Siddharth Priya, Arie Gurfinkel, (参考訳) 高レベルの言語におけるオーナシップの概念は、プログラマとコンパイラの両方がメモリ操作の有効性を判断するのに役立ちます。 これまで、オーナシップセマンティクスは、アドレスマップを維持する代わりに、データの1次論理(FOL)表現によってデータへの参照をモデル化するために、ハイレベルな自動プログラム検証でうまく使われてきた。 しかし、オーナシップのセマンティクスは低レベルのプログラム検証には使われない。 我々は2つの課題を特定した。 まず、プログラムが低レベル中間表現(例えばLLVM IR)にコンパイルされると、所有権情報が失われる。 第二に、低レベルのプログラムのポインタはアドレスマップ(例えば、安全でないRust)を使用してバイトを指しているため、検証条件(VC)は、常にFOL抽象化によってポインタを置き換えることはできない。 状況を改善するため,低レベル中間表現のようなLLVMのオーナシップセマンティクスを開発する。 これらのセマンティクスを使用することで、VCはデータのバイト表現を格納するポインタキャッシュの直接アクセスによって、いくつかのメモリアクセスを同時にモデル化することができる。 このスキームは、特にオーナシップのセマンティクスに従う安全なプログラムに対して、アドレスマップをメンテナンスしなければならないインスタンスを減らす。 安全でない機能のために、メモリアクセスはアドレスマップの操作によってモデル化され、アドレスマップとポインタキャッシュを同期に保つメカニズムを提供する。 LLVMのモデルチェッカーであるSEABMCでこれらのセマンティクスを実装している。 Cにはオーナシップが組み込まれていないため、検証のためにIRのようなLLVMへの変換中にオーナシップを導入して保存する適切なマクロが追加される。 このアプローチは成熟したオープンソースCコードで評価される。 手作りのベンチマークと実用的なプログラムの両方に対して、SMT解決時に13x-5x$のスピードアップを観察する。

The concept of ownership in high level languages can aid both the programmer and the compiler to reason about the validity of memory operations. Previously, ownership semantics has been used successfully in high level automatic program verification to model a reference to data by a first order logic (FOL) representation of data instead of maintaining an address map. However, ownership semantics is not used in low level program verification. We have identified two challenges. First, ownership information is lost when a program is compiled to a low level intermediate representation (e.g., in LLVM IR). Second, pointers in low level programs point to bytes using an address map (e.g., in unsafe Rust) and thus the verification condition (VC) cannot always replace a pointer by its FOL abstraction. To remedy the situation, we develop ownership semantics for an LLVM like low level intermediate representation. Using these semantics, the VC can opportunistically model some memory accesses by a direct access of a pointer cache that stores byte representation of data. This scheme reduces instances where an address map must be maintained, especially for mostly safe programs that follow ownership semantics. For unsafe functionality, memory accesses are modelled by operations on an address map and we provide mechanisms to keep the address map and pointer cache in sync. We implement these semantics in SEABMC, a bit precise bounded model checker for LLVM. For evaluation, the source programs are assumed to be written in C. Since C does not have ownership built in, suitable macros are added that introduce and preserve ownership during translation to LLVM like IR for verification. This approach is evaluated on mature open source C code. For both handcrafted benchmarks and practical programs, we observe a speedup of $1.3x--5x$ during SMT solving.
翻訳日:2024-08-13 20:04:01 公開日:2024-08-11
# パケットレベル符号化を用いた同期マルチモーダルセマンティック通信システム

Synchronous Multi-modal Semantic Communication System with Packet-level Coding ( http://arxiv.org/abs/2408.04535v2 )

ライセンス: Link先を確認
Yun Tian, Jingkai Ying, Zhijin Qin, Ye Jin, Xiaoming Tao, (参考訳) 共同セマンティック・チャネル・コーディング設計によるセマンティック・コミュニケーションは,物理層チャネル上で異なるモダリティのデータを伝送する上で有望な性能を示しているが,マルチモーダル・セマンティクスの同期とパケットレベルの前方誤り補正は十分に研究されていない。 セマンティックエンコーダの独立設計のため、セマンティックドメインと時間ドメインの両方でマルチモーダル機能を同期させることは難しい問題である。 本稿では,顔映像と音声の伝送を例として,パケットレベル符号化を用いた同期マルチモーダル・セマンティック通信システム(SyncSC)を提案する。 意味的・時間的同期を実現するために,3次元モーフィブルモード(3DMM)係数とテキストを意味論として送信し,従来の手法に比べて低帯域幅での再構成と同期の類似性を実現するセマンティックコーデックを提案する。 消去チャネル下でのセマンティックパケットの保護を目的として,パケット損失率が高い場合でも,特定の視覚的品質性能を維持するパケットレベルフォワード誤り訂正法(PacSC)を提案する。 特にテキストパケットに対しては,双方向エンコーダ表現(BERT)に基づくTextPCと呼ばれるテキストパケット損失隠蔽モジュールが提案され,従来のFEC手法の性能が大幅に向上した。 シミュレーションの結果,提案したSyncSCは伝送オーバーヘッドを低減し,パケットロスネットワーク上での映像と音声の高品質同期伝送を実現することがわかった。

Although the semantic communication with joint semantic-channel coding design has shown promising performance in transmitting data of different modalities over physical layer channels, the synchronization and packet-level forward error correction of multimodal semantics have not been well studied. Due to the independent design of semantic encoders, synchronizing multimodal features in both the semantic and time domains is a challenging problem. In this paper, we take the facial video and speech transmission as an example and propose a Synchronous Multimodal Semantic Communication System (SyncSC) with Packet-Level Coding. To achieve semantic and time synchronization, 3D Morphable Mode (3DMM) coefficients and text are transmitted as semantics, and we propose a semantic codec that achieves similar quality of reconstruction and synchronization with lower bandwidth, compared to traditional methods. To protect semantic packets under the erasure channel, we propose a packet-Level Forward Error Correction (FEC) method, called PacSC, that maintains a certain visual quality performance even at high packet loss rates. Particularly, for text packets, a text packet loss concealment module, called TextPC, based on Bidirectional Encoder Representations from Transformers (BERT) is proposed, which significantly improves the performance of traditional FEC methods. The simulation results show that our proposed SyncSC reduce transmission overhead and achieve high-quality synchronous transmission of video and speech over the packet loss network.
翻訳日:2024-08-13 20:04:01 公開日:2024-08-11
# 相関試料を用いた尾根回帰のリスクと交差検証

Risk and cross validation in ridge regression with correlated samples ( http://arxiv.org/abs/2408.04607v2 )

ライセンス: Link先を確認
Alexander Atanasov, Jacob A. Zavatone-Veth, Cengiz Pehlevan, (参考訳) 近年、高次元尾根回帰の理解が著しく進歩しているが、既存の理論では訓練例は独立していると考えられている。 確率行列理論と自由確率の最近の手法を活用することで、データポイントが任意の相関を持つ場合のリッジ回帰の内外リスクに対して鋭い漸近を与える。 この設定では、一般化されたクロスバリデーション推定器(GCV)がサンプル外リスクを正確に予測できないことを示す。 しかし、ノイズ残差がデータポイントと同じ相関を持つ場合、GCVを変更して高次元極限に集中する効率よく計算可能な非バイアス推定器が得られる。 さらに、テストポイントがトレーニングセットと非自明な相関を持つ場合、時系列予測でしばしば発生する設定にまで漸近解析を拡張します。 時系列の相関構造の知識を仮定すると、これは再びGCV推定器の拡張をもたらし、そのようなテストポイントが長期的リスクを過度に楽観的に予測する程度を鋭く特徴づける。 我々は多種多様な高次元データにまたがって理論の予測を検証した。

Recent years have seen substantial advances in our understanding of high-dimensional ridge regression, but existing theories assume that training examples are independent. By leveraging recent techniques from random matrix theory and free probability, we provide sharp asymptotics for the in- and out-of-sample risks of ridge regression when the data points have arbitrary correlations. We demonstrate that in this setting, the generalized cross validation estimator (GCV) fails to correctly predict the out-of-sample risk. However, in the case where the noise residuals have the same correlations as the data points, one can modify the GCV to yield an efficiently-computable unbiased estimator that concentrates in the high-dimensional limit, which we dub CorrGCV. We further extend our asymptotic analysis to the case where the test point has nontrivial correlations with the training set, a setting often encountered in time series forecasting. Assuming knowledge of the correlation structure of the time series, this again yields an extension of the GCV estimator, and sharply characterizes the degree to which such test points yield an overly optimistic prediction of long-time risk. We validate the predictions of our theory across a variety of high dimensional data.
翻訳日:2024-08-13 19:54:11 公開日:2024-08-11
# オープンフィールド環境におけるイチゴ果実開発段階のインスタンスセグメンテーションのためのYOLOv8モデル構成の性能評価

Performance Evaluation of YOLOv8 Model Configurations, for Instance Segmentation of Strawberry Fruit Development Stages in an Open Field Environment ( http://arxiv.org/abs/2408.05661v1 )

ライセンス: Link先を確認
Abdul-Razak Alhassan Gamani, Ibrahim Arhin, Adrena Kyeremateng Asamoah, (参考訳) イチゴの熟成段階の正確な識別は、収量管理と害虫管理を最適化し、収穫と収穫後の物流に関する情報的決定を行うために重要である。 本研究では, オープンフィールド環境下でイチゴを熟成・未熟成段階に分割するためのYOLOv8モデル構成の性能評価を行った。 YOLOv8n モデルでは,平均精度 80.9\% でセグメント化精度が向上し,他の YOLOv8 構成よりも優れていた。 推論速度に関しては、YOLOv8nは12.9ミリ秒で画像を処理し、YOLOv8sは22.2ミリ秒で処理した。 348の接地真理ラベルを持つ86以上の試験画像で、YOLOv8nは、251の接地真理理実のうち235の熟した果実クラスと51の未熟の果実クラスをそれぞれ検出し、97の未熟の接地真理実ラベルを検出した。 一方、YOLOv8sは204個の熟した果実と37個の未熟な果実を検出。 YOLOv8nは24.2ミリ秒で、YOLOv8s、YOLOv8m、YOLOv8l、YOLOv8xを上回り、それぞれ33.0ミリ秒、44.3ミリ秒、53.6ミリ秒、62.5ミリ秒で画像を処理した。 これらの結果は、オープンフィールド農業における複雑な視覚認識タスクに効果的に対処し、オープンフィールド農業における複雑な視覚認識タスクに効果的に対処する高度なオブジェクトセグメンテーションアルゴリズムの可能性を明らかにする。

Accurate identification of strawberries during their maturing stages is crucial for optimizing yield management, and pest control, and making informed decisions related to harvest and post-harvest logistics. This study evaluates the performance of YOLOv8 model configurations for instance segmentation of strawberries into ripe and unripe stages in an open field environment. The YOLOv8n model demonstrated superior segmentation accuracy with a mean Average Precision (mAP) of 80.9\%, outperforming other YOLOv8 configurations. In terms of inference speed, YOLOv8n processed images at 12.9 milliseconds, while YOLOv8s, the least-performing model, processed at 22.2 milliseconds. Over 86 test images with 348 ground truth labels, YOLOv8n detected 235 ripe fruit classes and 51 unripe fruit classes out of 251 ground truth ripe fruits and 97 unripe ground truth labels, respectively. In comparison, YOLOv8s detected 204 ripe fruits and 37 unripe fruits. Overall, YOLOv8n achieved the fastest inference speed of 24.2 milliseconds, outperforming YOLOv8s, YOLOv8m, YOLOv8l, and YOLOv8x, which processed images at 33.0 milliseconds, 44.3 milliseconds, 53.6 milliseconds, and 62.5 milliseconds, respectively. These results underscore the potential of advanced object segmentation algorithms to address complex visual recognition tasks in open-field agriculture effectively to address complex visual recognition tasks in open-field agriculture effectively.
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# ミニ・リベラル・アーツ・カレッジにおけるNLP奨学金の養成--後向きにデザインされたコースの提案

Training an NLP Scholar at a Small Liberal Arts College: A Backwards Designed Course Proposal ( http://arxiv.org/abs/2408.05664v1 )

ライセンス: Link先を確認
Grusha Prasad, Forrest Davis, (参考訳) 過去2年間の自然言語処理(NLP)の急速な成長は、この分野についてもっと学ぶことへの学生の関心と興奮を引き起こしている。 本稿では,NLP講習会が望む2種類の学生について紹介する。 まず、幅広いタスクに対して、NLPに新しい技術を柔軟に設計、構築、適用できる「NLPエンジニア」である。 第二に、NLPの質問をポーズし、洗練し、答えることのできる「NLP学者」であり、また、これらの回答をより広い聴衆に効果的に伝えることを学んでいる。 これらの2つのスキルは相互に排他的ではなく、NLPエンジニアは批判的に考えることができ、NLP研究者はシステムを構築することができるべきである。 中小教養学部の教育者として,NLP学者の育成に適したアプローチを学生や機関の強みとして推奨している。 本稿では,NLP研究者が持つべきスキルについて述べるとともに,これらのスキルの獲得を支援するコースコンポーネントを提案するために,後方設計を採用する。

The rapid growth in natural language processing (NLP) over the last couple years has generated student interest and excitement in learning more about the field. In this paper, we present two types of students that NLP courses might want to train. First, an "NLP engineer" who is able to flexibly design, build and apply new technologies in NLP for a wide range of tasks. Second, an "NLP scholar" who is able to pose, refine and answer questions in NLP and how it relates to the society, while also learning to effectively communicate these answers to a broader audience. While these two types of skills are not mutually exclusive -- NLP engineers should be able to think critically, and NLP scholars should be able to build systems -- we think that courses can differ in the balance of these skills. As educators at Small Liberal Arts Colleges, the strengths of our students and our institution favors an approach that is better suited to train NLP scholars. In this paper we articulate what kinds of skills an NLP scholar should have, and then adopt a backwards design to propose course components that can aid the acquisition of these skills.
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# 大規模言語モデルを用いたフィッシングサイトの検出と説明可能性の最適化

Utilizing Large Language Models to Optimize the Detection and Explainability of Phishing Websites ( http://arxiv.org/abs/2408.05667v1 )

ライセンス: Link先を確認
Sayak Saha Roy, Shirin Nilizadeh, (参考訳) 本稿では,PhishLangについて紹介する。PhishLangはオープンソースの軽量大言語モデル(LLM)で,Webサイトのコンテキスト解析を通じてWebサイトの検出をフィッシングするように設計されている。 静的な特徴に依存し、計算集約的な新たな脅威やディープラーニングモデルへの適応に苦慮する従来のヒューリスティックあるいは機械学習モデルとは異なり、我々のモデルは、LLMの高度な言語処理機能を利用して、フィッシング攻撃の特徴となるきめ細かい特徴を学習する。 さらに、PhishLangは最小限のデータ前処理で動作し、主要なディープラーニングツールに匹敵するパフォーマンスを提供する。 3.5ヶ月にわたるテスト期間において、PhishLangは、約26KのフィッシングURLの特定に成功した。 また、いくつかの現実的な敵攻撃に対してPhishLangを評価し、そのような脅威に対して非常に堅牢な6つのパッチを開発しました。 さらに,PhishLang と GPT-3.5 Turbo を統合して \textit{Explainable blocklisting} を生成する。 最後に、PhishLangフレームワークをオープンソース化し、ChromiumベースのブラウザエクステンションとURLスキャナWebサイトを開発しました。

In this paper, we introduce PhishLang, an open-source, lightweight Large Language Model (LLM) specifically designed for phishing website detection through contextual analysis of the website. Unlike traditional heuristic or machine learning models that rely on static features and struggle to adapt to new threats and deep learning models that are computationally intensive, our model utilizes the advanced language processing capabilities of LLMs to learn granular features that are characteristic of phishing attacks. Furthermore, PhishLang operates with minimal data preprocessing and offers performance comparable to leading deep learning tools, while being significantly faster and less resource-intensive. Over a 3.5-month testing period, PhishLang successfully identified approximately 26K phishing URLs, many of which were undetected by popular antiphishing blocklists, thus demonstrating its potential to aid current detection measures. We also evaluate PhishLang against several realistic adversarial attacks and develop six patches that make it very robust against such threats. Furthermore, we integrate PhishLang with GPT-3.5 Turbo to create \textit{explainable blocklisting} - warnings that provide users with contextual information about different features that led to a website being marked as phishing. Finally, we have open-sourced the PhishLang framework and developed a Chromium-based browser extension and URL scanner website, which implement explainable warnings for end-users.
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# ステルス拡散:拡散モデルによる拡散法地震探査に向けて

StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model ( http://arxiv.org/abs/2408.05669v1 )

ライセンス: Link先を確認
Ziyin Zhou, Ke Sun, Zhongxi Chen, Huafeng Kuang, Xiaoshuai Sun, Rongrong Ji, (参考訳) 生成モデルの急速な進歩は、AIGC-S(AI-Generated Content Stealth)の重要なタスクを生み出している。 このタスクは、既存の検出方法の脆弱性を理解し、より堅牢な技術を開発するために不可欠である。 しかし、現在の敵攻撃は、しばしば可視ノイズを導入し、転送性に乏しく、AI生成画像と真の画像のスペクトル差に対処できない。 そこで本稿では,AI生成した画像を高品質で知覚不能な逆転例に修正し,最先端の法医学的検出を回避可能な,安定拡散に基づくフレームワークであるStealthDiffusionを提案する。 Stealth Diffusionは2つの主要なコンポーネントから構成される: 安定拡散の潜在空間における対向摂動を生成する潜在対向最適化と、生成した対向画像と真の画像とのスペクトル差を元の拡散モデルの生成過程に影響を与えることなく減少させる制御VAEである。 大規模な実験により、StealthDiffusionは、ホワイトボックスとブラックボックスの両方の設定で有効であることが示され、AI生成した画像を、真の画像と似た周波数スペクトルを持つ高品質の対向フォージェリーに変換する。 これらの偽造物は、先進的な法医学的分類器によって真に分類され、人間が区別することが困難である。

The rapid progress in generative models has given rise to the critical task of AI-Generated Content Stealth (AIGC-S), which aims to create AI-generated images that can evade both forensic detectors and human inspection. This task is crucial for understanding the vulnerabilities of existing detection methods and developing more robust techniques. However, current adversarial attacks often introduce visible noise, have poor transferability, and fail to address spectral differences between AI-generated and genuine images. To address this, we propose StealthDiffusion, a framework based on stable diffusion that modifies AI-generated images into high-quality, imperceptible adversarial examples capable of evading state-of-the-art forensic detectors. StealthDiffusion comprises two main components: Latent Adversarial Optimization, which generates adversarial perturbations in the latent space of stable diffusion, and Control-VAE, a module that reduces spectral differences between the generated adversarial images and genuine images without affecting the original diffusion model's generation process. Extensive experiments show that StealthDiffusion is effective in both white-box and black-box settings, transforming AI-generated images into high-quality adversarial forgeries with frequency spectra similar to genuine images. These forgeries are classified as genuine by advanced forensic classifiers and are difficult for humans to distinguish.
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# PS-TTL:Few-shotオブジェクト検出のためのプロトタイプベースソフトラベルとテスト時間学習

PS-TTL: Prototype-based Soft-labels and Test-Time Learning for Few-shot Object Detection ( http://arxiv.org/abs/2408.05674v1 )

ライセンス: Link先を確認
Yingjie Gao, Yanan Zhang, Ziyue Huang, Nanqing Liu, Di Huang, (参考訳) 近年、Few-Shot Object Detection (FSOD) が注目され、非常に限られた注釈付きデータを用いて優れた一般化能力を持つモデルを構築する能力により、大きな進歩を遂げている。 現在、ファインチューニングベースのパラダイムがこの分野を支配しており、検知器は十分なサンプルを持つベースクラスで事前訓練され、次にサンプルが少ない新しいクラスで微調整されるが、新しいクラスのラベル付きサンプルの不足は、データ分布を正確に適合させ、性能を損なう。 この問題に対処するため、我々はFSODの新しいフレームワーク、すなわち、プロトタイプベースのSoft-labels and Test-Time Learning (PS-TTL)を提案する。 具体的には,テストデータから新しいインスタンスを発見するために,平均教師ネットワークを用いてTTL(Test-Time Learning)モジュールを設計する。 さらに,比較的信頼性の低い擬似ラベルは分類の混乱を呈するが,前景を思い出す傾向にある。 そこで我々は,低信頼度擬似ラベルとカテゴリプロトタイプの類似性をソフトラベルとして評価し,そのポテンシャルを解き放つことによって,プロトタイプベースソフトラベル(PS)戦略を開発した。 VOCおよびCOCOベンチマークの広範な実験は、PS-TTLが最先端を実現し、その有効性を強調していることを示している。 コードとモデルはhttps://github.com/gaoyingjay/PS-TTLで公開されている。

In recent years, Few-Shot Object Detection (FSOD) has gained widespread attention and made significant progress due to its ability to build models with a good generalization power using extremely limited annotated data. The fine-tuning based paradigm is currently dominating this field, where detectors are initially pre-trained on base classes with sufficient samples and then fine-tuned on novel ones with few samples, but the scarcity of labeled samples of novel classes greatly interferes precisely fitting their data distribution, thus hampering the performance. To address this issue, we propose a new framework for FSOD, namely Prototype-based Soft-labels and Test-Time Learning (PS-TTL). Specifically, we design a Test-Time Learning (TTL) module that employs a mean-teacher network for self-training to discover novel instances from test data, allowing detectors to learn better representations and classifiers for novel classes. Furthermore, we notice that even though relatively low-confidence pseudo-labels exhibit classification confusion, they still tend to recall foreground. We thus develop a Prototype-based Soft-labels (PS) strategy through assessing similarities between low-confidence pseudo-labels and category prototypes as soft-labels to unleash their potential, which substantially mitigates the constraints posed by few-shot samples. Extensive experiments on both the VOC and COCO benchmarks show that PS-TTL achieves the state-of-the-art, highlighting its effectiveness. The code and model are available at https://github.com/gaoyingjay/PS-TTL.
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# テンソル分解とRKHS:スムーズデータとミスアライメントデータの効率的なアルゴリズム

Tensor Decomposition Meets RKHS: Efficient Algorithms for Smooth and Misaligned Data ( http://arxiv.org/abs/2408.05677v1 )

ライセンス: Link先を確認
Brett W. Larsen, Tamara G. Kolda, Anru R. Zhang, Alex H. Williams, (参考訳) 正準多進テンソル分解は、多次元データアレイを有限次元ベクトルの外積の和に分解する。 代わりに、再生された核ヒルベルト空間(RKHS)から連続函数(無限次元ベクトル)に置き換えることができる。 無限次元モードのあるテンソルを準テンソルと呼び、連続RKHSモードを持つテンソルを分解するアプローチをCP-HiFi(ハイブリッド無限次元および有限次元)テンソル分解と呼ぶ。 CP-HiFiの利点は、無限次元モードで滑らかさを強制できることである。 さらに、CP-HiFiは、観測データを正規および有限の矩形格子上に配置する必要はなく、自然に不整合データを組み込む。 方法論を詳述し、合成例で説明する。

The canonical polyadic (CP) tensor decomposition decomposes a multidimensional data array into a sum of outer products of finite-dimensional vectors. Instead, we can replace some or all of the vectors with continuous functions (infinite-dimensional vectors) from a reproducing kernel Hilbert space (RKHS). We refer to tensors with some infinite-dimensional modes as quasitensors, and the approach of decomposing a tensor with some continuous RKHS modes is referred to as CP-HiFi (hybrid infinite and finite dimensional) tensor decomposition. An advantage of CP-HiFi is that it can enforce smoothness in the infinite dimensional modes. Further, CP-HiFi does not require the observed data to lie on a regular and finite rectangular grid and naturally incorporates misaligned data. We detail the methodology and illustrate it on a synthetic example.
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# 動的更新とMomentumによる適応型プルーニングを用いた共有サーバデータに基づく効果的なフェデレーション学習

Efficient Federated Learning Using Dynamic Update and Adaptive Pruning with Momentum on Shared Server Data ( http://arxiv.org/abs/2408.05678v1 )

ライセンス: Link先を確認
Ji Liu, Juncheng Jia, Hong Zhang, Yuhui Yun, Leye Wang, Yang Zhou, Huaiyu Dai, Dejing Dou, (参考訳) フェデレーテッド・ラーニング(FL)は、優れた性能を達成しているにもかかわらず、低トレーニング効率と限られた計算資源という2つの重要な問題に直面している。 本稿では、エッジデバイスにおける分散データに加えて、サーバ上の共有不感データを活用することで、グローバルモデルを効率的にトレーニングするための新しいFLフレームワークであるFedDUMAPを提案する。 まず、サーバ上の共有不感なデータを利用して、サーバ上の更新ステップを動的に調整し、コンバージェンスを高速化し、精度を向上する、シンプルな動的サーバ更新アルゴリズムを提案する。 第2に,動的サーバ更新アルゴリズムを用いた適応最適化手法を提案する。 第3に, 各層の多様な特徴に適応し, 有効性と効率の優れたトレードオフを実現するため, 特定の刈り取り作業を行うための層適応型モデル刈取法を開発した。 提案するFLモデルであるFedDUMAPは,3つの元の手法を組み合わせて,効率(最大16.9倍高速),精度(最大20.4%高),計算コスト(最大62.6%小さめ)の点で,ベースラインアプローチに比べ,性能が大幅に向上した。

Despite achieving remarkable performance, Federated Learning (FL) encounters two important problems, i.e., low training efficiency and limited computational resources. In this paper, we propose a new FL framework, i.e., FedDUMAP, with three original contributions, to leverage the shared insensitive data on the server in addition to the distributed data in edge devices so as to efficiently train a global model. First, we propose a simple dynamic server update algorithm, which takes advantage of the shared insensitive data on the server while dynamically adjusting the update steps on the server in order to speed up the convergence and improve the accuracy. Second, we propose an adaptive optimization method with the dynamic server update algorithm to exploit the global momentum on the server and each local device for superior accuracy. Third, we develop a layer-adaptive model pruning method to carry out specific pruning operations, which is adapted to the diverse features of each layer so as to attain an excellent trade-off between effectiveness and efficiency. Our proposed FL model, FedDUMAP, combines the three original techniques and has a significantly better performance compared with baseline approaches in terms of efficiency (up to 16.9 times faster), accuracy (up to 20.4% higher), and computational cost (up to 62.6% smaller).
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# 持続可能な量子コンピューティング:量子コンピューティングライフサイクルにおける炭素のベンチマークの可能性と課題

Sustainable Quantum Computing: Opportunities and Challenges of Benchmarking Carbon in the Quantum Computing Lifecycl ( http://arxiv.org/abs/2408.05679v1 )

ライセンス: Link先を確認
Nivedita Arora, Prem Kumar, (参考訳) 産業と学術の両方の研究者が量子コンピューティング(QC)プラットフォームを実効性のある性能と機能で構築しようと競っているが、炭素フットプリント、e-waste生成、ミネラル利用、水とエネルギー消費など、この取り組みの環境への影響はほとんど分かっていない。 同様の監視は半導体革命の間に行われ、地球の健康に惨めな結果をもたらし続けている。 量子コンピューティングスタックをゼロから構築する際、そのライフサイクル全体、すなわち生産、使用、廃棄のための環境持続性レンズを通じて、それを包括的に評価することが重要です。 本稿では,QCサステナビリティベンチマークの確立の必要性と課題を強調する。 本稿では,QCプラットフォームの全ライフサイクル炭素フットプリントを計算するための基礎方法論とオープンな研究課題を提供する,炭素対応量子コンピューティング(CQC)フレームワークを提案する。 我々の研究コミュニティに対する行動の呼びかけは、持続可能性指向のアプリケーションのための量子コンピューティングと、量子コンピューティングの持続可能性の両方を促進する、持続可能な量子コンピューティングとして知られる新しい研究方向の確立である。

While researchers in both industry and academia are racing to build Quantum Computing (QC) platforms with viable performance and functionality, the environmental impacts of this endeavor, such as its carbon footprint, e-waste generation, mineral use, and water and energy consumption, remain largely unknown. A similar oversight occurred during the semiconductor revolution and continues to have disastrous consequences for the health of our planet. As we build the quantum computing stack from the ground up, it is crucial to comprehensively assess it through an environmental sustainability lens for its entire life-cycle: production, use, and disposal. In this paper, we highlight the need and challenges in establishing a QC sustainability benchmark that enables researchers to make informed architectural design decisions and celebrate the potential quantum environmental advantage. We propose a carbon-aware quantum computing (CQC) framework that provides the foundational methodology and open research questions for calculating the total life-cycle carbon footprint of a QC platform. Our call to action to the research community is the establishment of a new research direction known as, sustainable quantum computing that promotes both quantum computing for sustainability-oriented applications and the sustainability of quantum computing.
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# Swarm-Net: グラフニューラルネットワークと揮発性メモリを用いたIoT Swarmにおけるファームウェアの検証

Swarm-Net: Firmware Attestation in IoT Swarms using Graph Neural Networks and Volatile Memory ( http://arxiv.org/abs/2408.05680v1 )

ライセンス: Link先を確認
Varun Kohli, Bhavya Kohli, Muhammad Naveed Aman, Biplab Sikdar, (参考訳) IoT(Internet of Things)は、数十億もの相互接続された、主にローエンドの組み込みデバイスからなるネットワークである。 大規模なデプロイメントにもかかわらず、研究はIoTネットワークにおける重要なセキュリティ上の懸念を強調している。 さらにIoTSwarmは、業界やスマートホーム、農業アプリケーションなどで広く普及している。 Swarm内のあるノードの悪意あるアクティビティは、より大きなネットワークセクションに伝播することができる。 いくつかのRemote Attestation (RA)技術が提案されているが、そのレイテンシ、可用性、複雑さ、ハードウェアの仮定、知的財産権(IP)の下でのファームウェアコピーへの不確実なアクセスによって制限されている。 我々は、GNN(Graph Neural Networks)を使用して静的ランダムアクセスメモリ(SRAM)に格納されたランタイム情報とともに、IoTネットワークの固有で相互接続されたグラフのような構造を利用して、悪意のあるファームウェアとその下流効果を検出する新しいSwarm-Netを提案する。 また,異なる種類のファームウェアとエッジ関係を含むSRAMベースのSwarm証明に関する最初のデータセットも提示する。 また、セキュアなSwarm認証プロトコルが提示される。 Swarm-Netは計算量的に軽量であるだけでなく、ファームウェアのコピーも必要としない。 正当性のあるファームウェアで99.96%、異常なファームウェアで100%、プロパゲーションされた異常で99%、通信オーバーヘッドと推論遅延でそれぞれ1秒から10〜5秒(ラップトップCPUで)を達成した。 収集したデータセットに加えて、Swarm-Netの有効性は、シミュレーションされたトレースリプレイ、ランダムなトレース摂動、投下されたテスト応答に基づいて評価され、そのような脅威に対して堅牢性を示す。 最後に、Swarm-Netを過去の作業と比較し、セキュリティ分析を示す。

The Internet of Things (IoT) is a network of billions of interconnected, primarily low-end embedded devices. Despite large-scale deployment, studies have highlighted critical security concerns in IoT networks, many of which stem from firmware-related issues. Furthermore, IoT swarms have become more prevalent in industries, smart homes, and agricultural applications, among others. Malicious activity on one node in a swarm can propagate to larger network sections. Although several Remote Attestation (RA) techniques have been proposed, they are limited by their latency, availability, complexity, hardware assumptions, and uncertain access to firmware copies under Intellectual Property (IP) rights. We present Swarm-Net, a novel swarm attestation technique that exploits the inherent, interconnected, graph-like structure of IoT networks along with the runtime information stored in the Static Random Access Memory (SRAM) using Graph Neural Networks (GNN) to detect malicious firmware and its downstream effects. We also present the first datasets on SRAM-based swarm attestation encompassing different types of firmware and edge relationships. In addition, a secure swarm attestation protocol is presented. Swarm-Net is not only computationally lightweight but also does not require a copy of the firmware. It achieves a 99.96% attestation rate on authentic firmware, 100% detection rate on anomalous firmware, and 99% detection rate on propagated anomalies, at a communication overhead and inference latency of ~1 second and ~10^{-5} seconds (on a laptop CPU), respectively. In addition to the collected datasets, Swarm-Net's effectiveness is evaluated on simulated trace replay, random trace perturbation, and dropped attestation responses, showing robustness against such threats. Lastly, we compare Swarm-Net with past works and present a security analysis.
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# SRTFD:オンライン連続学習によるスケーラブルなリアルタイム故障診断

SRTFD: Scalable Real-Time Fault Diagnosis through Online Continual Learning ( http://arxiv.org/abs/2408.05681v1 )

ライセンス: Link先を確認
Dandan Zhao, Karthick Sharma, Hongpeng Yin, Yuxin Qi, Shuhao Zhang, (参考訳) 故障診断(FD)は、システムの異常を検出することにより、運用上の安全性を維持し、経済損失を最小限に抑えるために不可欠である。 近年,Deep Learning (DL) によるFD手法が注目され,広範囲なデータセットと高度なDLモデルを活用することにより,精度と適応性を大幅に向上した。 しかし、現代の産業環境は、新しい断層タイプ、動的条件、大規模データを扱うことができ、最小限の事前情報でリアルタイムに応答できるFD手法を必要としている。 オンライン連続学習(OCL)は、DLモデルをストリーミングデータから継続的に学習可能にすることによって、これらの要求に対処する可能性を示しているが、データ冗長性、不均衡、ラベル付きデータ制限といった課題に直面している。 これらの制限を克服するために、我々は、冗長なトレーニングと効率を改善するために最も関連性の高いデータを選択するRetrospect Coreset Selection (RCS)、バランスの取れたコアセットの選択と堅牢なモデル性能を保証するGlobal Balance Technique (GBT)、そして、継続的適応のためにラベルなしデータを使用してモデルを更新する Confidence and Uncertainty-driven Pseudo-label Learning (CUPL) という、3つの重要な手法でOCLを強化するスケーラブルなリアルタイム障害診断フレームワークSRTFDを提案する。 実世界のデータセットと2つの公開シミュレーションデータセットに関する大規模な実験は、SRTFDの有効性と、現代の産業システムにおける高度な、スケーラブルで正確な故障診断を提供する可能性を示している。

Fault diagnosis (FD) is essential for maintaining operational safety and minimizing economic losses by detecting system abnormalities. Recently, deep learning (DL)-driven FD methods have gained prominence, offering significant improvements in precision and adaptability through the utilization of extensive datasets and advanced DL models. Modern industrial environments, however, demand FD methods that can handle new fault types, dynamic conditions, large-scale data, and provide real-time responses with minimal prior information. Although online continual learning (OCL) demonstrates potential in addressing these requirements by enabling DL models to continuously learn from streaming data, it faces challenges such as data redundancy, imbalance, and limited labeled data. To overcome these limitations, we propose SRTFD, a scalable real-time fault diagnosis framework that enhances OCL with three critical methods: Retrospect Coreset Selection (RCS), which selects the most relevant data to reduce redundant training and improve efficiency; Global Balance Technique (GBT), which ensures balanced coreset selection and robust model performance; and Confidence and Uncertainty-driven Pseudo-label Learning (CUPL), which updates the model using unlabeled data for continuous adaptation. Extensive experiments on a real-world dataset and two public simulated datasets demonstrate SRTFD's effectiveness and potential for providing advanced, scalable, and precise fault diagnosis in modern industrial systems.
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# 並列グレディベストファースト検索の分離生成と評価

Separate Generation and Evaluation for Parallel Greedy Best-First Search ( http://arxiv.org/abs/2408.05682v1 )

ライセンス: Link先を確認
Takumi Shimoda, Alex Fukunaga, (参考訳) グレディ・ベスト・ファースト・サーチ(GBFS)の並列化は、直接並列化がシーケンシャルGBFSと大きく異なる検索動作をもたらす可能性があるため困難であり、シーケンシャルGBFSがタイブリング戦略で探索しない状態を探究している。 近年,BTS (Bench Transition System) の探索に制約を課す並列GBFSアルゴリズムのクラスが提案されている。 しかし、この制約を強制するにはコストがかかるため、BTSに制限されたアルゴリズムは、BTSに含まれることが保証される状態のみを拡張するために、多くの時間を待たなければならない。 本稿では,状態生成と状態評価を分離し,状態評価率を大幅に改善し,検索性能を向上する並列探索の改良を提案する。

Parallelization of Greedy Best First Search (GBFS) has been difficult because straightforward parallelization can result in search behavior which differs significantly from sequential GBFS, exploring states which would not be explored by sequential GBFS with any tie-breaking strategy. Recent work has proposed a class of parallel GBFS algorithms which constrains search to exploration of the Bench Transition System (BTS), which is the set of states that can be expanded by GBFS under some tie-breaking policy. However, enforcing this constraint is costly, as such BTS-constrained algorithms are forced to spend much of the time waiting so that only states which are guaranteed to be in the BTS are expanded. We propose an improvement to parallel search which decouples state generation and state evaluation and significantly improves state evaluation rate, resulting in better search performance.
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# Scene Dehazing Using Scene Depth Ordering

Single Image Dehazing Using Scene Depth Ordering ( http://arxiv.org/abs/2408.05683v1 )

ライセンス: Link先を確認
Pengyang Ling, Huaian Chen, Xiao Tan, Yimeng Shan, Yi Jin, (参考訳) 曇りの天候で撮影された画像は、一般的に品質劣化に悩まされ、この問題を解決するために多くの脱暖方法が開発されている。 しかし、画像のデハージングの問題は、その不適切な性質のため、いまだに難しい。 そこで,本研究では,ハズ画像の深度秩序を利用して脱ハズ処理をガイドし,これに対応するデハズ結果に類似した深度知覚を実現する,深度秩序誘導単写像デハズング法を提案する。 奥行き知覚の整合性は、ヘイズ画像において、より遠くまたは近くに見える領域も、対応する脱ヘイズ結果において、より遠くまたは近くに見えることを保証し、望ましくない視覚効果を効果的に回避する。 この目的を達成するために, 湿潤な天候における深度知覚の基準となる, 湿潤な画像の深度秩序を抽出するための, 単純かつ効果的な戦略を提案する。 さらに、デハジング結果に変化のない深度秩序を実現するために、深度秩序の誘導の下で送信推定を行う深度秩序の組込み変換モデルを考案した。 抽出した深度秩序は、デハージングプロセスに強力なグローバル制約を与え、グローバル情報の効率的な利用に寄与し、修復品質の全体的な改善をもたらす。 広汎な実験により, 提案手法は, 最先端の脱ハージング法よりも高い計算効率で, 潜在的な構造と鮮明な色を復元できることを示した。

Images captured in hazy weather generally suffer from quality degradation, and many dehazing methods have been developed to solve this problem. However, single image dehazing problem is still challenging due to its ill-posed nature. In this paper, we propose a depth order guided single image dehazing method, which utilizes depth order in hazy images to guide the dehazing process to achieve a similar depth perception in corresponding dehazing results. The consistency of depth perception ensures that the regions that look farther or closer in hazy images also appear farther or closer in the corresponding dehazing results, and thus effectively avoid the undesired visual effects. To achieve this goal, a simple yet effective strategy is proposed to extract the depth order in hazy images, which offers a reference for depth perception in hazy weather. Additionally, a depth order embedded transformation model is devised, which performs transmission estimation under the guidance of depth order to realize an unchanged depth order in the dehazing results. The extracted depth order provides a powerful global constraint for the dehazing process, which contributes to the efficient utilization of global information, thereby bringing an overall improvement in restoration quality. Extensive experiments demonstrate that the proposed method can better recover potential structure and vivid color with higher computational efficiency than the state-of-the-art dehazing methods.
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# バンドウィスペラ:レストレスバンドのためのコミュニケーション学習

The Bandit Whisperer: Communication Learning for Restless Bandits ( http://arxiv.org/abs/2408.05686v1 )

ライセンス: Link先を確認
Yunfan Zhao, Tonghan Wang, Dheeraj Nagaraj, Aparna Taneja, Milind Tambe, (参考訳) Reinforcement Learning(RL)をRestless Multi-Arm Bandits(RMAB)に適用することで、リソース制約や時間的ダイナミクスによるアロケーション問題に対処する、有望な方法が提供される。 しかし、古典的なRMABモデルは、(システム的な)データエラーの課題を概ね見落としている。 RMABのトレーニングに使用される従来のRLアルゴリズムは、そのような設定でうまく機能することが困難であることを示す。 この問題を解決するために,RMABにおける最初のコミュニケーション学習手法を提案する。この手法では,コミュニケーションに関わるアームが,そのような体系的なデータエラーの影響を軽減するのに最も有効であるかを検討する。 我々の設定では、腕は同様の腕からQ関数パラメータを受信し、行動ポリシーを導出し、Q関数の更新を操縦する。 両腕をまたいだメッセージの合体性を考慮し,その合体ユーティリティを分解するQネットワークアーキテクチャを用いて通信戦略を学習する。 理論的および実証的な証拠は,様々な問題においてRMAB性能を著しく向上させる上で,本手法の有効性を実証するものである。

Applying Reinforcement Learning (RL) to Restless Multi-Arm Bandits (RMABs) offers a promising avenue for addressing allocation problems with resource constraints and temporal dynamics. However, classic RMAB models largely overlook the challenges of (systematic) data errors - a common occurrence in real-world scenarios due to factors like varying data collection protocols and intentional noise for differential privacy. We demonstrate that conventional RL algorithms used to train RMABs can struggle to perform well in such settings. To solve this problem, we propose the first communication learning approach in RMABs, where we study which arms, when involved in communication, are most effective in mitigating the influence of such systematic data errors. In our setup, the arms receive Q-function parameters from similar arms as messages to guide behavioral policies, steering Q-function updates. We learn communication strategies by considering the joint utility of messages across all pairs of arms and using a Q-network architecture that decomposes the joint utility. Both theoretical and empirical evidence validate the effectiveness of our method in significantly improving RMAB performance across diverse problems.
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# 金融時系列の厳格化

Strong denoising of financial time-series ( http://arxiv.org/abs/2408.05690v1 )

ライセンス: Link先を確認
Matthias J. Feiler, (参考訳) 本稿では,財務データにおける信号対雑音比を大幅に改善する手法を提案する。 このアプローチは、ターゲット変数と異なるコンテキスト変数を組み合わせることに依存し、自動エンコーダ(AE)を使用して、組み合わせた入力の再構成を学習する。 目的は、関連するが異なる入力に基づいて訓練され、共通の根拠を見つけることを余儀なくされるペアのAE間の合意を得ることである。 トレーニングプロセスは、モデルが予測(話者)を生成して、合意に達するまで、他のAEの出力(リスニング)と自身の予測を一致させる「会話」として設定される。 これにより、AEによって生成されたデータ表現の複雑さを制約する新しい方法がもたらされる。 設計者によって強みが決定される標準正規化とは異なり、提案された相互正規化は、パートナーネットワークを使用して、学習したデータの表現の一般性の欠如を検出し、修正する。 代替的な視点の統合により、単一AEの脱ノイズ能力が向上し、収益性のある貿易戦略に転換可能な金融時系列における新たな規則を発見できるようになります。

In this paper we introduce a method for significantly improving the signal to noise ratio in financial data. The approach relies on combining a target variable with different context variables and use auto-encoders (AEs) to learn reconstructions of the combined inputs. The objective is to obtain agreement among pairs of AEs which are trained on related but different inputs and for which they are forced to find common ground. The training process is set up as a "conversation" where the models take turns at producing a prediction (speaking) and reconciling own predictions with the output of the other AE (listening), until an agreement is reached. This leads to a new way of constraining the complexity of the data representation generated by the AE. Unlike standard regularization whose strength needs to be decided by the designer, the proposed mutual regularization uses the partner network to detect and amend the lack of generality of the learned representation of the data. The integration of alternative perspectives enhances the de-noising capacity of a single AE and allows us to discover new regularities in financial time-series which can be converted into profitable trading strategies.
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# 医用画像分類とセグメンテーションのためのモメンタムに基づく新しい深層学習手法

A Novel Momentum-Based Deep Learning Techniques for Medical Image Classification and Segmentation ( http://arxiv.org/abs/2408.05692v1 )

ライセンス: Link先を確認
Koushik Biswas, Ridal Pal, Shaswat Patel, Debesh Jha, Meghana Karri, Amit Reza, Gorkem Durak, Alpay Medetalibeyoglu, Matthew Antalek, Yury Velichko, Daniela Ladner, Amir Borhani, Ulas Bagci, (参考訳) 医療画像から臓器を正確に分割することは、コンピュータによる診断と介入計画にとって重要な前提条件である。 本研究は,CTおよびMRIスキャンから様々な臓器を抽出し,疾患を分類するための深層学習に基づくアプローチを提案する。 本研究は, 医用画像解析におけるトレーニングダイナミクスの強化を目的とした, 残留ブロックに運動量を統合する新しい手法を提案する。 肝・肺・大腸データの分画と腹部CT・MRIの分類の2つの異なる課題に本法を適用した。 提案手法は有望な結果を示し、公開されているベンチマークデータセット上で最先端の手法より優れている。 例えば,肺分画データセットでは,5.72%のダイススコア,5.04%のmIoU,8.02%のリコール改善,4.42%の精度向上など,TransNetRモデルの大幅な改善が得られた。 したがって、運動量の導入は、セグメント化と分類作業の両方において最先端のパフォーマンスをもたらし、医用画像の分野での大きな進歩をもたらした。

Accurately segmenting different organs from medical images is a critical prerequisite for computer-assisted diagnosis and intervention planning. This study proposes a deep learning-based approach for segmenting various organs from CT and MRI scans and classifying diseases. Our study introduces a novel technique integrating momentum within residual blocks for enhanced training dynamics in medical image analysis. We applied our method in two distinct tasks: segmenting liver, lung, & colon data and classifying abdominal pelvic CT and MRI scans. The proposed approach has shown promising results, outperforming state-of-the-art methods on publicly available benchmarking datasets. For instance, in the lung segmentation dataset, our approach yielded significant enhancements over the TransNetR model, including a 5.72% increase in dice score, a 5.04% improvement in mean Intersection over Union (mIoU), an 8.02% improvement in recall, and a 4.42% improvement in precision. Hence, incorporating momentum led to state-of-the-art performance in both segmentation and classification tasks, representing a significant advancement in the field of medical imaging.
翻訳日:2024-08-13 16:07:35 公開日:2024-08-11
# ICSFuzz:自動運転シミュレータの衝突検出バグ発見

ICSFuzz: Collision Detector Bug Discovery in Autonomous Driving Simulators ( http://arxiv.org/abs/2408.05694v1 )

ライセンス: Link先を確認
Weiwei Fu, Heqing Huang, Yifan Zhang, Ke Zhang, Jin Huang, Wei-Bin Lee, Jianping Wang, (参考訳) 自動運転車の普及が進み、自動運転車に搭載される自律運転システム(ADS)の信頼性を確保することが大きな関心事となっている。 自動運転シミュレーターは、現実的でダイナミックで設定可能な環境を提供する自動運転システムをテストするための重要なプラットフォームとして登場した。 しかしながら、既存のシミュレーションベースのADSテスタは、シミュレータの信頼性を概ね見落としているため、現実のデプロイメント中に見落とされた違反シナリオやその後の安全上のリスクにつながる可能性がある。 本研究では, シミュレータにおける衝突検出装置が, 無視衝突シナリオと呼ばれる特定の衝突シナリオにおける衝突の検出および報告に失敗する可能性があることを確認した。 本稿では,自律走行シミュレータの信頼性向上を目的として,無視衝突シナリオを系統的に発見することを目的とする。 そこで我々は,無視される衝突シナリオを効率的に発見するためのブラックボックスファジィ手法であるICSFuzzを提案する。 無視される衝突シナリオは、衝突シナリオのサブタイプであるという事実に基づいて、我々のアプローチは、決定された衝突シナリオから始まる。 衝突に寄与する要因を実証的に研究し, 無視された衝突シナリオに対して段階的に任意の衝突シナリオを選択的に変更し, 効果的に発見する。 我々はICSFuzzを、最先端のシミュレーションベースのADSテスト手法であるDriveFuzzと比較し、その託宣を我々の無視照合対応託宣に置き換えた。 ICSFuzzは、20-70倍のスピードアップで10-20倍の衝突シナリオを無視することで、DriveFuzzよりも優れていることを示す。 発見された無視された衝突はすべて、CVE IDが1つ割り当てられた開発者によって確認されている。

With the increasing adoption of autonomous vehicles, ensuring the reliability of autonomous driving systems (ADSs) deployed on autonomous vehicles has become a significant concern. Driving simulators have emerged as crucial platforms for testing autonomous driving systems, offering realistic, dynamic, and configurable environments. However, existing simulation-based ADS testers have largely overlooked the reliability of the simulators, potentially leading to overlooked violation scenarios and subsequent safety security risks during real-world deployment. In our investigations, we identified that collision detectors in simulators could fail to detect and report collisions in certain collision scenarios, referred to as ignored collision scenarios. This paper aims to systematically discover ignored collision scenarios to improve the reliability of autonomous driving simulators. To this end, we present ICSFuzz, a black-box fuzzing approach to discover ignored collision scenarios efficiently. Drawing upon the fact that the ignored collision scenarios are a sub-type of collision scenarios, our approach starts with the determined collision scenarios. Following the guidance provided by empirically studied factors contributing to collisions, we selectively mutate arbitrary collision scenarios in a step-wise manner toward the ignored collision scenarios and effectively discover them. We compare ICSFuzz with DriveFuzz, a state-of-the-art simulation-based ADS testing method, by replacing its oracle with our ignored-collision-aware oracle. The evaluation demonstrates that ICSFuzz outperforms DriveFuzz by finding 10-20x more ignored collision scenarios with a 20-70x speedup. All the discovered ignored collisions have been confirmed by developers with one CVE ID assigned.
翻訳日:2024-08-13 15:57:52 公開日:2024-08-11
# SMILES-Mamba:薬物ADMET予測のための化学マンバ基礎モデル

SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction ( http://arxiv.org/abs/2408.05696v1 )

ライセンス: Link先を確認
Bohao Xu, Yingzhou Lu, Chenhao Li, Ling Yue, Xiao Wang, Nan Hao, Tianfan Fu, Jim Chen, (参考訳) 薬物発見において、小分子薬物の吸収、分布、代謝、排ガス、毒性(ADMET)特性を予測することは安全性と有効性を確保するために重要である。 しかし、これらの特性を正確に予測するプロセスは、しばしば資源集約であり、広範な実験データを必要とする。 この課題に対処するために,SMILES-Mambaを提案する。SMILES-Mambaは,ラベル付きデータとラベル付きデータの両方を,自己教師付き事前学習と微調整の組み合わせで活用する2段階モデルである。 モデルはまず、未ラベルのSMILES文字列の大きなコーパスで事前訓練を行い、基礎となる化学構造と関係を捉え、ADMETタスクに特化したラベル付きデータセットで微調整する。 SMILES-Mambaは,22のADMETデータセットの競合性能を示し,14のタスクで最高スコアを達成し,分子特性予測の改善における自己教師型学習の可能性を強調した。 このアプローチは予測精度を向上するだけでなく、大規模ラベル付きデータセットへの依存を減らし、将来的な薬物発見研究の方向性を示す。

In drug discovery, predicting the absorption, distribution, metabolism, excretion, and toxicity (ADMET) properties of small-molecule drugs is critical for ensuring safety and efficacy. However, the process of accurately predicting these properties is often resource-intensive and requires extensive experimental data. To address this challenge, we propose SMILES-Mamba, a two-stage model that leverages both unlabeled and labeled data through a combination of self-supervised pretraining and fine-tuning strategies. The model first pre-trains on a large corpus of unlabeled SMILES strings to capture the underlying chemical structure and relationships, before being fine-tuned on smaller, labeled datasets specific to ADMET tasks. Our results demonstrate that SMILES-Mamba exhibits competitive performance across 22 ADMET datasets, achieving the highest score in 14 tasks, highlighting the potential of self-supervised learning in improving molecular property prediction. This approach not only enhances prediction accuracy but also reduces the dependence on large, labeled datasets, offering a promising direction for future research in drug discovery.
翻訳日:2024-08-13 15:57:51 公開日:2024-08-11
# BM3DとNBNetの評価:複数データセット間の画像デノイングに関する総合的研究

Evaluating BM3D and NBNet: A Comprehensive Study of Image Denoising Across Multiple Datasets ( http://arxiv.org/abs/2408.05697v1 )

ライセンス: Link先を確認
Ghazal Kaviani, Reza Marzban, Ghassan AlRegib, (参考訳) 本稿では,ブロックマッチング3D(BM3D)に代表される従来の非学習手法と,NBNetに代表される現代の学習手法との比較を行った。 これらのアプローチは、CURE-OR、CURE-TSR、SSID+、Set-12、Chest-Xrayなど、さまざまなデータセットにまたがって評価され、それぞれ独自のノイズ課題が提示される。 本分析では,画像品質評価(IQA)の指標を7つ採用し,物体検出性能への影響について検討した。 BM3Dは曖昧な課題のようなシナリオに優れるが、NBNetは低露光や過剰露光のような複雑なノイズ環境においてより効果的である。 本研究は, 各手法の強みと限界を明らかにし, 様々な実世界の応用において, 異なる復調戦略の有効性について考察する。

This paper investigates image denoising, comparing traditional non-learning-based techniques, represented by Block-Matching 3D (BM3D), with modern learning-based methods, exemplified by NBNet. We assess these approaches across diverse datasets, including CURE-OR, CURE-TSR, SSID+, Set-12, and Chest-Xray, each presenting unique noise challenges. Our analysis employs seven Image Quality Assessment (IQA) metrics and examines the impact on object detection performance. We find that while BM3D excels in scenarios like blur challenges, NBNet is more effective in complex noise environments such as under-exposure and over-exposure. The study reveals the strengths and limitations of each method, providing insights into the effectiveness of different denoising strategies in varied real-world applications.
翻訳日:2024-08-13 15:57:51 公開日:2024-08-11
# MacFormer: 細かいオブジェクト境界を持つセマンティックセグメンテーション

MacFormer: Semantic Segmentation with Fine Object Boundaries ( http://arxiv.org/abs/2408.05699v1 )

ライセンス: Link先を確認
Guoan Xu, Wenfeng Huang, Tao Wu, Ligeng Chen, Wenjing Jia, Guangwei Gao, Xiatian Zhu, Stuart Perry, (参考訳) セマンティックセグメンテーションでは、画像の各ピクセルに特定のカテゴリを割り当てる。 ビジョントランスフォーマーベースのモデルは大きな進歩を遂げているが、現在のセマンティックセグメンテーション手法は、オブジェクト境界のような局所的な領域で正確な予測に苦慮することが多い。 この課題に対処するため、我々は新しいセマンティックセグメンテーションアーキテクチャである ``MacFormer' を導入しました。 まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。 これにより、デコード中の基本エッジなどの低レベルの特徴の保存性が向上する。 第二に、デコーダの周波数拡張モジュール(FEM)は、高周波および低周波のコンポーネントを活用して周波数領域の機能を強化し、最小の計算量の増加を伴うオブジェクト境界の恩恵を受ける。 MacFormerは、様々なネットワークアーキテクチャと互換性があることが示されており、異なる計算制約の下で、ADE20KとCityscapesのベンチマークデータセットの精度と効率の両方で既存の手法より優れている。

Semantic segmentation involves assigning a specific category to each pixel in an image. While Vision Transformer-based models have made significant progress, current semantic segmentation methods often struggle with precise predictions in localized areas like object boundaries. To tackle this challenge, we introduce a new semantic segmentation architecture, ``MacFormer'', which features two key components. Firstly, using learnable agent tokens, a Mutual Agent Cross-Attention (MACA) mechanism effectively facilitates the bidirectional integration of features across encoder and decoder layers. This enables better preservation of low-level features, such as elementary edges, during decoding. Secondly, a Frequency Enhancement Module (FEM) in the decoder leverages high-frequency and low-frequency components to boost features in the frequency domain, benefiting object boundaries with minimal computational complexity increase. MacFormer is demonstrated to be compatible with various network architectures and outperforms existing methods in both accuracy and efficiency on benchmark datasets ADE20K and Cityscapes under different computational constraints.
翻訳日:2024-08-13 15:57:51 公開日:2024-08-11
# 機械学習を用いたカオスシステムの挙動予測

Predicting Chaotic System Behavior using Machine Learning Techniques ( http://arxiv.org/abs/2408.05702v1 )

ライセンス: Link先を確認
Huaiyuan Rao, Yichen Zhao, Qiang Lai, (参考訳) 近年、機械学習技術、特にディープラーニングは、単変数および多変数の予測を含む様々なアプリケーションにわたる伝統的な時系列予測手法よりも優れた性能を示している。 本研究は,その能力について検討することを目的とする。 一 次世代貯水池計算(NG-RC) 二 貯水池計算(RC) 三 カオスシステムの挙動を予測するための長期記憶(LSTM)であって、その性能を精度、効率、堅牢性の観点から比較すること。 これらの方法は、ローレンツ、R\ossler、Chen、Qiシステムを含む4つの代表的なカオス系から得られる時系列を予測するために応用される。 その結果,NG-RCは計算効率が良く,カオスシステムの挙動を予測する可能性が高くなることがわかった。

Recently, machine learning techniques, particularly deep learning, have demonstrated superior performance over traditional time series forecasting methods across various applications, including both single-variable and multi-variable predictions. This study aims to investigate the capability of i) Next Generation Reservoir Computing (NG-RC) ii) Reservoir Computing (RC) iii) Long short-term Memory (LSTM) for predicting chaotic system behavior, and to compare their performance in terms of accuracy, efficiency, and robustness. These methods are applied to predict time series obtained from four representative chaotic systems including Lorenz, R\"ossler, Chen, Qi systems. In conclusion, we found that NG-RC is more computationally efficient and offers greater potential for predicting chaotic system behavior.
翻訳日:2024-08-13 15:57:51 公開日:2024-08-11
# 良いこと、悪いこと、うらやましいこと:その開始時に、高度に変更が伴うソースコードメソッドを予測する

The Good, the Bad, and the Ugly: Predicting Highly Change-Prone Source Code Methods at Their Inception ( http://arxiv.org/abs/2408.05704v1 )

ライセンス: Link先を確認
Shaiful Chowdhury, (参考訳) ソフトウェアメンテナンスのコストは、しばしば初期の開発コストを上回り、ソフトウェア産業にとって重要な関心事となる。 将来のメンテナンスの負担を軽減するための重要な戦略は、変更の起こりやすいコードコンポーネントの早期予測と識別であり、タイムリーな最適化を可能にする。 従来の研究は、変化の激しいファイルやクラスを予測することに集中しており、実践者があまり好まないアプローチであるが、本論文は、実践者と研究者の両方の好みに合わせて、高度に変化の激しい方法を予測することに重点を移している。 49の著名なオープンソースJavaプロジェクトから,74,051のソースコードメソッドを分析した。 その結果,約80%の変化が20%の手法に集中していることが判明し,Pareto 80/20の原則が証明された。 さらに、これらのメソッドのサブセットは、これらのプロジェクトで特定されたバグの大部分の原因となっている。 ソフトウェアメンテナンスコストの軽減において重要な役割を担った後、機械学習モデルは、これらの高度に変化しやすい手法を、その開始から効果的に識別できることを示した。 さらに,より予測が難しい手法の共通パターン(概念)を明らかにするために,手作業による詳細な分析を行った。 これらの洞察は、将来の研究で新しい機能を開発し、予測精度を高めるのに役立つ。

The cost of software maintenance often surpasses the initial development expenses, making it a significant concern for the software industry. A key strategy for alleviating future maintenance burdens is the early prediction and identification of change-prone code components, which allows for timely optimizations. While prior research has largely concentrated on predicting change-prone files and classes, an approach less favored by practitioners, this paper shifts focus to predicting highly change-prone methods, aligning with the preferences of both practitioners and researchers. We analyzed 774,051 source code methods from 49 prominent open-source Java projects. Our findings reveal that approximately 80% of changes are concentrated in just 20% of the methods, demonstrating the Pareto 80/20 principle. Moreover, this subset of methods is responsible for the majority of the identified bugs in these projects. After establishing their critical role in mitigating software maintenance costs, our study shows that machine learning models can effectively identify these highly change-prone methods from their inception. Additionally, we conducted a thorough manual analysis to uncover common patterns (or concepts) among the more difficult-to-predict methods. These insights can help future research develop new features and enhance prediction accuracy.
翻訳日:2024-08-13 15:57:51 公開日:2024-08-11
# TC-KANRecon: アダプティブ・カン機構とインテリジェント・フィーチャースケーリングによる高品質・高速化MRI再構成

TC-KANRecon: High-Quality and Accelerated MRI Reconstruction via Adaptive KAN Mechanisms and Intelligent Feature Scaling ( http://arxiv.org/abs/2408.05705v1 )

ライセンス: Link先を確認
Ruiquan Ge, Xiao Yu, Yifei Chen, Fan Jia, Shenghao Zhu, Guanyu Zhou, Yiyu Huang, Chenyan Zhang, Dong Zeng, Changmiao Wang, Qiegen Liu, Shanzhou Niu, (参考訳) 高分解能・マルチコントラスト機構によりMRIは臨床診断に欠かせないものとなっている。 しかし、比較的長い買収期間は適用範囲を限定している。 そこで本研究では,マルチフリーU-KAN (MF-UKAN) モジュールと動的クリッピング戦略を組み込んだ,TC-KANReconという名称の革新的な条件付き拡散モデルを提案する。 TC-KANReconモデルは,再構成画像の品質を維持しつつ,深層学習によるMRI再構成プロセスの高速化を目的としている。 MF-UKANモジュールは、画像復調と構造保存のトレードオフを効果的にバランスさせることができる。 具体的には、複雑な騒音環境におけるモデルの堅牢性と構造保存能力を著しく向上させるマルチヘッドアテンション機構とスカラー変調因子を示す。 さらに、TC-KANReconの動的クリッピング戦略は、サンプリングステップに応じてトリミング間隔を調整し、従来のトリミング法によって引き起こされる画像詳細損失を軽減し、画像の視覚的特徴を増強する。 さらに、MC-Modelモジュールは、フルサンプリングk-スペース情報を導入し、条件情報の効率的な融合を実現し、複雑なデータを処理するモデルの能力を高め、再構成された画像のリアリズムと詳細豊かさを改善している。 実験により,提案手法は定性評価と定量的評価の両方において,他のMRI再建法よりも優れていることが示された。 特に,T-KANRecon法は,高ノイズ,低サンプリングレートのMRIデータを処理する際に,優れた再構成結果を示す。 ソースコードはhttps://github.com/lcbkmm/TC-KANRecon.comで公開されています。

Magnetic Resonance Imaging (MRI) has become essential in clinical diagnosis due to its high resolution and multiple contrast mechanisms. However, the relatively long acquisition time limits its broader application. To address this issue, this study presents an innovative conditional guided diffusion model, named as TC-KANRecon, which incorporates the Multi-Free U-KAN (MF-UKAN) module and a dynamic clipping strategy. TC-KANRecon model aims to accelerate the MRI reconstruction process through deep learning methods while maintaining the quality of the reconstructed images. The MF-UKAN module can effectively balance the tradeoff between image denoising and structure preservation. Specifically, it presents the multi-head attention mechanisms and scalar modulation factors, which significantly enhances the model's robustness and structure preservation capabilities in complex noise environments. Moreover, the dynamic clipping strategy in TC-KANRecon adjusts the cropping interval according to the sampling steps, thereby mitigating image detail loss typically caused by traditional cropping methods and enriching the visual features of the images. Furthermore, the MC-Model module incorporates full-sampling k-space information, realizing efficient fusion of conditional information, enhancing the model's ability to process complex data, and improving the realism and detail richness of reconstructed images. Experimental results demonstrate that the proposed method outperforms other MRI reconstruction methods in both qualitative and quantitative evaluations. Notably, TC-KANRecon method exhibits excellent reconstruction results when processing high-noise, low-sampling-rate MRI data. Our source code is available at https://github.com/lcbkmm/TC-KANRecon.
翻訳日:2024-08-13 15:57:51 公開日:2024-08-11
# シーンテキスト認識のためのテキストのみを用いたデコーダ事前学習

Decoder Pre-Training with only Text for Scene Text Recognition ( http://arxiv.org/abs/2408.05706v1 )

ライセンス: Link先を確認
Shuai Zhao, Yongkun Du, Zhineng Chen, Yu-Gang Jiang, (参考訳) シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。 しかし、合成画像と実画像の領域ギャップは、実際のシーンの画像とよく一致した特徴表現を取得することの難しさを招き、これらの手法の性能を制限している。 CLIPのような視覚言語モデルは、広範に実画像とテキストのペアで事前訓練され、画像とテキストを統合された埋め込み空間に効果的に整列させ、実際の画像の表現をテキストのみから導出する可能性を示唆している。 この前提に基づいて, STR (DPTR) 用テキストのみを用いたDecoder Pre-training という新しい手法を提案する。 DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。 オフラインランダム化摂動(ORP)戦略が導入された。 CLIP画像エンコーダから抽出した自然な画像埋め込みを組み込むことで、テキスト埋め込みの多様性を強化し、デコーダを効果的に誘導し、実画像の潜在的な表現を取得する。 さらに,テキスト画像中の文字前景に焦点を絞った視覚的埋め込みをガイドする特徴マージユニット(FMU)を導入し,事前学習したデコーダの動作をより効率的に正確に行えるようにした。 様々なSTRデコーダおよび言語認識タスクにわたる広範囲な実験は、DPTRの適用性と顕著な性能を示し、STR事前学習の新たな洞察を与える。 コードはhttps://github.com/Topdu/OpenOCRで入手できる。

Scene text recognition (STR) pre-training methods have achieved remarkable progress, primarily relying on synthetic datasets. However, the domain gap between synthetic and real images poses a challenge in acquiring feature representations that align well with images on real scenes, thereby limiting the performance of these methods. We note that vision-language models like CLIP, pre-trained on extensive real image-text pairs, effectively align images and text in a unified embedding space, suggesting the potential to derive the representations of real images from text alone. Building upon this premise, we introduce a novel method named Decoder Pre-training with only text for STR (DPTR). DPTR treats text embeddings produced by the CLIP text encoder as pseudo visual embeddings and uses them to pre-train the decoder. An Offline Randomized Perturbation (ORP) strategy is introduced. It enriches the diversity of text embeddings by incorporating natural image embeddings extracted from the CLIP image encoder, effectively directing the decoder to acquire the potential representations of real images. In addition, we introduce a Feature Merge Unit (FMU) that guides the extracted visual embeddings focusing on the character foreground within the text image, thereby enabling the pre-trained decoder to work more efficiently and accurately. Extensive experiments across various STR decoders and language recognition tasks underscore the broad applicability and remarkable performance of DPTR, providing a novel insight for STR pre-training. Code is available at https://github.com/Topdu/OpenOCR
翻訳日:2024-08-13 15:57:51 公開日:2024-08-11
# マルチビューサブスペースクラスタリングのための高速かつスケーラブルな半教師付き学習

Fast and Scalable Semi-Supervised Learning for Multi-View Subspace Clustering ( http://arxiv.org/abs/2408.05707v1 )

ライセンス: Link先を確認
Huaming Ling, Chenglong Bao, Jiebo Song, Zuoqiang Shi, (参考訳) 本稿では,FSSMSC(Fast and Scalable Semi-supervised Multi-view Subspace Clustering)手法を提案する。 FSSMSCは、データのサイズに対して線形計算と空間の複雑さを特徴とする。 この手法は、各データポイントを選択されたランドマークの疎線型結合として表現し、すべてのビューにまたがるコンセンサスアンカーグラフを生成する。 本稿では,アンカーグラフの構成とラベルの伝搬過程を別々に管理する従来の手法と異なり,両者の同時学習を容易にする統一最適化モデルを提案する。 統一最適化モデルを解決するために,収束保証付き効率的な交互更新アルゴリズムを提案する。 さらに,得られたアンカーグラフとランドマークの低次元表現を用いて,生データの低次元表現を導出する。 これに続いて、これらの低次元表現に対して、最終的なクラスタリング結果を達成するための簡単なクラスタリング手法が実行される。 FSSMSCの有効性と効率は、様々なスケールの複数のベンチマークデータセットに対する広範な実験を通して検証される。

In this paper, we introduce a Fast and Scalable Semi-supervised Multi-view Subspace Clustering (FSSMSC) method, a novel solution to the high computational complexity commonly found in existing approaches. FSSMSC features linear computational and space complexity relative to the size of the data. The method generates a consensus anchor graph across all views, representing each data point as a sparse linear combination of chosen landmarks. Unlike traditional methods that manage the anchor graph construction and the label propagation process separately, this paper proposes a unified optimization model that facilitates simultaneous learning of both. An effective alternating update algorithm with convergence guarantees is proposed to solve the unified optimization model. Additionally, the method employs the obtained anchor graph and landmarks' low-dimensional representations to deduce low-dimensional representations for raw data. Following this, a straightforward clustering approach is conducted on these low-dimensional representations to achieve the final clustering results. The effectiveness and efficiency of FSSMSC are validated through extensive experiments on multiple benchmark datasets of varying scales.
翻訳日:2024-08-13 15:57:51 公開日:2024-08-11
# ステップワイドダイナミックアテンションメディエータを用いた効率的な拡散変圧器

Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators ( http://arxiv.org/abs/2408.05710v1 )

ライセンス: Link先を確認
Yifan Pu, Zhuofan Xia, Jiayi Guo, Dongchen Han, Qixiu Li, Duo Li, Yuhui Yuan, Ji Li, Yizeng Han, Shiji Song, Gao Huang, Xiu Li, (参考訳) 本稿では,拡散変圧器モデルの自己アテンション機構における問合せキー相互作用の有意な冗長性を,特に拡散過程の初期段階において明らかにする。 そこで本研究では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマフレームワークを提案する。 生成フェーズにおける仲介者トークンの数を変調することにより,デノナイズ処理を正確に非曖昧な段階で開始し,より詳細に富んだフェーズへと徐々に移行する。 同時に、メディエータトークンの統合により、アテンションモジュールの複雑さを線形スケールに単純化し、グローバルアテンションプロセスの効率を向上する。 さらに,時間ステップの動的メディエータトークン調整機構を提案し,様々な推論予算の制約の中で高品質な画像の生成を容易にし,生成に必要なFLOPの削減を図る。 広汎な実験により、提案手法は、拡散トランスの推論コストを低減しつつ、生成画像の品質を向上させることができることを示した。 近年のSiTと統合すると,FIDスコアが2.01となる。 ソースコードはhttps://github.com/LeapLabTHU/Attention-Mediatorsで入手できる。

This paper identifies significant redundancy in the query-key interactions within self-attention mechanisms of diffusion transformer models, particularly during the early stages of denoising diffusion steps. In response to this observation, we present a novel diffusion transformer framework incorporating an additional set of mediator tokens to engage with queries and keys separately. By modulating the number of mediator tokens during the denoising generation phases, our model initiates the denoising process with a precise, non-ambiguous stage and gradually transitions to a phase enriched with detail. Concurrently, integrating mediator tokens simplifies the attention module's complexity to a linear scale, enhancing the efficiency of global attention processes. Additionally, we propose a time-step dynamic mediator token adjustment mechanism that further decreases the required computational FLOPs for generation, simultaneously facilitating the generation of high-quality images within the constraints of varied inference budgets. Extensive experiments demonstrate that the proposed method can improve the generated image quality while also reducing the inference cost of diffusion transformers. When integrated with the recent work SiT, our method achieves a state-of-the-art FID score of 2.01. The source code is available at https://github.com/LeapLabTHU/Attention-Mediators.
翻訳日:2024-08-13 15:57:51 公開日:2024-08-11
# マスク付き自己エンコーダを用いた2次元画像と3次元点群クロスモーダル検索のための自己教師型ハッシュ

Contrastive masked auto-encoders based self-supervised hashing for 2D image and 3D point cloud cross-modal retrieval ( http://arxiv.org/abs/2408.05711v1 )

ライセンス: Link先を確認
Rukai Wei, Heng Cui, Yu Liu, Yufeng Hou, Yanzhao Xie, Ke Zhou, (参考訳) 2D画像と3Dポイントクラウドデータ間のクロスモーダルハッシュの実装は、現実世界の検索システムにおいて懸念が高まっている。 既存のクロスモーダルなアプローチをこの新しいタスクに適用するだけで、潜在マルチモーダルなセマンティクスを適切に捉えることができず、2Dと3Dの間のモダリティギャップを効果的に橋渡しする。 手作りのラベルを頼らずにこれらの問題に対処するため,画像とポイントクラウドデータ間の検索にマスク付きオートエンコーダを用いた自己教師型ハッシュ(CMAH)を提案する。 まず、2D-3D対を対比し、それらを共同ハミング空間に明示的に制約することから始めます。 この対照的な学習プロセスは、生成されたハッシュコードの堅牢な識別性を保証し、モダリティギャップを効果的に低減する。 さらに,マルチモーダルなセマンティクスの理解を深めるために,マルチモーダルなオートエンコーダを利用する。 マスクされたイメージ/ポイントクラウドデータモデリングタスクを完了させることで、より局所的な手がかりを捉えることが推奨される。 さらに、提案したマルチモーダル融合ブロックは、異なるモーダル間のきめ細かい相互作用を促進する。 3つの公開データセットに対する大規模な実験は、提案されたCMAHがすべてのベースライン法を大幅に上回っていることを示している。

Implementing cross-modal hashing between 2D images and 3D point-cloud data is a growing concern in real-world retrieval systems. Simply applying existing cross-modal approaches to this new task fails to adequately capture latent multi-modal semantics and effectively bridge the modality gap between 2D and 3D. To address these issues without relying on hand-crafted labels, we propose contrastive masked autoencoders based self-supervised hashing (CMAH) for retrieval between images and point-cloud data. We start by contrasting 2D-3D pairs and explicitly constraining them into a joint Hamming space. This contrastive learning process ensures robust discriminability for the generated hash codes and effectively reduces the modality gap. Moreover, we utilize multi-modal auto-encoders to enhance the model's understanding of multi-modal semantics. By completing the masked image/point-cloud data modeling task, the model is encouraged to capture more localized clues. In addition, the proposed multi-modal fusion block facilitates fine-grained interactions among different modalities. Extensive experiments on three public datasets demonstrate that the proposed CMAH significantly outperforms all baseline methods.
翻訳日:2024-08-13 15:57:51 公開日:2024-08-11
# DeepAir: 未知のユーザ位置問題に対するマルチエージェントの深層強化学習型スキーム

DeepAir: A Multi-Agent Deep Reinforcement Learning Based Scheme for an Unknown User Location Problem ( http://arxiv.org/abs/2408.05712v1 )

ライセンス: Link先を確認
Baris Yamansavascilar, Atay Ozgovde, Cem Ersoy, (参考訳) 無人航空機(UAV)の様々な環境への展開は、ネットワークパラダイムに対する様々な解決策と戦略を提供してきた。 したがって、既存の問題の開発の複雑さを減らし、それ以外はより洗練されたアプローチを必要とする。 既存の問題の1つは、要求される品質のサービス(QoS)を達成するためにタスクオフロードに不可欠である、通信デバイスや計算提供サーバに接続できないインフラストラクチャレス環境における未知のユーザロケーションである。 そこで本研究では,この問題を徹底的に検討し,新しい深層強化学習方式であるDeepAirを提案する。 DeepAirは、最大耐久遅延に違反することなく、オフロードタスクのQoS要求を達成するために、センシング、ローカライゼーション、リソース割り当て、マルチアクセスエッジコンピューティング(MEC)を含む必要なステップをすべて検討している。 この目的のために、検出器UAVを含む2種類のUAVを使用し、UAVを提供する。 我々は、検知器UAVをDRLエージェントとして利用し、センシング、ローカライゼーション、資源割り当てを確実にする。 一方、UAVを利用してMEC機能を提供しています。 実験の結果,DeepAirは,ユーザ数やユーザアトラクションポイントの異なる環境にUAVを配置することで,ベンチマーク手法と比較して高いタスク成功率を提供することがわかった。

The deployment of unmanned aerial vehicles (UAVs) in many different settings has provided various solutions and strategies for networking paradigms. Therefore, it reduces the complexity of the developments for the existing problems, which otherwise require more sophisticated approaches. One of those existing problems is the unknown user locations in an infrastructure-less environment in which users cannot connect to any communication device or computation-providing server, which is essential to task offloading in order to achieve the required quality of service (QoS). Therefore, in this study, we investigate this problem thoroughly and propose a novel deep reinforcement learning (DRL) based scheme, DeepAir. DeepAir considers all of the necessary steps including sensing, localization, resource allocation, and multi-access edge computing (MEC) to achieve QoS requirements for the offloaded tasks without violating the maximum tolerable delay. To this end, we use two types of UAVs including detector UAVs, and serving UAVs. We utilize detector UAVs as DRL agents which ensure sensing, localization, and resource allocation. On the other hand, we utilize serving UAVs to provide MEC features. Our experiments show that DeepAir provides a high task success rate by deploying fewer detector UAVs in the environment, which includes different numbers of users and user attraction points, compared to benchmark methods.
翻訳日:2024-08-13 15:57:51 公開日:2024-08-11
# SSL: 生成画像の超高解像度化のための自己相似損失

SSL: A Self-similarity Loss for Improving Generative Image Super-resolution ( http://arxiv.org/abs/2408.05713v1 )

ライセンス: Link先を確認
Du Chen, Zhengqiang Zhang, Jie Liang, Lei Zhang, (参考訳) 生成逆数ネットワーク(GAN)と生成拡散モデル(DM)は、画像の知覚品質を高めるために現実世界の超解像(Real-ISR)で広く利用されている。 しかし、これらの生成モデルは視覚的アーティファクトや虚像構造を生成する傾向があり、不自然なリアルISRの結果をもたらす。 本研究は,自然画像が高自己相似性を示すこと,すなわち局所的なパッチが全体像に類似したパッチを多数持っていることを踏まえ,生成リアルISRモデルの性能向上のための簡易かつ効果的な自己相似性損失(SSL)を提案し,構造的およびテクスチャ的詳細性の幻覚性を高めつつ,不愉快な視覚的アーティファクトを低減させる。 具体的には、地上構造画像の自己相似性グラフ(SSG)を計算し、その近傍にReal-ISR出力のSSGを強制する。 トレーニングコストを削減し,エッジ領域に注力するため,地中画像からエッジマスクを生成し,マスク付き画素のみにSSGを演算する。 提案されたSSLは一般的なプラグアンドプレイペナルティとして機能し、既製のReal-ISRモデルにも容易に適用できる。 我々の実験は、SSLと組み合わせることで、GANやDMなど、最先端のReal-ISRモデルの性能を大幅に改善し、より知覚的にリアルな画像の詳細を再現し、多くの偽の再構築や視覚的アーティファクトを排除できることを示した。 コードと補足資料はhttps://github.com/ChrisDud0257/SSLで確認できる。

Generative adversarial networks (GAN) and generative diffusion models (DM) have been widely used in real-world image super-resolution (Real-ISR) to enhance the image perceptual quality. However, these generative models are prone to generating visual artifacts and false image structures, resulting in unnatural Real-ISR results. Based on the fact that natural images exhibit high self-similarities, i.e., a local patch can have many similar patches to it in the whole image, in this work we propose a simple yet effective self-similarity loss (SSL) to improve the performance of generative Real-ISR models, enhancing the hallucination of structural and textural details while reducing the unpleasant visual artifacts. Specifically, we compute a self-similarity graph (SSG) of the ground-truth image, and enforce the SSG of Real-ISR output to be close to it. To reduce the training cost and focus on edge areas, we generate an edge mask from the ground-truth image, and compute the SSG only on the masked pixels. The proposed SSL serves as a general plug-and-play penalty, which could be easily applied to the off-the-shelf Real-ISR models. Our experiments demonstrate that, by coupling with SSL, the performance of many state-of-the-art Real-ISR models, including those GAN and DM based ones, can be largely improved, reproducing more perceptually realistic image details and eliminating many false reconstructions and visual artifacts. Codes and supplementary material can be found at https://github.com/ChrisDud0257/SSL
翻訳日:2024-08-13 15:57:51 公開日:2024-08-11
# Top Pass: Pass@k-Maximized Code Rankingによるコード生成の改善

Top Pass: Improve Code Generation by Pass@k-Maximized Code Ranking ( http://arxiv.org/abs/2408.05715v1 )

ライセンス: Link先を確認
Zhi-Cun Lyu, Xin-Ye Li, Zheng Xie, Ming Li, (参考訳) コード生成は、最近、LLM(Large Language Models)の大幅な進歩によって大幅に強化された。 それでも、このようなLLMベースのコード生成アプローチは、複雑な問題に直面した数回の試行において、エラーのないコードを生成するのに依然として苦労している。 この問題に対処するため、一般的な戦略は、膨大な数の候補プログラムをサンプリングすることであり、そのうちのどのプログラムも機能することを期待している。 しかし、コード生成システムのユーザは通常、少数のコード候補のみをレビューまたはテストすることで、正しいプログラムを見つけることを期待する。 そうでなければ、システムは不完全なものになるでしょう。 本稿では,多数の候補からの潜在的な正解を識別するコードランキング手法であるTop Passを提案する。 Top Passはpass@k損失関数を直接最適化し、候補リストのトップの品質を高める。 これにより、ユーザは可能な限り少ない試行で正しいソリューションを見つけることができる。 4つのベンチマークでの実験結果から,Top Pass法はより優れたランキング結果を生成することにより,コード生成モデルのユーザビリティを向上させることが示唆された。

Code generation has been greatly enhanced by the profound advancements in Large Language Models (LLMs) recently. Nevertheless, such LLM-based code generation approaches still struggle to generate error-free code in a few tries when faced with complex problems. To address this, the prevailing strategy is to sample a huge number of candidate programs, with the hope of any one in them could work. However, users of code generation systems usually expect to find a correct program by reviewing or testing only a small number of code candidates. Otherwise, the system would be unhelpful. In this paper, we propose Top Pass, a code ranking approach that identifies potential correct solutions from a large number of candidates. Top Pass directly optimizes the pass@k loss function, enhancing the quality at the top of the candidate list. This enables the user to find the correct solution within as few tries as possible. Experimental results on four benchmarks indicate that our Top Pass method enhances the usability of code generation models by producing better ranking results, particularly achieving a 32.9\% relative improvement in pass@1 on CodeContests when compared to the state-of-the-art ranking method.
翻訳日:2024-08-13 15:57:51 公開日:2024-08-11
# 共有エンコーダ,補助デコーダ,ピラミッドデコーダからのマルチスケール特徴フュージョンによる変形可能な画像登録

Deformable Image Registration with Multi-scale Feature Fusion from Shared Encoder, Auxiliary and Pyramid Decoders ( http://arxiv.org/abs/2408.05717v1 )

ライセンス: Link先を確認
Hongchao Zhou, Shunbo Hu, (参考訳) 本研究では,教師なし画像登録のための新しい変形可能な畳み込みピラミッドネットワークを提案する。 具体的には、画像ペアのための共有補助デコーダを追加することにより、従来のピラミッドネットワークを強化する。 このデコーダは、登録タスク用の未訳画像対からマルチスケールの高レベル特徴情報を提供する。 登録プロセス中、グローバルおよびローカルの両方のコンテキストから、登録タスクの最も有益な特徴を抽出するために、マルチスケールの機能融合ブロックを設計する。 以上の結果から, 高い登録精度を達成し, 円滑かつ可塑性変形を維持しつつ, 複雑な変形を捉えることが可能であることが示唆された。

In this work, we propose a novel deformable convolutional pyramid network for unsupervised image registration. Specifically, the proposed network enhances the traditional pyramid network by adding an additional shared auxiliary decoder for image pairs. This decoder provides multi-scale high-level feature information from unblended image pairs for the registration task. During the registration process, we also design a multi-scale feature fusion block to extract the most beneficial features for the registration task from both global and local contexts. Validation results indicate that this method can capture complex deformations while achieving higher registration accuracy and maintaining smooth and plausible deformations.
翻訳日:2024-08-13 15:57:51 公開日:2024-08-11
# 量子発振器のコヒーレンス、対称性、非散逸運動

Coherence, broken symmetry and nondissipative motion of a quantum oscillator ( http://arxiv.org/abs/2408.05718v1 )

ライセンス: Link先を確認
Yu. M. Poluektov, (参考訳) 量子発振器の例では、動的コヒーレント状態と位相対称性の破れと非散逸運動の存在との接続を考える。 相互作用する粒子の類似状態の多粒子系では、自分自身を超実用性と超伝導として表す。

On the example of a quantum oscillator the connection of the dynamical coherent state with the phase symmetry breaking and the existence of the nondissipative motion is considered. In multiparticle systems of interacting particles similar states manifest themselves as super uidity and superconductivity.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# 残留摂動によるデータプライバシによるディープラーニング

Deep Learning with Data Privacy via Residual Perturbation ( http://arxiv.org/abs/2408.05723v1 )

ライセンス: Link先を確認
Wenqi Tao, Huaming Ling, Zuoqiang Shi, Bao Wang, (参考訳) ディープラーニング(DL)におけるデータのプライバシ保護は重要である。 いくつかの有名なプライバシー概念が確立され、プライバシー保護のDLに使用されている。 しかし、多くの既存のメカニズムは、大きなユーティリティ劣化と計算オーバーヘッドを犠牲にして、プライバシを実現する。 本稿では,ResNetの残差マップにガウス雑音を注入するプライバシー保護型DLのための確率微分方程式に基づく残差摂動法を提案する。 理論的には、残差摂動は差分プライバシー(DP)を保証し、DLの一般化ギャップを小さくする。 実験により, 残差摂動は計算効率が高く, 会員プライバシを犠牲にすることなく, 実用性維持における最先端の個人確率勾配勾配(DPSGD)よりも優れていた。

Protecting data privacy in deep learning (DL) is of crucial importance. Several celebrated privacy notions have been established and used for privacy-preserving DL. However, many existing mechanisms achieve privacy at the cost of significant utility degradation and computational overhead. In this paper, we propose a stochastic differential equation-based residual perturbation for privacy-preserving DL, which injects Gaussian noise into each residual mapping of ResNets. Theoretically, we prove that residual perturbation guarantees differential privacy (DP) and reduces the generalization gap of DL. Empirically, we show that residual perturbation is computationally efficient and outperforms the state-of-the-art differentially private stochastic gradient descent (DPSGD) in utility maintenance without sacrificing membership privacy.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# コードのための大規模言語モデルのホットフィックス

Hotfixing Large Language Models for Cod ( http://arxiv.org/abs/2408.05727v1 )

ライセンス: Link先を確認
Zhou Yang, David Lo, (参考訳) コードのための大規模言語モデル(LLM4Code)は開発者のワークフローの不可欠な部分となり、コード補完や生成などのタスクを支援している。 しかし、これらのモデルは、バグの多いコードを含む大量のソースコードを広範囲にトレーニングしたために、バグの多いコードを生成するなど、リリース後に望ましくない振る舞いを示す。 トレーニングデータ(通常、オープンソースソフトウェアから来る)は進化を続けており、例えば、開発者はバグの多いコードを修正します。 しかしながら、LLM4Codeの望ましくない振る舞いを軽減するためにこのような進化を適用することは、簡単ではない。 このことは、LLM4Codeの望ましくない振る舞いを最小限の負の効果で効果的かつ効率的に緩和する、LLM4Codeのホットフィックスの概念を提案する動機である。 本稿では,LLM4Codeをホットフィックスすることで,バグの少ないコードとより固定的なコードを生成することに焦点を当てる。 私たちは、人気のあるCodeGenファミリのモデルが頻繁にバグのあるコードを生成することを実証することから始めます。 そこで,本研究では,(1)所望の動作を学習し,(2)望ましくない動作を学習し,(3)他のコードの知識を保持する,という3つの学習目標を定義した。 モデルをホットフィックスするための4つの異なる微調整手法を評価し,以下の知見を得た。 LoRA(低ランク適応)を用いてこれら3つの学習目標を同時に最適化することは、モデルの振る舞いに効果的に影響を及ぼす。 具体的には、固定コードの生成を最大108.42%増加させ、バグコードの生成を最大50.47%減少させる。 統計テストでは、HumanEvalベンチマークにおいてホットフィックスがモデルの機能的正しさに悪影響を及ぼさないことが確認された。 また,ホットフィックスは高い時間効率を示すことを示す。

Large Language Models for Code (LLM4Code) have become an integral part of developers' workflows, assisting with tasks such as code completion and generation. However, these models are found to exhibit undesired behaviors after their release, like generating buggy code, due to their extensive training on vast amounts of source code that contain such buggy code. The training data (usually coming from open-source software) keeps evolving, e.g., developers fix the buggy code. However, adapting such evolution to mitigate LLM4Code's undesired behaviors is non-trivial, as retraining models on the updated dataset usually takes much time and resources. This motivates us to propose the concept of hotfixing LLM4Code, mitigating LLM4Code's undesired behaviors effectively and efficiently with minimal negative effects. This paper mainly focuses on hotfixing LLM4Code to make them generate less buggy code and more fixed code. We begin by demonstrating that models from the popular CodeGen family frequently generate buggy code. Then, we define three learning objectives in hotfixing and design multiple loss functions for each objective: (1) learn the desired behaviors, (2) unlearn the undesired behaviors, and (3) retain knowledge of other code. We evaluate four different fine-tuning techniques for hotfixing the models and gain the following insights. Optimizing these three learning goals together, using LoRA (low-rank adaptation), effectively influences the model's behavior. Specifically, it increases the generation of fixed code by up to 108.42% and decreases the generation of buggy code by up to 50.47%. Statistical tests confirm that hotfixing does not significantly affect the models' functional correctness on the HumanEval benchmark. We also show that hotfixing demonstrates strong time efficiency.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# ワンショットのみによるビデオナンバープレート追跡・認識のための学習自由フレームワーク

A Training-Free Framework for Video License Plate Tracking and Recognition with Only One-Shot ( http://arxiv.org/abs/2408.05729v1 )

ライセンス: Link先を確認
Haoxuan Ding, Qi Wang, Junyu Gao, Qiang Li, (参考訳) 従来のライセンスプレート検出と認識モデルは、しばしばクローズドデータセットでトレーニングされ、異なるリージョンにわたるさまざまなライセンスプレートフォーマットを扱う能力を制限する。 大規模な事前訓練モデルの出現は、例外的な一般化能力を示し、少数ショットとゼロショットの学習を可能にしている。 ビデオベースライセンスプレート検出および認識のためのトレーニングフリーフレームワークであるOneShotLPを提案する。 第1のビデオフレームにおけるナンバープレートの位置から始め,この位置を点追跡モジュールを用いて追跡し,プロンプトの軌跡を作成する。 これらのプロンプトは、プロンプト可能な大きなセグメンテーションモデルを使用して、ライセンスプレート領域のローカルマスクを生成するセグメンテーションモジュールに入力される。 セグメント化された領域は、正確なナンバープレート認識のためにマルチモーダル大言語モデル(MLLM)によって処理される。 OneShotLPには、広範なトレーニングデータなしで効果的に機能する機能や、さまざまなライセンスプレートスタイルへの適応性など、大きなメリットがある。 UFPR-ALPRとSSIG-SegPlateのデータセットによる実験結果は,従来の手法と比較して,我々のアプローチの精度が優れていることを示している。 これは、インテリジェントトランスポートシステムにおける多様な現実世界のアプリケーションに事前訓練されたモデルを活用する可能性を強調している。 コードはhttps://github.com/Dinghaoxuan/OneShotLPで公開されている。

Traditional license plate detection and recognition models are often trained on closed datasets, limiting their ability to handle the diverse license plate formats across different regions. The emergence of large-scale pre-trained models has shown exceptional generalization capabilities, enabling few-shot and zero-shot learning. We propose OneShotLP, a training-free framework for video-based license plate detection and recognition, leveraging these advanced models. Starting with the license plate position in the first video frame, our method tracks this position across subsequent frames using a point tracking module, creating a trajectory of prompts. These prompts are input into a segmentation module that uses a promptable large segmentation model to generate local masks of the license plate regions. The segmented areas are then processed by multimodal large language models (MLLMs) for accurate license plate recognition. OneShotLP offers significant advantages, including the ability to function effectively without extensive training data and adaptability to various license plate styles. Experimental results on UFPR-ALPR and SSIG-SegPlate datasets demonstrate the superior accuracy of our approach compared to traditional methods. This highlights the potential of leveraging pre-trained models for diverse real-world applications in intelligent transportation systems. The code is available at https://github.com/Dinghaoxuan/OneShotLP.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# 最適オーバーラップトモグラフィー

Optimal overlapping tomography ( http://arxiv.org/abs/2408.05730v1 )

ライセンス: Link先を確認
Kiara Hansenne, Rui Qu, Lisa T. Weinbrenner, Carlos de Gois, Haifei Wang, Yang Ming, Zhengning Yang, Paweł Horodecki, Weibo Gao, Otfried Gühne, (参考訳) 大規模量子システムを特徴づけることは、基礎物理学や量子技術の応用の中心である。 完全なキャラクタリゼーションには指数関数的な努力が必要だが、アプリケーション関連の情報に焦点を合わせると、分析が大幅に単純化されることがある。 重なり合うトモグラフィーは、多粒子量子系の特定のサブシステムに含まれる全ての情報を効率的に得るためのスキームである。 そこで本稿では,異なる特徴量に対して最適な重なり合うトモグラフィーのプロトコルを提案する。 まず、グラフ理論に基づくアルゴリズム的アプローチを提供することにより、パウリ測度を量子ビット上での最適スキームを見つけ、それを組合せ論における配列を被覆する問題と関連付ける。 これは測定の労力を大幅に減らし、例えば、マルチキュービット量子系において近接する隣人の2体重なり合うトモグラフィは、常に9つのパウリ設定で実行可能であることを示す。 第2に、システムサイズによらず、全ての$k$ボディ境界を再構築するために、一般的な射影測度を用いた最適スキームは、わずか3ドル(約3,300円)の設定しか必要としないことを示す。 最後に,本手法の有効性を6光子実験で実証した。 この結果は,量子コンピュータにおけるノイズや相互作用パターンの学習や,量子化学におけるフェルミオン系の特徴付けに応用される。

Characterising large scale quantum systems is central for fundamental physics as well as for applications of quantum technologies. While a full characterisation requires exponentially increasing effort, focusing on application-relevant information can often lead to significantly simplified analysis. Overlapping tomography is such a scheme, which allows to obtain all the information contained in specific subsystems of multi-particle quantum systems in an efficient manner, but the ultimate limits of this approach remained elusive. We present protocols for optimal overlapping tomography with respect to different figures of merit. First, by providing algorithmic approaches based on graph theory we find the optimal scheme for Pauli measurements on qubits, relating it to the problem of covering arrays in combinatorics. This significantly reduces the measurement effort, showing for instance that two-body overlapping tomography of nearest neighbours in multiqubit quantum systems can always be performed with nine Pauli settings. Second, we prove that the optimal scheme using general projective measurements requires only $3^k$ settings to reconstruct all $k$-body marginals, independently of the system size. Finally, we demonstrate the practical applicability of our methods in a six-photon experiment. Our results will find applications in learning noise and interaction patterns in quantum computers as well as characterising fermionic systems in quantum chemistry.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# 量子チャネルの量子容量における相転移

Phase Transition in the Quantum Capacity of Quantum Channels ( http://arxiv.org/abs/2408.05733v1 )

ライセンス: Link先を確認
Shayan Roofeh, Vahid Karimipour, (参考訳) 量子量子チャネルの長年の研究の後、その容量を決定することは、その基本的な重要性にもかかわらず、非常に難しい問題のままである。 量子チャネルの容量について下限と上限を決定することさえ、非常に難しいことが証明された。 したがって、チャネルの量子容量がなくなるとき、少なくとも知る必要がある。 本稿では、全ての量子チャネルの量子容量$\Lambda$が、例えば$\Lambda_x (\rho):=(1-x)\Lambda(\rho)+\frac{x}{d}I_d$のように、ホワイトノイズによって汚染された場合、$x\geq \frac{1}{2}$のときゼロになることを示す。 この目的のために、$x\geq \frac{1}{2}$ の脱分極チャネルが反分解可能であることを証明し、チャネルとその補体を接続するチャネルの正確な形を見つける。 このチャネルで見つかるゼロ容量領域は、次元に依存し、$x\geq \frac{d}{d+1}$で与えられるエンタングルメント結合の領域よりもはるかに大きい。

After many years of intensive study of quantum quantum channels, determining their capacities has remained an extremely challenging problem, despite its fundamental importance. Even determining lower and upper bounds for capacities of quantum channels has proved to be very difficult. It is therefore urgently needed to know at least, when the quantum capacity of a channel vanishes. In this paper, we prove that the quantum capacity of every quantum channel $\Lambda$, when contaminated by white noise, as in $\Lambda_x (\rho):=(1-x)\Lambda(\rho)+\frac{x}{d}I_d$, drops to zero when $x\geq \frac{1}{2}$. To this end, we prove that the depolarizing channel with $x\geq \frac{1}{2}$ is anti-degradable and find the exact form of the channel that connects the channel and its complement. The zero capacity region that we find for this channel is significantly larger than the previously found region of entanglement-binding which depends on dimension and is given by $x\geq \frac{d}{d+1}$.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# 視覚変換器の協調学習のための使い捨てキーベース画像暗号化

Disposable-key-based image encryption for collaborative learning of Vision Transformer ( http://arxiv.org/abs/2408.05737v1 )

ライセンス: Link先を確認
Rei Aso, Sayaka Shiota, Hitoshi Kiya, (参考訳) 本稿では,プライバシ保護フェデレーション学習と同様に,複数のクライアントから機密データを共有して視覚変換器(ViT)をセキュアに訓練する手法を提案する。 提案手法では,各クライアントが個別に,各クライアントが暗号化キーを作成できるように,トレーニングイメージを個別に暗号化し,これらの暗号化イメージを初めて使用することにより,ViTをトレーニングする。 この方法では、クライアントがキーを破棄するだけでなく、中央サーバとクライアント間の通信コストを削減できる。 画像分類実験において, CIFAR-10データセットに対する提案手法の有効性を, 分類精度と制限されたランダムな置換行列を用いて検証した。

We propose a novel method for securely training the vision transformer (ViT) with sensitive data shared from multiple clients similar to privacy-preserving federated learning. In the proposed method, training images are independently encrypted by each client where encryption keys can be prepared by each client, and ViT is trained by using these encrypted images for the first time. The method allows clients not only to dispose of the keys but to also reduce the communication costs between a central server and the clients. In image classification experiments, we verify the effectiveness of the proposed method on the CIFAR-10 dataset in terms of classification accuracy and the use of restricted random permutation matrices.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# 言語インフォームドビームサーチデコーディングによる多言語機械翻訳

Language-Informed Beam Search Decoding for Multilingual Machine Translation ( http://arxiv.org/abs/2408.05738v1 )

ライセンス: Link先を確認
Yilin Yang, Stefan Lee, Prasad Tadepalli, (参考訳) ビームサーチデコーディング(ビームサーチデコーディング)は、ターゲット言語を入力として指定した多言語NMTを含む自動回帰型ニューラルネットワーク変換(NMT)モデルのデファクト法である。 しかし、多言語NMTモデルの復号化は'off-target''の翻訳を一般的に生成する。 本稿では、まず、強い多言語NMTモデルに対するオフターゲット翻訳の誤り解析を行い、ビームサーチ時にこれらのデコードがどのように生成されるかを特定する。 次に,Language-informed Beam Search (LiBS)を提案する。Language-informed Beam Search (LiBS) は,既製のLanguage Identification (LiD) モデルをビームサーチデコーディングに組み込んだ汎用デコーディングアルゴリズムである。 LiBS は NMT モデルに依存しない推論時プロシージャであり、追加の並列データを必要としない。 その結果,提案したLiBSアルゴリズムは平均で+1.1 BLEUと+0.9 BLEUをWMTおよびOPUSデータセットで改善し,目標外レートを22.9 %から7.7 %,65.8 %から25.3 %に削減した。

Beam search decoding is the de-facto method for decoding auto-regressive Neural Machine Translation (NMT) models, including multilingual NMT where the target language is specified as an input. However, decoding multilingual NMT models commonly produces ``off-target'' translations -- yielding translation outputs not in the intended language. In this paper, we first conduct an error analysis of off-target translations for a strong multilingual NMT model and identify how these decodings are produced during beam search. We then propose Language-informed Beam Search (LiBS), a general decoding algorithm incorporating an off-the-shelf Language Identification (LiD) model into beam search decoding to reduce off-target translations. LiBS is an inference-time procedure that is NMT-model agnostic and does not require any additional parallel data. Results show that our proposed LiBS algorithm on average improves +1.1 BLEU and +0.9 BLEU on WMT and OPUS datasets, and reduces off-target rates from 22.9\% to 7.7\% and 65.8\% to 25.3\% respectively.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# MTSCI:多変量時系列一貫性インプットのための条件拡散モデル

MTSCI: A Conditional Diffusion Model for Multivariate Time Series Consistent Imputation ( http://arxiv.org/abs/2408.05740v1 )

ライセンス: Link先を確認
Jianping Zhou, Junhao Li, Guanjie Zheng, Xinbing Wang, Chenghu Zhou, (参考訳) 多変量時系列では欠落値が一般的であり、解析の整合性を妥協し、下流タスクのパフォーマンスを低下させる。 その結果、多変量時系列計算に焦点が当てられ、利用可能な観測値に基づいて、欠落した値を正確にインプットすることを目的としている。 主要な研究課題は、インキュベーション整合性、すなわち、観測値とインキュベーション値の間の整合性、およびインキュベーション後の隣の窓間の整合性を確保する方法である。 しかし、従来の手法は、学習プロセスを導くために命令対象の帰納バイアスにのみ依存し、命令の一貫性を無視し、結果としてパフォーマンスが低下する。 拡散モデルは、その強力な生成能力で知られており、利用可能な観測に基づいて一貫した結果を生成することを好んでいる。 そこで本稿では,MTSCI(Multiate Time Series Consistent Imputation)の条件拡散モデルを提案する。 具体的には、MTSCIはフォワードノイズ発生過程において二重ビューを生成するために、コントラスト的な補完マスクを使用している。 そして、イントラスト損失を算出し、インプットされた値と観測された値との整合性を確保する。 一方、MSSCIは、隣接する窓からの条件情報を混在させ、汚染されたサンプル間の整合性を促進するためにミキシング機構を利用する。 複数の実世界のデータセットに対する大規模な実験により,異なるシナリオ下での多変量時系列計算タスクにおける最先端の性能が得られた。 コードはhttps://github.com/JeremyChou28/MTSCIで入手できる。

Missing values are prevalent in multivariate time series, compromising the integrity of analyses and degrading the performance of downstream tasks. Consequently, research has focused on multivariate time series imputation, aiming to accurately impute the missing values based on available observations. A key research question is how to ensure imputation consistency, i.e., intra-consistency between observed and imputed values, and inter-consistency between adjacent windows after imputation. However, previous methods rely solely on the inductive bias of the imputation targets to guide the learning process, ignoring imputation consistency and ultimately resulting in poor performance. Diffusion models, known for their powerful generative abilities, prefer to generate consistent results based on available observations. Therefore, we propose a conditional diffusion model for Multivariate Time Series Consistent Imputation (MTSCI). Specifically, MTSCI employs a contrastive complementary mask to generate dual views during the forward noising process. Then, the intra contrastive loss is calculated to ensure intra-consistency between the imputed and observed values. Meanwhile, MTSCI utilizes a mixup mechanism to incorporate conditional information from adjacent windows during the denoising process, facilitating the inter-consistency between imputed samples. Extensive experiments on multiple real-world datasets demonstrate that our method achieves the state-of-the-art performance on multivariate time series imputation task under different missing scenarios. Code is available at https://github.com/JeremyChou28/MTSCI.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# スケジューリング問題に対するサブセット全体の指数時間量子動的計画法

Moderate Exponential-time Quantum Dynamic Programming Across the Subsets for Scheduling Problems ( http://arxiv.org/abs/2408.05741v1 )

ライセンス: Link先を確認
Camille Grange, Michael Poss, Eric Bourreau, Vincent T'kindt, Olivier Ploton, (参考訳) グロバーサーチは現在、いくつかの組合せ最適化問題において最悪の時間複雑性を減少させるハイブリッド量子古典法に導かれる主要な量子アルゴリズムの1つである。 具体的には、量子最小探索(グロバー探索から得られる)と動的プログラミングの組み合わせは、古典的動的プログラミングによって現在解決されているNPハード問題の複雑さを改善するのに特に効果的であることが証明されている。 これらの問題に対して、$\mathcal{O}^*(c^n)$($\mathcal{O}^*)$($\mathcal{O}^*)$($\mathcal{O}^*(c_{quant}^n)$)$($c_{quant} <c$)$($\mathcal{O}^*(c_{quant}^n)$)$($c_{quant} <c$)$)の古典的動的プログラミング複雑性は、多項式因子が無視されることを示す。 本稿では,NP-hardシングルマシンスケジューリング問題に対して,汎用的な記述を与えるような改良を施した有界エラーハイブリッドアルゴリズムを提案する。 さらに,このアルゴリズムを3機械フローホップ問題に対処するために拡張する。 我々のアルゴリズムは、よく知られた古典的アルゴリズムと比較して指数関数的な部分の複雑さを減らし、時には擬似多項式因子のコストがかかる。

Grover Search is currently one of the main quantum algorithms leading to hybrid quantum-classical methods that reduce the worst-case time complexity for some combinatorial optimization problems. Specifically, the combination of Quantum Minimum Finding (obtained from Grover Search) with dynamic programming has proved particularly efficient in improving the complexity of NP-hard problems currently solved by classical dynamic programming. For these problems, the classical dynamic programming complexity in $\mathcal{O}^*(c^n)$, where $\mathcal{O}^*$ denotes that polynomial factors are ignored, can be reduced by a hybrid algorithm to $\mathcal{O}^*(c_{quant}^n)$, with $c_{quant} < c$. In this paper, we provide a bounded-error hybrid algorithm that achieves such an improvement for a broad class of NP-hard single-machine scheduling problems for which we give a generic description. Moreover, we extend this algorithm to tackle the 3-machine flowshop problem. Our algorithm reduces the exponential-part complexity compared to the best-known classical algorithm, sometimes at the cost of an additional pseudo-polynomial factor.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# ニューラルアーキテクチャ検索に基づくパームベイン認識のためのグローバルローカルビジョンマンバ

Neural Architecture Search based Global-local Vision Mamba for Palm-Vein Recognition ( http://arxiv.org/abs/2408.05743v1 )

ライセンス: Link先を確認
Huafeng Qin, Yuming Fu, Jing Chen, Mounim A. El-Yacoubi, Xinbo Gao, Jun Wang, (参考訳) 高セキュリティ,高プライバシ,活力認識などの利点により,近年は静脈認識がますます注目されている。 近年のディープラーニングモデル,例えば,Mambaは線形計算複雑性を持つ頑健な特徴表現を示し,視覚タスクにうまく適用されている。 しかし、Vision Manbaは長距離機能依存関係をキャプチャできるが、残念ながらローカル機能の詳細は劣化している。 加えて、人間の事前知識に基づくMambaアーキテクチャを手動で設計することは、非常に時間がかかり、エラーが発生しやすい。 本稿ではまず,画像の局所的相関と静脈特徴表現のためのトークン間のグローバルな依存関係を明示的に学習するための,GLVM(Global-local Vision Mamba)というハイブリッドネットワーク構造を提案する。 第2に,視覚的マンバの特徴表現能力を向上させるために,異なる方向に沿った依存関係を学習するためのマルチヘッドマンバを設計する。 第3に,MHM(Multi-head Mamba branch),FIU(Feature Iteration Unit branch),CNN(Convolutional Neural Network)という3つのブランチからなるConvMambaブロックを提案する。 最後に,Global Local Alternate Neural Architecture Search (GLNAS)法を提案し,GLVMの最適アーキテクチャを進化的アルゴリズムと交互に探索し,静脈認識タスクの認識性能を向上させる。 我々は3つの公開パームベインデータベース上で厳密な実験を行い、その性能を推定する。 実験の結果,提案手法は代表的手法よりも優れ,最先端の認識精度が得られた。

Due to the advantages such as high security, high privacy, and liveness recognition, vein recognition has been received more and more attention in past years. Recently, deep learning models, e.g., Mamba has shown robust feature representation with linear computational complexity and successfully applied for visual tasks. However, vision Manba can capture long-distance feature dependencies but unfortunately deteriorate local feature details. Besides, manually designing a Mamba architecture based on human priori knowledge is very time-consuming and error-prone. In this paper, first, we propose a hybrid network structure named Global-local Vision Mamba (GLVM), to learn the local correlations in images explicitly and global dependencies among tokens for vein feature representation. Secondly, we design a Multi-head Mamba to learn the dependencies along different directions, so as to improve the feature representation ability of vision Mamba. Thirdly, to learn the complementary features, we propose a ConvMamba block consisting of three branches, named Multi-head Mamba branch (MHMamba), Feature Iteration Unit branch (FIU), and Convolutional Neural Network (CNN) branch, where the Feature Iteration Unit branch aims to fuse convolutional local features with Mamba-based global representations. Finally, a Globallocal Alternate Neural Architecture Search (GLNAS) method is proposed to search the optimal architecture of GLVM alternately with the evolutionary algorithm, thereby improving the recognition performance for vein recognition tasks. We conduct rigorous experiments on three public palm-vein databases to estimate the performance. The experimental results demonstrate that the proposed method outperforms the representative approaches and achieves state-of-the-art recognition accuracy.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# 隣接勾配情報による対向移動性の向上

Improving Adversarial Transferability with Neighbourhood Gradient Information ( http://arxiv.org/abs/2408.05745v1 )

ライセンス: Link先を確認
Haijing Guo, Jiafeng Wang, Zhaoyu Chen, Kaixun Jiang, Lingyi Hong, Pinxue Guo, Jinglun Li, Wenqiang Zhang, (参考訳) ディープニューラルネットワーク(DNN)は、敵の例に影響を受けやすいことが知られており、性能が著しく低下する。 ブラックボックス攻撃のシナリオでは、サロゲートモデルとターゲットモデルの間の攻撃性能のかなりのギャップが持続する。 本研究は、この性能ギャップを狭めるために、敵の例の転送可能性を高めることに焦点を当てる。 クリーンな画像の周囲の勾配情報、すなわち近隣の勾配情報によって高い転送性が得られることを観察する。 本手法を応用したNGI-Attackでは,この勾配情報を使用し,転送性を完全に向上する。 具体的には,まず,近隣のグラディエント情報を初期モーメント用語として蓄積するために,事例追跡を採用する。 マルチウェイ攻撃戦略を形成するMultix Maskは、ネットワークを差別的でない領域に集中させ、ほんの数イテレーションでよりリッチな勾配情報を得ることができるようにする。 大規模な実験により,本手法は対向移動性を大幅に向上させることが示された。 特に、多数の防衛モデルを攻撃する場合、平均的な攻撃成功率は95.8%に達する。 特に,本手法は市販のアルゴリズムをプラグインして,追加の時間的コストを伴わずに攻撃性能を向上させることができる。

Deep neural networks (DNNs) are known to be susceptible to adversarial examples, leading to significant performance degradation. In black-box attack scenarios, a considerable attack performance gap between the surrogate model and the target model persists. This work focuses on enhancing the transferability of adversarial examples to narrow this performance gap. We observe that the gradient information around the clean image, i.e. Neighbourhood Gradient Information, can offer high transferability. Leveraging this, we propose the NGI-Attack, which incorporates Example Backtracking and Multiplex Mask strategies, to use this gradient information and enhance transferability fully. Specifically, we first adopt Example Backtracking to accumulate Neighbourhood Gradient Information as the initial momentum term. Multiplex Mask, which forms a multi-way attack strategy, aims to force the network to focus on non-discriminative regions, which can obtain richer gradient information during only a few iterations. Extensive experiments demonstrate that our approach significantly enhances adversarial transferability. Especially, when attacking numerous defense models, we achieve an average attack success rate of 95.8%. Notably, our method can plugin with any off-the-shelf algorithm to improve their attack performance without additional time cost.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# 知識蒸留による低次元フェデレーション知識グラフの埋め込み

Low-Dimensional Federated Knowledge Graph Embedding via Knowledge Distillation ( http://arxiv.org/abs/2408.05748v1 )

ライセンス: Link先を確認
Xiaoxiong Zhang, Zhiwei Zeng, Xin Zhou, Zhiqi Shen, (参考訳) Federated Knowledge Graph Embedding (FKGE)は、複数のクライアント間で分散知識グラフ(KG)からエンティティとリレーショナルの埋め込みを協調的に学習し、データのプライバシを保存することを目的としている。 より高次元のFKGEモデルを訓練することは、通常、優れた性能を達成する可能性のために好まれる。 しかし、高次元埋め込みは、ストレージ資源と推論速度の点で大きな課題を呈している。 従来のKG埋め込み方式とは異なり、FKGEは複数のクライアントサーバ間通信ラウンドを伴い、通信効率が重要となる。 従来のKGの埋め込み圧縮手法は、FKGEには直接適用できない可能性がある。 本稿では,FedKDと題され,FKGE法に特化して最適化された,知識蒸留(KD)に基づく軽量コンポーネントを提案する。 クライアント側ローカルトレーニングにおいて、FedKDはKL分散損失を用いた高次元教師モデルから三重項のスコア分布を模倣する低次元学生モデルを促進する。 従来のKD法とは異なり、FedKDは正三重項のスコアを測る温度を適応的に学習し、予め定義された温度を用いて対応する負三重項のスコアを別々に調整し、教師の過信問題を緩和する。 さらに,KD損失の重み付けを動的に調整し,トレーニングプロセスを最適化する。 3つのデータセットに関する大規模な実験は、FedKDの有効性を支持する。

Federated Knowledge Graph Embedding (FKGE) aims to facilitate collaborative learning of entity and relation embeddings from distributed Knowledge Graphs (KGs) across multiple clients, while preserving data privacy. Training FKGE models with higher dimensions is typically favored due to their potential for achieving superior performance. However, high-dimensional embeddings present significant challenges in terms of storage resource and inference speed. Unlike traditional KG embedding methods, FKGE involves multiple client-server communication rounds, where communication efficiency is critical. Existing embedding compression methods for traditional KGs may not be directly applicable to FKGE as they often require multiple model trainings which potentially incur substantial communication costs. In this paper, we propose a light-weight component based on Knowledge Distillation (KD) which is titled FedKD and tailored specifically for FKGE methods. During client-side local training, FedKD facilitates the low-dimensional student model to mimic the score distribution of triples from the high-dimensional teacher model using KL divergence loss. Unlike traditional KD way, FedKD adaptively learns a temperature to scale the score of positive triples and separately adjusts the scores of corresponding negative triples using a predefined temperature, thereby mitigating teacher over-confidence issue. Furthermore, we dynamically adjust the weight of KD loss to optimize the training process. Extensive experiments on three datasets support the effectiveness of FedKD.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# ゼロショットモデルの効率的・可逆的ロバスト微調整

Efficient and Versatile Robust Fine-Tuning of Zero-shot Models ( http://arxiv.org/abs/2408.05749v1 )

ライセンス: Link先を確認
Sungyeon Kim, Boseung Jeong, Donghyun Kim, Suha Kwak, (参考訳) 大規模画像テキスト事前学習モデルにより、ゼロショット分類が可能となり、様々なデータ分布に対して一貫した精度を提供する。 それでも、これらのモデルを下流のタスクで最適化するには、通常は微調整が必要であるため、一般化をアウト・オブ・ディストリビューション(OOD)データに還元し、広範な計算資源を必要とする。 本稿では,ロバスト・アダプタ (R-Adapter) を導入し,これらの問題に同時に対処しながら,下流タスクにゼロショットモデルを微調整する手法を提案する。 本手法は, 軽量モジュールを事前学習モデルに統合し, OODロバスト性を高め, 保存コストを大幅に削減するために, 新たな自己アンサンブル技術を用いる。 さらに,視覚言語下流タスクの微調整を目的としたMPM-NCE損失を提案する。 複数の画像テキストペアの正確なアライメントと識別的特徴学習を保証する。 クロスモーダル検索やオープンボキャブラリセグメンテーションといった多様なタスクを含む分類を超えて、堅牢な微調整のためのベンチマークを拡張して、R-Adapterの広範な適用性を実証する。 R-Adapterは,CLIPエンコーダのパラメータの13%をチューニングすることで,タスクのさまざまなセットで最先端のパフォーマンスを実現することを示す。

Large-scale image-text pre-trained models enable zero-shot classification and provide consistent accuracy across various data distributions. Nonetheless, optimizing these models in downstream tasks typically requires fine-tuning, which reduces generalization to out-of-distribution (OOD) data and demands extensive computational resources. We introduce Robust Adapter (R-Adapter), a novel method for fine-tuning zero-shot models to downstream tasks while simultaneously addressing both these issues. Our method integrates lightweight modules into the pre-trained model and employs novel self-ensemble techniques to boost OOD robustness and reduce storage expenses substantially. Furthermore, we propose MPM-NCE loss designed for fine-tuning on vision-language downstream tasks. It ensures precise alignment of multiple image-text pairs and discriminative feature learning. By extending the benchmark for robust fine-tuning beyond classification to include diverse tasks such as cross-modal retrieval and open vocabulary segmentation, we demonstrate the broad applicability of R-Adapter. Our extensive experiments demonstrate that R-Adapter achieves state-of-the-art performance across a diverse set of tasks, tuning only 13% of the parameters of the CLIP encoders.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# FADE: ビデオ中の建物のまわりの落下物を検出するデータセット

FADE: A Dataset for Detecting Falling Objects around Buildings in Video ( http://arxiv.org/abs/2408.05750v1 )

ライセンス: Link先を確認
Zhigang Tu, Zitao Gao, Zhengbo Zhang, Chunluan Zhou, Junsong Yuan, Bo Du, (参考訳) 建物から落下する物体は、大きな衝撃力によって歩行者に重傷を負わせる可能性がある。 監視カメラはいくつかの建物の周りに設置されているが、小型で落下物体の高速な動きや複雑な背景のため、人間が監視ビデオでこのような出来事をとらえることは困難である。 そのため,監視ビデオにおいて,建物周囲の落下物を自動的に検出する手法を開発する必要がある。 落下物体の検出を容易にするため,FADE (FAlling Object Detection around Buildings) と呼ばれる大規模かつ多様な映像データセットを初めて提案する。 FADEには18のシーンから1,881本のビデオがあり、8つの落下物カテゴリー、4つの気象条件、4つのビデオ解像度がある。 さらに,FADE-Netと呼ばれる新しい物体検出手法を開発し,動き情報を有効に活用し,建物周辺に落下する物体を検出するための小型ながら高品質な提案を行う。 提案手法は, ジェネリックオブジェクト検出, ビデオオブジェクト検出, FADEデータセット上での移動オブジェクト検出に用いた手法と比較し, 広範に評価し, 解析を行った。 実験の結果,提案するFADE-Netは他の手法よりも優れており,今後の研究に有効なベースラインを提供することが示された。 データセットとコードはhttps://fadedataset.github.io/FADE.github.io/で公開されている。

Falling objects from buildings can cause severe injuries to pedestrians due to the great impact force they exert. Although surveillance cameras are installed around some buildings, it is challenging for humans to capture such events in surveillance videos due to the small size and fast motion of falling objects, as well as the complex background. Therefore, it is necessary to develop methods to automatically detect falling objects around buildings in surveillance videos. To facilitate the investigation of falling object detection, we propose a large, diverse video dataset called FADE (FAlling Object DEtection around Buildings) for the first time. FADE contains 1,881 videos from 18 scenes, featuring 8 falling object categories, 4 weather conditions, and 4 video resolutions. Additionally, we develop a new object detection method called FADE-Net, which effectively leverages motion information and produces small-sized but high-quality proposals for detecting falling objects around buildings. Importantly, our method is extensively evaluated and analyzed by comparing it with the previous approaches used for generic object detection, video object detection, and moving object detection on the FADE dataset. Experimental results show that the proposed FADE-Net significantly outperforms other methods, providing an effective baseline for future research. The dataset and code are publicly available at https://fadedataset.github.io/FADE.github.io/.
翻訳日:2024-08-13 15:47:38 公開日:2024-08-11
# Eコマース検索におけるマルチモーダルフュージョンとターゲット指向補助タスクによるリランキングの促進

Advancing Re-Ranking with Multimodal Fusion and Target-Oriented Auxiliary Tasks in E-Commerce Search ( http://arxiv.org/abs/2408.05751v1 )

ライセンス: Link先を確認
Enqiang Xu, Xinhui Li, Zhigong Zhou, Jiahao Ji, Jinyuan Zhao, Dadong Miao, Songlin Wang, Lin Liu, Sulong Xu, (参考訳) 急速に発展するeコマースの分野では、検索の再ランク付けモデルの有効性は、ユーザエクスペリエンスの向上とコンバージョン率の向上に不可欠である。 特徴表現とモデルアーキテクチャの大幅な進歩にもかかわらず、マルチモーダル情報の統合は未解明のままである。 本研究は,テキスト情報と視覚情報の融合を再ランク付けの文脈で検討することによって,このギャップに対処する。 本稿では、注目に基づくマルチモーダル融合技術と、アイテム表現の強化とターゲティング能力の向上のための補助的なランキングアラインメントタスクを統合した、 \textbf{A}dvancing \textbf{R}e-Ranking with \textbf{M}ulti\textbf{m}odal Fusion と \textbf{T}arget-Oriented Auxiliary Tasks (ARMMT)を提案する。 この方法は、製品属性の理解を深めるだけでなく、より正確でパーソナライズされたレコメンデーションを可能にします。 JD.comの検索プラットフォーム上での実験的な評価は、ARMMTがマルチモーダル情報統合における最先端のパフォーマンスを達成し、コンバージョンレート(CVR)の0.22倍の上昇によって証明され、Gross Merchandise Volume(GMV)に大きく貢献していることを示している。 この先駆的なアプローチは、Eコマースのリグレードに革命をもたらす可能性を秘めている。

In the rapidly evolving field of e-commerce, the effectiveness of search re-ranking models is crucial for enhancing user experience and driving conversion rates. Despite significant advancements in feature representation and model architecture, the integration of multimodal information remains underexplored. This study addresses this gap by investigating the computation and fusion of textual and visual information in the context of re-ranking. We propose \textbf{A}dvancing \textbf{R}e-Ranking with \textbf{M}ulti\textbf{m}odal Fusion and \textbf{T}arget-Oriented Auxiliary Tasks (ARMMT), which integrates an attention-based multimodal fusion technique and an auxiliary ranking-aligned task to enhance item representation and improve targeting capabilities. This method not only enriches the understanding of product attributes but also enables more precise and personalized recommendations. Experimental evaluations on JD.com's search platform demonstrate that ARMMT achieves state-of-the-art performance in multimodal information integration, evidenced by a 0.22\% increase in the Conversion Rate (CVR), significantly contributing to Gross Merchandise Volume (GMV). This pioneering approach has the potential to revolutionize e-commerce re-ranking, leading to elevated user satisfaction and business growth.
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# RTF-Q:unsupervised domain adaptation based retraining-free Quantization network

RTF-Q: Unsupervised domain adaptation based retraining-free quantization network ( http://arxiv.org/abs/2408.05752v1 )

ライセンス: Link先を確認
Nanyang Du, Chen Tang, Yuan Meng, Zhi Wang, (参考訳) リソース制約のあるエッジデバイス上で、教師なしのドメイン適応を実行することは重要なタスクである。 既存の研究では、エッジデバイスは推論のために異なる計算予算を持つサブネットを使用することができるが、しばしば高価な事前トレーニングを必要とし、モデルのパラメータ精度の冗長性の問題を考慮しない。 本稿では,非教師付きドメイン適応に基づくReTraining-Free Quantized (RTF-Q)ネットワークを提案する。 我々のネットワークは、幅(チャンネル数)、入力解像度、量子化ビット幅の3つの切替可能な次元を持っている。 具体的には、ネットワーク性能に最小限の影響を与えるサブネットディメンションを選択し、Imagenet-1Kでコストと時間を要する事前トレーニングを必要とせずに、公式の重みファイルを直接ロードする。 ネットワークの計算負荷とメモリ使用量をさらに削減するために、量子化対応トレーニングを使用し、全精度ネットワークのビットOPを少なくとも1/16削減する。 我々は、複数の量子化ビット幅に対するサンドウィッチQと呼ばれるトレーニング手法を提案し、複数の量子化サブネットを効率的に訓練することができる。 複数の量子化ビット幅空間を同時にトレーニングし、提案したSandwichQルールを用いることで、単一量子化ビット幅のみを使用する場合と比較してネットワーク性能が向上する。 実験結果から,UDAタスクにおけるSOTA法に匹敵する分類精度を実現し,ネットワークサイズや計算オーバーヘッドを大幅に低減した。 コードはhttps://github.com/dunanyang/RTF-Q.comで入手できる。

Performing unsupervised domain adaptation on resource-constrained edge devices is a significant task. Although existing research allows edge devices to use subnets with different computational budgets for inference, they often require expensive pre-training and do not consider the issues of parameter precision redundancy in the model, which is not conducive to the deployment of the model on edge devices. In this paper, we introduce a ReTraining-Free Quantized (RTF-Q) network based on unsupervised domain adaptation, featuring quantized subnets of varying computational costs that can operate on devices with dynamically changing computation budgets. Our network has three switchable dimensions: width (number of channels), input resolution, and quantization bit-width. Specifically, we choose subnet dimensions that have minimal impact on network performance and then directly load the official weight files without requiring expensive and time-consuming pre-training on Imagenet-1K. To further reduce the network's computational load and memory usage, we use quantization-aware training, reducing the BitOPs of full-precision networks by at least 1/16. We propose a training method called SandwichQ for multiple quantization bit widths, which can efficiently train multiple quantization subnets. By training in multiple quantization bit-width spaces simultaneously and using the proposed SandwichQ rule, we achieve better network performance compared to using a single quantization bit-width alone. Experimental results show that our method achieves classification accuracy comparable to SOTA methods on various UDA tasks, significantly reducing network size and computational overhead. Code will be available at https://github.com/dunanyang/RTF-Q.
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# PreCISe : 不均衡およびスカースデータ設定による説明可能な分類のためのプロトタイプ保存

PRECISe : Prototype-Reservation for Explainable Classification under Imbalanced and Scarce-Data Settings ( http://arxiv.org/abs/2408.05754v1 )

ライセンス: Link先を確認
Vaibhav Ganatra, Drishti Goel, (参考訳) 医用画像分類タスクに使用されるディープラーニングモデルは、厳しいクラス不均衡を伴う訓練データの限られた量によって制約されることが多い。 これらの問題にもかかわらず、モデルは、高リスクな状況においてより広く採用されることを保証するために、モデルの決定に対する人間の信頼を可能にするために説明可能であるべきである。 本稿では,3つの課題すべてに対処するために,簡潔に構築された説明可能な設計モデルであるPreCISeを提案する。 2つの不均衡な医用画像データセットの評価では、PreCISeは、60画像のみのトレーニングで胸部X線肺炎の検出において、約87%の精度で、マイノリティクラスへのデータ効率的な一般化において、現在の最先端の手法よりも優れていることが示されている。 さらに,このモデルが容易に解釈可能な予測を生成できる能力を強調し,医療画像タスクの実用性と信頼性を向上するケーススタディも提示した。

Deep learning models used for medical image classification tasks are often constrained by the limited amount of training data along with severe class imbalance. Despite these problems, models should be explainable to enable human trust in the models' decisions to ensure wider adoption in high-risk situations. In this paper, we propose PRECISe, an explainable-by-design model meticulously constructed to concurrently address all three challenges. Evaluation on 2 imbalanced medical image datasets reveals that PRECISe outperforms the current state-of-the-art methods on data efficient generalization to minority classes, achieving an accuracy of ~87% in detecting pneumonia in chest x-rays upon training on <60 images only. Additionally, a case study is presented to highlight the model's ability to produce easily interpretable predictions, reinforcing its practical utility and reliability for medical imaging tasks.
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# VQ-CTAP:音声処理のためのクロスモーダルファイングレードシーケンス表現学習

VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing ( http://arxiv.org/abs/2408.05758v1 )

ライセンス: Link先を確認
Chunyu Qiang, Wang Geng, Yi Zhao, Ruibo Fu, Tao Wang, Cheng Gong, Tianrui Wang, Qiuyu Liu, Jiangyan Yi, Zhengqi Wen, Chen Zhang, Hao Che, Longbiao Wang, Jianwu Dang, Jianhua Tao, (参考訳) ディープラーニングは、クロスモーダル表現学習の分野に大きな改善をもたらした。 テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、音声モーダルのパラ言語的情報を強調しつつ、テキストモーダルの意味的内容を強調するクロスモーダルな(フレームレベルの)シーケンス表現が望まれる。 本稿では,Vector Quantized Contrastive Token-Acoustic Pre-training (VQ-CTAP) と呼ばれる手法を提案する。 The proposed VQ-CTAP is a paradigm for cross-modal sequence representation learning, provide a promising solution for fine-fine generation and recognition task in speech processing。 VQ-CTAPは細調整や追加構造なしでVCおよびASRタスクに直接適用することができる。 本稿では,TTSタスク用に複数の凍結事前学習モジュールを接続し,プラグイン・アンド・プレイ機能を示すシーケンシャル・アウェア・セマンティックコネクタを提案する。 各種損失成分の影響を徐々に注入・調整することで,効率的なモデル収束を確保するためのステップ最適化戦略を設計する。 さらに,表現能力を向上させるために,意味伝達的パラ言語的整合性損失を提案し,そのモデルが未確認データに対してより一般化し,パラ言語的情報のニュアンスを捕捉できるようにする。 さらに、VQ-CTAPは、サンプリングレートが960倍の24kHz入力波形から25Hzの速度で高圧縮音声符号化を実現する。 オーディオデモはhttps://qiangchunyu.github.io/VQCTAP/で公開されている。

Deep learning has brought significant improvements to the field of cross-modal representation learning. For tasks such as text-to-speech (TTS), voice conversion (VC), and automatic speech recognition (ASR), a cross-modal fine-grained (frame-level) sequence representation is desired, emphasizing the semantic content of the text modality while de-emphasizing the paralinguistic information of the speech modality. We propose a method called "Vector Quantized Contrastive Token-Acoustic Pre-training (VQ-CTAP)", which uses the cross-modal aligned sequence transcoder to bring text and speech into a joint multimodal space, learning how to connect text and speech at the frame level. The proposed VQ-CTAP is a paradigm for cross-modal sequence representation learning, offering a promising solution for fine-grained generation and recognition tasks in speech processing. The VQ-CTAP can be directly applied to VC and ASR tasks without fine-tuning or additional structures. We propose a sequence-aware semantic connector, which connects multiple frozen pre-trained modules for the TTS task, exhibiting a plug-and-play capability. We design a stepping optimization strategy to ensure effective model convergence by gradually injecting and adjusting the influence of various loss components. Furthermore, we propose a semantic-transfer-wise paralinguistic consistency loss to enhance representational capabilities, allowing the model to better generalize to unseen data and capture the nuances of paralinguistic information. In addition, VQ-CTAP achieves high-compression speech coding at a rate of 25Hz from 24kHz input waveforms, which is a 960-fold reduction in the sampling rate. The audio demo is available at https://qiangchunyu.github.io/VQCTAP/
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# 数値の力を解き放つ:数値トークンパーシングによるログ圧縮

Unlocking the Power of Numbers: Log Compression via Numeric Token Parsing ( http://arxiv.org/abs/2408.05760v1 )

ライセンス: Link先を確認
Siyu Yu, Yifan Wu, Ying Li, Pinjia He, (参考訳) 近年, 対数体積の爆発的増加が汎用圧縮機の圧縮性能を損なうため, 対数圧縮機は広く研究されている。 これらのパーサベースの圧縮機は、解析結果に基づいてログをグループ化し、その前処理されたファイルを汎用圧縮機に供給する。 しかし、パーサベースの圧縮機には限界がある。 まず、解析と圧縮の目標が一致していないため、ログ固有の特性は十分に利用されなかった。 さらに、パーサベースの圧縮機の性能はサンプルログに依存するため、非常に不安定である。 さらに、パーサベースの圧縮機は長い処理時間を要することが多い。 これらの制約に対処するため、圧縮率と速度が高い単純で汎用的なログ圧縮機であるDenumを提案する。 コアとなる洞察は、ログのトークンの大部分は数値トークン(純粋数、数字と特殊文字のみを持つトークン、数値変数)であり、それらの効率的な圧縮はログの圧縮に不可欠であるということである。 具体的には、Denumには、すべての数値トークンを抽出し、調整された処理方法(例えば、タイムスタンプのようなインクリメンタルな数値の違いを格納する)を適用する数値トークンパーシングモジュールと、残るログコンテンツを数値なしで処理する文字列処理モジュールが含まれている。 そして、2つのモジュールの処理されたファイルが汎用圧縮機への入力として送られ、最終的な圧縮結果が出力される。 16のログデータセットで評価され、平均圧縮比は8.7%-434.7%、平均圧縮速度は2.6x-37.7倍(26.2MB/S)である。 さらに、DenumのNumeric Token Parsingを既存のログ圧縮機に統合することで、平均圧縮比が11.8%向上し、平均圧縮速度が37%向上する。

Parser-based log compressors have been widely explored in recent years because the explosive growth of log volumes makes the compression performance of general-purpose compressors unsatisfactory. These parser-based compressors preprocess logs by grouping the logs based on the parsing result and then feed the preprocessed files into a general-purpose compressor. However, parser-based compressors have their limitations. First, the goals of parsing and compression are misaligned, so the inherent characteristics of logs were not fully utilized. In addition, the performance of parser-based compressors depends on the sample logs and thus it is very unstable. Moreover, parser-based compressors often incur a long processing time. To address these limitations, we propose Denum, a simple, general log compressor with high compression ratio and speed. The core insight is that a majority of the tokens in logs are numeric tokens (i.e. pure numbers, tokens with only numbers and special characters, and numeric variables) and effective compression of them is critical for log compression. Specifically, Denum contains a Numeric Token Parsing module, which extracts all numeric tokens and applies tailored processing methods (e.g. store the differences of incremental numbers like timestamps), and a String Processing module, which processes the remaining log content without numbers. The processed files of the two modules are then fed as input to a general-purpose compressor and it outputs the final compression results. Denum has been evaluated on 16 log datasets and it achieves an 8.7%-434.7% higher average compression ratio and 2.6x-37.7x faster average compression speed (i.e. 26.2MB/S) compared to the baselines. Moreover, integrating Denum's Numeric Token Parsing into existing log compressors can provide an 11.8% improvement in their average compression ratio and achieve 37% faster average compression speed.
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# ヘテロジニアス領域におけるレーダによる降水量削減のための個人化フェデレーションラーニング

Personalized Federated Learning for improving radar based precipitation nowcasting on heterogeneous areas ( http://arxiv.org/abs/2408.05761v1 )

ライセンス: Link先を確認
Judith Sáinz-Pardo Díaz, María Castrillo, Juraj Bartok, Ignacio Heredia Cachá, Irina Malkin Ondík, Ivan Martynovskyi, Khadijeh Alibabaei, Lisana Berberi, Valentin Kozlov, Álvaro López García, (参考訳) 環境など生活のさまざまな領域におけるデータ生成の増加は、有用なデータ処理と活用のための新しい技術を検討する必要性を強調している。 この文脈において、人工知能技術は、特にディープラーニングモデルを通して、例えば気象レーダーから得られる大量のデータに使用される重要なツールである。 多くの場合、これらのレーダーによって収集された情報は、公開されていないか、異なる機関に属しているため、このデータの分散した性質を扱う必要がある。 本研究では,分散気象レーダ画像に対する,AdapFLと呼ばれる個人用フェデレーション学習アーキテクチャの適用性について述べる。 この目的のために、400kmの直径をカバーする1つの利用可能なレーダーが与えられた場合、捕獲された画像は、4つの異なる連邦のクライアントに不整合に分散されるように分割される。 アダプFLを用いて得られた結果は、各ゾーン、及び、前述した各分布領域の表面の中央部を覆う領域で解析される。 この研究の究極的な目標は、このタイプの学習技術の一般化能力について研究することであり、その外挿は、複数のレーダーが利用可能であり、技術的、法的、行政的な懸念からデータが集中できないユースケースに対するものである。 予備研究の結果,AdapFLアプローチにより各ゾーンで得られた性能は,連携学習アプローチ,個別深層学習モデル,古典連続追跡レーダエコーの相関手法による結果を改善することが示唆された。

The increasing generation of data in different areas of life, such as the environment, highlights the need to explore new techniques for processing and exploiting data for useful purposes. In this context, artificial intelligence techniques, especially through deep learning models, are key tools to be used on the large amount of data that can be obtained, for example, from weather radars. In many cases, the information collected by these radars is not open, or belongs to different institutions, thus needing to deal with the distributed nature of this data. In this work, the applicability of a personalized federated learning architecture, which has been called adapFL, on distributed weather radar images is addressed. To this end, given a single available radar covering 400 km in diameter, the captured images are divided in such a way that they are disjointly distributed into four different federated clients. The results obtained with adapFL are analyzed in each zone, as well as in a central area covering part of the surface of each of the previously distributed areas. The ultimate goal of this work is to study the generalization capability of this type of learning technique for its extrapolation to use cases in which a representative number of radars is available, whose data can not be centralized due to technical, legal or administrative concerns. The results of this preliminary study indicate that the performance obtained in each zone with the adapFL approach allows improving the results of the federated learning approach, the individual deep learning models and the classical Continuity Tracking Radar Echoes by Correlation approach.
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# 分散グラフクラスタリングのためのスケーラブルで適応的なスペクトル埋め込み

Scalable and Adaptive Spectral Embedding for Attributed Graph Clustering ( http://arxiv.org/abs/2408.05765v1 )

ライセンス: Link先を確認
Yunhui Liu, Tieke He, Qing Wu, Tao Zheng, Jianhua Zhao, (参考訳) 属性グラフのノードを非結合クラスタにグループ化することを目的とした分散グラフクラスタリングは,近年,有望な進歩を遂げている。 しかし、既存のほとんどの手法は、高価な計算コストと高いメモリ使用量のために、大きなグラフに適用する際の課題に直面している。 本稿では,パラメータ学習を伴わない単純な属性グラフクラスタリング手法であるScalable and Adaptive Spectral Embedding (SASE)を紹介する。 SASEは3つの主要なコンポーネントで構成されている。ノード機能は$k$の単純なグラフ畳み込み、ランダムなフーリエ機能を使ったスケーラブルなスペクトルクラスタリング、適応順序選択である。 これらの設計により、SASEはグローバルクラスタ構造を効果的にキャプチャするだけでなく、グラフサイズに対して線形時間と空間の複雑さを示す。 経験的結果はSASEの優位性を示している。 例えば、169Kノードと1.17Mエッジを持つArXivデータセットでは、SASEはACCの6.9\%の改善と、ランナーアップであるS3GCと比較して5.87\times$スピードアップを実現している。

Attributed graph clustering, which aims to group the nodes of an attributed graph into disjoint clusters, has made promising advancements in recent years. However, most existing methods face challenges when applied to large graphs due to the expensive computational cost and high memory usage. In this paper, we introduce Scalable and Adaptive Spectral Embedding (SASE), a simple attributed graph clustering method devoid of parameter learning. SASE comprises three main components: node features smoothing via $k$-order simple graph convolution, scalable spectral clustering using random Fourier features, and adaptive order selection. With these designs, SASE not only effectively captures global cluster structures but also exhibits linear time and space complexity relative to the graph size. Empirical results demonstrate the superiority of SASE. For example, on the ArXiv dataset with 169K nodes and 1.17M edges, SASE achieves a 6.9\% improvement in ACC and a $5.87\times$ speedup compared to the runner-up, S3GC.
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# 大規模視線モデルに対する基準自由幻覚検出

Reference-free Hallucination Detection for Large Vision-Language Models ( http://arxiv.org/abs/2408.05767v1 )

ライセンス: Link先を確認
Qing Li, Chenyang Lyu, Jiahui Geng, Derui Zhu, Maxim Panov, Fakhri Karray, (参考訳) 大規模視覚言語モデル(LVLM)は近年大きな進歩を遂げている。 LVLMは、言語理解、質問応答、視覚入力の会話において優れた能力を示すが、幻覚を生み出す傾向にある。 LVLMの幻覚を評価するためにいくつかの手法が提案されているが、そのほとんどは参照ベースであり、その実際的な応用を複雑にする外部ツールに依存している。 代替手法の有効性を評価するためには,外部ツールに依存しない参照フリーアプローチが幻覚を効果的に検出できるかどうかを理解することが重要である。 そこで本研究では,LVLMの幻覚検出における参照不要解の有効性を明らかにするために,探索的研究を開始した。 特に、不確実性ベース、一貫性ベース、および2つの異なるタスクにまたがる4つの代表的なLVLMに対する教師付き不確実性定量化手法の3種類の技術について広範な研究を行う。 実験結果から,LVLMの非実効応答を効果的に検出可能な基準フリー手法が得られた。

Large vision-language models (LVLMs) have made significant progress in recent years. While LVLMs exhibit excellent ability in language understanding, question answering, and conversations of visual inputs, they are prone to producing hallucinations. While several methods are proposed to evaluate the hallucinations in LVLMs, most are reference-based and depend on external tools, which complicates their practical application. To assess the viability of alternative methods, it is critical to understand whether the reference-free approaches, which do not rely on any external tools, can efficiently detect hallucinations. Therefore, we initiate an exploratory study to demonstrate the effectiveness of different reference-free solutions in detecting hallucinations in LVLMs. In particular, we conduct an extensive study on three kinds of techniques: uncertainty-based, consistency-based, and supervised uncertainty quantification methods on four representative LVLMs across two different tasks. The empirical results show that the reference-free approaches are capable of effectively detecting non-factual responses in LVLMs, with the supervised uncertainty quantification method outperforming the others, achieving the best performance across different settings.
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# LI-TTA:自動音声認識のための言語インフォームドテスト時間適応

LI-TTA: Language Informed Test-Time Adaptation for Automatic Speech Recognition ( http://arxiv.org/abs/2408.05769v1 )

ライセンス: Link先を確認
Eunseop Yoon, Hee Suk Yoon, John Harvill, Mark Hasegawa-Johnson, Chang D. Yoo, (参考訳) TTA(Test-Time Adaptation)は、ドメインシフトの問題に対する重要な解決策として現れ、ターゲット環境が元のトレーニング環境から分離する。 素例は、自己超越信号として出力予測エントロピー最小化を活用することにより、モデル性能を向上させる自動音声認識(ASR)のためのTTAである。 しかし、この自己超越の鍵となる限界は、入力の言語的特性に最小限の注意を払って、音響的特徴に焦点をあてることにある。 このギャップに対処するため,言語インフォームドテスト時間適応(Language Informed Test-Time Adaptation, LI-TTA)を提案する。 LI-TTAは、外部言語モデルからの補正を統合し、標準のTTA損失と並行して補正によるCTC損失を最小化することにより、言語情報と音響情報とをマージする。 LI-TTAは,様々な分散シフト状況において,ASRにおけるTTAの性能を効果的に向上することを示す。

Test-Time Adaptation (TTA) has emerged as a crucial solution to the domain shift challenge, wherein the target environment diverges from the original training environment. A prime exemplification is TTA for Automatic Speech Recognition (ASR), which enhances model performance by leveraging output prediction entropy minimization as a self-supervision signal. However, a key limitation of this self-supervision lies in its primary focus on acoustic features, with minimal attention to the linguistic properties of the input. To address this gap, we propose Language Informed Test-Time Adaptation (LI-TTA), which incorporates linguistic insights during TTA for ASR. LI-TTA integrates corrections from an external language model to merge linguistic with acoustic information by minimizing the CTC loss from the correction alongside the standard TTA loss. With extensive experiments, we show that LI-TTA effectively improves the performance of TTA for ASR in various distribution shift situations.
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# HOIの分析 : テストセットのみ使用可能なマルチモーダル視覚基盤モデルを用いたトレーニングフリー手法

An analysis of HOI: using a training-free method with multimodal visual foundation models when only the test set is available, without the training set ( http://arxiv.org/abs/2408.05772v1 )

ライセンス: Link先を確認
Chaoyi Ai, (参考訳) Human-Object Interaction (HOI)は、画像中の人間とオブジェクトのペアを特定し、それらの関係を認識し、最終的に$\langle human, object, verb \rangle$ triletsを形成することを目的としている。 デフォルト設定下では、HOIパフォーマンスはほぼ飽和しており、長い尾の分布とゼロショット/フェーショットシナリオに多くの研究が焦点を当てている。 トレーニングなしでテストデータセットだけがあれば、マルチモーダルなビジュアルファンデーションモデルをトレーニングなしで利用できますか? この研究では、真理とランダムな任意の組み合わせの2つの実験的な設定を使用します。 興味深い結論が得られ、マルチモーダル視覚基盤モデルのオープン語彙能力はまだ完全には実現されていない。 さらに、特徴抽出を接地DINOに置き換えることにより、これらの発見がさらに確認される。

Human-Object Interaction (HOI) aims to identify the pairs of humans and objects in images and to recognize their relationships, ultimately forming $\langle human, object, verb \rangle$ triplets. Under default settings, HOI performance is nearly saturated, with many studies focusing on long-tail distribution and zero-shot/few-shot scenarios. Let us consider an intriguing problem:``What if there is only test dataset without training dataset, using multimodal visual foundation model in a training-free manner? '' This study uses two experimental settings: grounding truth and random arbitrary combinations. We get some interesting conclusion and find that the open vocabulary capabilities of the multimodal visual foundation model are not yet fully realized. Additionally, replacing the feature extraction with grounding DINO further confirms these findings.
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# ルールマイニングのためのニューロシンボリック手法

Neurosymbolic Methods for Rule Mining ( http://arxiv.org/abs/2408.05773v1 )

ライセンス: Link先を確認
Agnieszka Lawrynowicz, Luis Galarraga, Mehwish Alam, Berenice Jaulmes, Vaclav Zeman, Tomas Kliegr, (参考訳) 本章では,ルール・マイニングの課題について,ルール・クオリティの尺度を含む基本的な背景情報から考察する。 次に、帰納論理プログラミング、経路サンプリングと一般化、線形プログラミングの3つのグループに分類されるルールマイニング手法について検討する。 その後、我々はニューロシンボリックな手法を探求し、深層学習とルールの統合、ルール学習への埋め込みの使用、ルール学習における大規模言語モデルの適用などについて論じる。

In this chapter, we address the problem of rule mining, beginning with essential background information, including measures of rule quality. We then explore various rule mining methodologies, categorized into three groups: inductive logic programming, path sampling and generalization, and linear programming. Following this, we delve into neurosymbolic methods, covering topics such as the integration of deep learning with rules, the use of embeddings for rule learning, and the application of large language models in rule learning.
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# 視覚言語モデルのための効率的なテスト時間プロンプトチューニング

Efficient Test-Time Prompt Tuning for Vision-Language Models ( http://arxiv.org/abs/2408.05775v1 )

ライセンス: Link先を確認
Yuhan Zhu, Guozhen Zhang, Chen Xu, Haocheng Shen, Xiaoxin Chen, Gangshan Wu, Limin Wang, (参考訳) 視覚言語モデルは、適切なテキストプロンプトを備えた場合、印象的なゼロショット分類機能を示した。 従来の研究では、テスト時間プロンプトチューニングの有効性が示されているが、これらの手法は通常、推論中に画像ごとのプロンプト適応を必要とし、高い計算予算を発生させ、スケーラビリティと実用的な展開を制限する。 この問題を克服するために,自己教師型学習を有効活用する新しいフレームワークであるSelf-TPTを紹介した。 Self-TPTのキーとなる側面は、自己教師付き学習による効率的な事前定義されたクラス適応に転換し、推論における計算量の多い画像ごとの適応を避けることである。 自己TPTは、ソースデータを用いて自己教師付きタスクと分類タスクを共同でトレーニングし、テストタイムの新しいクラス適応にのみ自己教師付きタスクを適用する。 具体的には,Contrastive Prompt Learning (CPT) を自己監督の鍵となる課題として提案する。 CPTは、クラス内距離を最小限に抑えつつ、コントラスト学習によるクラス間識別性を向上するように設計されている。 さらに、実証的な証拠は、CPTが分類タスクのバックプロパゲート勾配を忠実に模倣し、その効果のもっともらしい説明を提供することを示唆している。 この発見により、勾配類似性を明示的に向上する勾配マッチング損失も導入した。 我々は3つの挑戦的なゼロショットベンチマークでSelf-TPTを評価した。 その結果,Self-TPTは推論コストを大幅に削減するだけでなく,最先端のパフォーマンスを実現し,効率効率のトレードオフを効果的に両立させることができた。

Vision-language models have showcased impressive zero-shot classification capabilities when equipped with suitable text prompts. Previous studies have shown the effectiveness of test-time prompt tuning; however, these methods typically require per-image prompt adaptation during inference, which incurs high computational budgets and limits scalability and practical deployment. To overcome this issue, we introduce Self-TPT, a novel framework leveraging Self-supervised learning for efficient Test-time Prompt Tuning. The key aspect of Self-TPT is that it turns to efficient predefined class adaptation via self-supervised learning, thus avoiding computation-heavy per-image adaptation at inference. Self-TPT begins by co-training the self-supervised and the classification task using source data, then applies the self-supervised task exclusively for test-time new class adaptation. Specifically, we propose Contrastive Prompt Learning (CPT) as the key task for self-supervision. CPT is designed to minimize the intra-class distances while enhancing inter-class distinguishability via contrastive learning. Furthermore, empirical evidence suggests that CPT could closely mimic back-propagated gradients of the classification task, offering a plausible explanation for its effectiveness. Motivated by this finding, we further introduce a gradient matching loss to explicitly enhance the gradient similarity. We evaluated Self-TPT across three challenging zero-shot benchmarks. The results consistently demonstrate that Self-TPT not only significantly reduces inference costs but also achieves state-of-the-art performance, effectively balancing the efficiency-efficacy trade-off.
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# Seg-CycleGAN : SAR-to-optical image translation by a downstream task

Seg-CycleGAN : SAR-to-optical image translation guided by a downstream task ( http://arxiv.org/abs/2408.05777v1 )

ライセンス: Link先を確認
Hannuo Zhang, Huihui Li, Jiarui Lin, Yujie Zhang, Jianghua Fan, Hang Liu, (参考訳) 光リモートセンシングと合成開口レーダ(SAR)リモートセンシングは地球観測に不可欠であり、補完機能を備えている。 光センサーは高品質な画像を提供するが、天候や照明条件によって制限される。 対照的に、SARセンサは、悪条件下で効果的に動作することができる。 本文は,Seg-CycleGANという,GANをベースとしたSAR-to-optical image translation法を提案する。 本手法は,船の目標セマンティックセグメンテーションの下流タスクを利用して,画像翻訳ネットワークのトレーニングを指導し,出力された光学式画像の品質を向上させる。 SAR-to-optical Translationタスクにおける基礎モデルアノテーション付きデータセットの可能性を明らかにする。 この研究は、ダウンストリームタスク誘導フレームワークの幅広い研究と応用を示唆している。 コードはhttps://github.com/NPULHH/で入手できる。

Optical remote sensing and Synthetic Aperture Radar(SAR) remote sensing are crucial for earth observation, offering complementary capabilities. While optical sensors provide high-quality images, they are limited by weather and lighting conditions. In contrast, SAR sensors can operate effectively under adverse conditions. This letter proposes a GAN-based SAR-to-optical image translation method named Seg-CycleGAN, designed to enhance the accuracy of ship target translation by leveraging semantic information from a pre-trained semantic segmentation model. Our method utilizes the downstream task of ship target semantic segmentation to guide the training of image translation network, improving the quality of output Optical-styled images. The potential of foundation-model-annotated datasets in SAR-to-optical translation tasks is revealed. This work suggests broader research and applications for downstream-task-guided frameworks. The code will be available at https://github.com/NPULHH/
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# 多目的最適化におけるパレート前方形状非依存パレート集合学習

Pareto Front Shape-Agnostic Pareto Set Learning in Multi-Objective Optimization ( http://arxiv.org/abs/2408.05778v1 )

ライセンス: Link先を確認
Rongguang Ye, Longcan Chen, Wei-Bin Kou, Jinyuan Zhang, Hisao Ishibuchi, (参考訳) Pareto set learning (PSL) は、多目的最適化問題の完全なPareto集合を得るための新しいアプローチである。 既存の方法は主に、目的空間における選好ベクトルのパレート最適解への写像に依存する。 しかし、理論上、選好ベクトルのサンプリングはPSL法の性能を確保するためにパレート前方形状の事前知識を必要とする。 好みベクトルのサンプリング戦略を設計することは、パレート前方形状を事前に知ることができないため困難である。 パレート集合学習を任意のパレート前方形状で効果的に行うために,パレート前方形状に依存しないパレート集合学習(GPSL)を提案する。 GPSLの背後にある基本的な概念は、パレート集合の学習を分布変換問題として扱うことである。 具体的には、GPSLは任意の分布をパレート集合分布に変換することができる。 ハイパーボリュームの最大化によるニューラルネットワークのトレーニングは、分散変換のプロセスを可能にすることを実証する。 提案手法は, 事前知識を必要とせずに, パレート前面の任意の形状を処理し, パレート集合を学習することができる。 実験結果から,提案手法の多種多様なテスト問題に対する性能が,最近のPareto集合学習アルゴリズムと比較された。

Pareto set learning (PSL) is an emerging approach for acquiring the complete Pareto set of a multi-objective optimization problem. Existing methods primarily rely on the mapping of preference vectors in the objective space to Pareto optimal solutions in the decision space. However, the sampling of preference vectors theoretically requires prior knowledge of the Pareto front shape to ensure high performance of the PSL methods. Designing a sampling strategy of preference vectors is difficult since the Pareto front shape cannot be known in advance. To make Pareto set learning work effectively in any Pareto front shape, we propose a Pareto front shape-agnostic Pareto Set Learning (GPSL) that does not require the prior information about the Pareto front. The fundamental concept behind GPSL is to treat the learning of the Pareto set as a distribution transformation problem. Specifically, GPSL can transform an arbitrary distribution into the Pareto set distribution. We demonstrate that training a neural network by maximizing hypervolume enables the process of distribution transformation. Our proposed method can handle any shape of the Pareto front and learn the Pareto set without requiring prior knowledge. Experimental results show the high performance of our proposed method on diverse test problems compared with recent Pareto set learning algorithms.
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# U-DECN:Denoising Trainingを改良した水中物体検出ネットワーク

U-DECN: End-to-End Underwater Object Detection ConvNet with Improved DeNoising Training ( http://arxiv.org/abs/2408.05780v1 )

ライセンス: Link先を確認
Zhuoyan Liu, Bo Wang, Ye Li, (参考訳) 水中物体検出は、特定の環境問題により、検出器の走行速度と展開効率の要求が高い。 2段または1段のオブジェクト検出器のNMSとクエリベースのエンドツーエンドオブジェクト検出器のトランスフォーマーアーキテクチャは、処理能力に制限のある水中組み込みデバイスへのデプロイには適していない。 水中のカラーキャストノイズによる有害な影響については、最近の水中物体検知器はネットワークアーキテクチャや訓練の複雑化を防ぎ、水中車両プラットフォームへの適用と展開を妨げている。 本稿では,上述した問題に対処する水中カラーキャストノイズに対して,問合せに基づくエンドツーエンドオブジェクト検出器(ConvNetエンコーダ・デコーダアーキテクチャ)であるDenoising Training(U-DECN)を改良した水中DECを提案する。 我々は, DETR の派生技術から DECO へ統合し, SIM における分離コントラスト・デノイング・フォワードやデフォルム・コンボリュータ・コンボリュータを含む ConvNet アーキテクチャに特化した最適化手法を設計する。 水中のカラーキャストノイズ問題に対処するため,異なるカラーキャストノイズによる偏りのある物体特徴情報のモデルの一般化を改善するために,水中のカラーキャストノイズクエリを提案する。 我々のU-DECNはResNet-50のバックボーンで、61.4 AP (50 epochs)、63.3 AP (72 epochs)、64.0 AP (100 epochs)、NVIDIA AGX OrinのTensorRT FP16による21 FPS (Deformable DETRおよびDINO 4 FPSの5倍速い)を達成し、他の最先端のクエリベースのエンドツーエンドオブジェクト検出器よりも優れています。 コードはhttps://github.com/LEFTeyex/U-DECN.comで公開されている。

Underwater object detection has higher requirements of running speed and deployment efficiency for the detector due to its specific environmental challenges. NMS of two- or one-stage object detectors and transformer architecture of query-based end-to-end object detectors are not conducive to deployment on underwater embedded devices with limited processing power. As for the detrimental effect of underwater color cast noise, recent underwater object detectors make network architecture or training complex, which also hinders their application and deployment on underwater vehicle platforms. In this paper, we propose the Underwater DECO with improved deNoising training (U-DECN), the query-based end-to-end object detector (with ConvNet encoder-decoder architecture) for underwater color cast noise that addresses the above problems. We integrate advanced technologies from DETR variants into DECO and design optimization methods specifically for the ConvNet architecture, including Separate Contrastive DeNoising Forward and Deformable Convolution in SIM. To address the underwater color cast noise issue, we propose an underwater color denoising query to improve the generalization of the model for the biased object feature information by different color cast noise. Our U-DECN, with ResNet-50 backbone, achieves 61.4 AP (50 epochs), 63.3 AP (72 epochs), 64.0 AP (100 epochs) on DUO, and 21 FPS (5 times faster than Deformable DETR and DINO 4 FPS) on NVIDIA AGX Orin by TensorRT FP16, outperforming the other state-of-the-art query-based end-to-end object detectors. The code is available at https://github.com/LEFTeyex/U-DECN.
翻訳日:2024-08-13 15:37:52 公開日:2024-08-11
# CURLing the Dream: Reinforcement Learningにおける世界モデリングの対照的な表現

CURLing the Dream: Contrastive Representations for World Modeling in Reinforcement Learning ( http://arxiv.org/abs/2408.05781v1 )

ライセンス: Link先を確認
Victor Augusto Kich, Jair Augusto Bottega, Raul Steinmetz, Ricardo Bedin Grando, Ayano Yorozu, Akihisa Ohya, (参考訳) 本稿では,DreamerV3フレームワークにコントラスト学習を統合した新しい強化学習アルゴリズムであるCurled-Dreamerを紹介する。 CURLアルゴリズムからの対照的な損失とオートエンコーダからの再構成損失を取り入れることで、Curled-DreamerはDeepMind Control Suiteタスクにおいて大幅な改善を実現している。 我々の広範な実験により、Curled-Dreamerは最先端のアルゴリズムを一貫して上回り、さまざまなタスクセットの平均と中央値のスコアを達成している。 その結果,提案手法は学習を促進させるだけでなく,学習方針の堅牢性を高めることが示唆された。 この研究は、強化学習アプリケーションにおいて優れた性能を達成するために、異なる学習パラダイムを組み合わせる可能性を強調している。

In this work, we present Curled-Dreamer, a novel reinforcement learning algorithm that integrates contrastive learning into the DreamerV3 framework to enhance performance in visual reinforcement learning tasks. By incorporating the contrastive loss from the CURL algorithm and a reconstruction loss from autoencoder, Curled-Dreamer achieves significant improvements in various DeepMind Control Suite tasks. Our extensive experiments demonstrate that Curled-Dreamer consistently outperforms state-of-the-art algorithms, achieving higher mean and median scores across a diverse set of tasks. The results indicate that the proposed approach not only accelerates learning but also enhances the robustness of the learned policies. This work highlights the potential of combining different learning paradigms to achieve superior performance in reinforcement learning applications.
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# HiLight: 階層的な局所的コントラスト学習を備えた階層的光グローバルモデル

HiLight: A Hierarchy-aware Light Global Model with Hierarchical Local ConTrastive Learning ( http://arxiv.org/abs/2408.05786v1 )

ライセンス: Link先を確認
Zhijian Chen, Zhonghua Li, Jianxin Yang, Ye Qi, (参考訳) 階層的テキスト分類 (HTC) はマルチラベル分類(MLC)の特別なサブタスクであり、分類は木として構築され、各サンプルは木内の少なくとも1つの経路に割り当てられる。 最新のHTCモデルには、テキストエンコーダ、構造エンコーダ、マルチラベル分類ヘッドの3つのモジュールが含まれている。 特に、構造エンコーダは分類学の階層をエンコードするように設計されている。 しかし、構造エンコーダにはスケールの問題がある。 分類学の規模が大きくなるにつれて、最近のHTCの学習可能なパラメータは急速に増加する。 再帰正則化(Recursive regularization)は階層的情報を導入するために広く使われている手法であるが、崩壊問題があり、一般には小さな重みを割り当てることによって緩和される(すなわち1e-6)。 本稿では,テキストエンコーダとマルチラベル分類ヘッドのみからなる軽量かつ効率的なグローバルモデルである階層的局所的コントラスト学習(HiLight)を用いた階層型光グローバルモデルを提案する。 階層型局所コントラスト学習(HiLCL)と呼ばれる階層型情報を導入するための新しい学習課題を提案する。 本モデルの有効性を示すために,2つのベンチマークデータセットを用いて大規模な実験を行った。

Hierarchical text classification (HTC) is a special sub-task of multi-label classification (MLC) whose taxonomy is constructed as a tree and each sample is assigned with at least one path in the tree. Latest HTC models contain three modules: a text encoder, a structure encoder and a multi-label classification head. Specially, the structure encoder is designed to encode the hierarchy of taxonomy. However, the structure encoder has scale problem. As the taxonomy size increases, the learnable parameters of recent HTC works grow rapidly. Recursive regularization is another widely-used method to introduce hierarchical information but it has collapse problem and generally relaxed by assigning with a small weight (ie. 1e-6). In this paper, we propose a Hierarchy-aware Light Global model with Hierarchical local conTrastive learning (HiLight), a lightweight and efficient global model only consisting of a text encoder and a multi-label classification head. We propose a new learning task to introduce the hierarchical information, called Hierarchical Local Contrastive Learning (HiLCL). Extensive experiments are conducted on two benchmark datasets to demonstrate the effectiveness of our model.
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# 配電系統のニューラルネットワーク状態推定におけるゼロショット学習について

On zero-shot learning in neural state estimation of power distribution systems ( http://arxiv.org/abs/2408.05787v1 )

ライセンス: Link先を確認
Aleksandr Berezin, Stephan Balduin, Thomas Oberließen, Sebastian Peter, Eric MSP Veith, (参考訳) 本稿では,配電系統におけるニューラル状態推定の課題に対処する。 センサの喪失や分岐切替などの電力網の変化に適応できないモデルが存在しないことによる、現在の最先端研究における研究ギャップを特定した。 我々の実験は、グラフニューラルネットワークがこのユースケースにおいて最も有望なモデルであり、その性能がスケールで劣化することを示した。 ニューラル状態推定において、一般的なゼロショット学習シナリオに対して、この問題を緩和し、異なるモデル構成の網羅的なグリッド検索を行うことを提案する。

This paper addresses the challenge of neural state estimation in power distribution systems. We identified a research gap in the current state of the art, which lies in the inability of models to adapt to changes in the power grid, such as loss of sensors and branch switching. Our experiments demonstrate that graph neural networks are the most promising models for this use case and that their performance can degrade with scale. We propose augmentations to remedy this issue and perform a comprehensive grid search of different model configurations for common zero-shot learning scenarios in neural state estimation.
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# 非線形独立表現の連続学習

Continual Learning of Nonlinear Independent Representations ( http://arxiv.org/abs/2408.05788v1 )

ライセンス: Link先を確認
Boyang Sun, Ignavier Ng, Guangyi Chen, Yifan Shen, Qirong Ho, Kun Zhang, (参考訳) 興味のある変数間の因果関係を特定することは、データセットに対する深い洞察を提供するため、表現学習において重要な役割を果たす。 このアプローチの中心的なテーマである識別可能性は通常、複数のディストリビューション(インターベンション、分散シフト、時系列など)のデータを活用することに重点を置いています。 この分野でのエキサイティングな展開にもかかわらず、実際は見過ごされがちな問題は次のとおりである。 対照的に、あらゆる知性は、学習した知識を逐次的に抽象化し、洗練する能力を持っている。 本稿では,非線型独立成分分析(ICA)フレームワークに特化して,連続因果表現学習(continuousal causal representation learning)と呼ばれる連続的な方法で意味のある(識別可能な)表現を学習できるモデルの実現という課題に向けて一歩前進する。 理論的には、分布の数が増加するにつれて、モデル識別可能性がサブスペースレベルからコンポーネントワイドレベルへと進むことが示される。 実験により,本手法は複数のオフライン分布に対して協調的に学習した非線形ICA法に匹敵する性能を達成できることを示す。

Identifying the causal relations between interested variables plays a pivotal role in representation learning as it provides deep insights into the dataset. Identifiability, as the central theme of this approach, normally hinges on leveraging data from multiple distributions (intervention, distribution shift, time series, etc.). Despite the exciting development in this field, a practical but often overlooked problem is: what if those distribution shifts happen sequentially? In contrast, any intelligence possesses the capacity to abstract and refine learned knowledge sequentially -- lifelong learning. In this paper, with a particular focus on the nonlinear independent component analysis (ICA) framework, we move one step forward toward the question of enabling models to learn meaningful (identifiable) representations in a sequential manner, termed continual causal representation learning. We theoretically demonstrate that model identifiability progresses from a subspace level to a component-wise level as the number of distributions increases. Empirically, we show that our method achieves performance comparable to nonlinear ICA methods trained jointly on multiple offline distributions and, surprisingly, the incoming new distribution does not necessarily benefit the identification of all latent variables.
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# SAGA:複雑事象のより深い理解のためのストーリー代替案とゴール適用性の検討

SAGA: A Participant-specific Examination of Story Alternatives and Goal Applicability for a Deeper Understanding of Complex Events ( http://arxiv.org/abs/2408.05793v1 )

ライセンス: Link先を確認
Sai Vallurupalli, Katrin Erk, Francis Ferraro, (参考訳) 複雑なイベントに対する理解と推論には、目標駆動行動の解釈と評価が不可欠です。 この理解に必要な知識を習得できることは重要ですが、それは難しいことです。 このような知識は参加者達成レンズを通じて引き出すことができると我々は主張する。 我々は,その物語における参加者の意図した成果,参加者の今後の行動,そして目標達成の可能性に応じて,物語における複雑な出来事を分析する。 我々は、提案した参加者達成レンズを反映した6.3Kの高品質な目標とアクションアノテーションを収集し、平均重み付きFleiss-Kappa IAAは80%である。 私たちのコレクションには、各物語の注釈付きの別バージョンが含まれています。 これらの代替バージョンは、"オリジナル"ストーリーと最小限に異なるが、大幅に異なる推論をライセンスすることができる。 我々の研究結果によると、現代の大規模言語モデルは、私たちが研究しているゴールベース知識の一部を反映できるが、モデル事前学習にゴール知識を抽出したデータが含まれていたとしても、協調行動の背後にある設計と意図を完全に把握することは困難である。 データセットに微調整された小さなモデルでは、より大きなモデルを上回るパフォーマンスが得られることを示す。

Interpreting and assessing goal driven actions is vital to understanding and reasoning over complex events. It is important to be able to acquire the knowledge needed for this understanding, though doing so is challenging. We argue that such knowledge can be elicited through a participant achievement lens. We analyze a complex event in a narrative according to the intended achievements of the participants in that narrative, the likely future actions of the participants, and the likelihood of goal success. We collect 6.3K high quality goal and action annotations reflecting our proposed participant achievement lens, with an average weighted Fleiss-Kappa IAA of 80%. Our collection contains annotated alternate versions of each narrative. These alternate versions vary minimally from the "original" story, but can license drastically different inferences. Our findings suggest that while modern large language models can reflect some of the goal-based knowledge we study, they find it challenging to fully capture the design and intent behind concerted actions, even when the model pretraining included the data from which we extracted the goal knowledge. We show that smaller models fine-tuned on our dataset can achieve performance surpassing larger models.
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# HateSieve:マルチモーダルミームにおけるHatefulコンテンツの検出とセグメンテーションのためのコントラスト学習フレームワーク

HateSieve: A Contrastive Learning Framework for Detecting and Segmenting Hateful Content in Multimodal Memes ( http://arxiv.org/abs/2408.05794v1 )

ライセンス: Link先を確認
Xuanyu Su, Yansong Li, Diana Inkpen, Nathalie Japkowicz, (参考訳) 大規模マルチモーダルモデル(LMM)の台頭と、それらが複雑なコンテンツの生成と解釈に広く応用されている中、偏見や有害なミームの伝播のリスクは依然として大きい。 現在の安全対策は、‘共同創業者ミーム’内で微妙に統合されたヘイトフルなコンテンツを検出するのに失敗することが多い。 これを解決するために、ミーム内の憎しみのある要素の検出とセグメンテーションを強化するために設計された新しいフレームワークである \textsc{HateSieve} を紹介する。 \textsc{HateSieve}は、意味的にペア化されたミームを生成する新しいContrastive Meme Generator、コントラスト学習用にカスタマイズされたトリプルデータセット、正確なミームセグメンテーションのためにコンテキスト認識の埋め込みを生成するImage-Text Alignmentモジュールを備えている。 Hateful Meme Datasetの実証実験によると、‘textsc{HateSieve} はトレーニング可能なパラメータを少なくして既存の LMM を上回るだけでなく、ヘイトフルコンテンツを正確に識別し分離するための堅牢なメカニズムも提供する。 \textcolor{red}{Caution: ヘイトスピーチの学術的な議論を含む。 ※

Amidst the rise of Large Multimodal Models (LMMs) and their widespread application in generating and interpreting complex content, the risk of propagating biased and harmful memes remains significant. Current safety measures often fail to detect subtly integrated hateful content within ``Confounder Memes''. To address this, we introduce \textsc{HateSieve}, a new framework designed to enhance the detection and segmentation of hateful elements in memes. \textsc{HateSieve} features a novel Contrastive Meme Generator that creates semantically paired memes, a customized triplet dataset for contrastive learning, and an Image-Text Alignment module that produces context-aware embeddings for accurate meme segmentation. Empirical experiments on the Hateful Meme Dataset show that \textsc{HateSieve} not only surpasses existing LMMs in performance with fewer trainable parameters but also offers a robust mechanism for precisely identifying and isolating hateful content. \textcolor{red}{Caution: Contains academic discussions of hate speech; viewer discretion advised.}
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# トポロジカルリファインメントを用いたインターリーブタスクと運動計画のためのメタエンジンフレームワーク

A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements ( http://arxiv.org/abs/2408.05795v1 )

ライセンス: Link先を確認
Elisa Tosello, Alessandro Valentini, Andrea Micheli, (参考訳) タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、英: Task And Motion Planning、TAMP)は、低レベル連続運動によって実行可能な個別動作を含む自動計画問題の解決策を見つける問題である。 この分野は、現実の応用におけるロボットの自律性を大幅に向上させるため、ロボットコミュニティ内での関心が高まっている。 多くの解や定式化が存在するが、明確な標準表現は存在しない。 本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。 さらに、移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。 このアプローチにより、任意のオフザシェルフタスクプランナーとモーションプランナーを使用でき、また、運動プランナーの探索空間の幾何学的解析を利用してタスクプランナーの探索を誘発し、その効率を高めることができる。 また,このメタエンジンをインクリメンタル SMT ベースのプランナーに適用する方法について述べる。 我々は,ロボットが移動障害のある環境をナビゲートする必要がある複雑性の増大というベンチマーク問題に対して,我々のアプローチの有効性を実証する。 最後に、最先端のTAMPアルゴリズムを私たちのフレームワークに統合し、そのパフォーマンスと成果を比較します。

Task And Motion Planning (TAMP) is the problem of finding a solution to an automated planning problem that includes discrete actions executable by low-level continuous motions. This field is gaining increasing interest within the robotics community, as it significantly enhances robot's autonomy in real-world applications. Many solutions and formulations exist, but no clear standard representation has emerged. In this paper, we propose a general and open-source framework for modeling and benchmarking TAMP problems. Moreover, we introduce an innovative meta-technique to solve TAMP problems involving moving agents and multiple task-state-dependent obstacles. This approach enables using any off-the-shelf task planner and motion planner while leveraging a geometric analysis of the motion planner's search space to prune the task planner's exploration, enhancing its efficiency. We also show how to specialize this meta-engine for the case of an incremental SMT-based planner. We demonstrate the effectiveness of our approach across benchmark problems of increasing complexity, where robots must navigate environments with movable obstacles. Finally, we integrate state-of-the-art TAMP algorithms into our framework and compare their performance with our achievements.
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# タンパ湾における嵐サージ予測のための畳み込みニューラルネットワークと繰り返しニューラルネットワークの比較検討

A Comparative Study of Convolutional and Recurrent Neural Networks for Storm Surge Prediction in Tampa Bay ( http://arxiv.org/abs/2408.05797v1 )

ライセンス: Link先を確認
Mandana Farhang Ghahfarokhi, Seyed Hossein Sonbolestan, Mahta Zamanizadeh, (参考訳) 本稿では,3つのディープラーニングアーキテクチャ,CNN-LSTM,LSTM,および3D-CNNの性能を,代理嵐サージモデリングの文脈で比較する。 本研究の拠点はフロリダ州タンパベイ地域である。 また,NOAA潮位観測所から得られた解析モデルによる高分解能大気データと過去の水位データを用いて,これらのモデルを用いて実験を行い,その性能評価を行った。 以上の結果から,CNN-LSTMモデルは他のアーキテクチャよりも優れており,テスト損失は0.010,R2スコアは0.84であった。 LSTMモデルは0.007のトレーニング損失と0.88のトレーニングR2を達成したが、0.014の試験損失と0.77のR2の試験損失でより低い一般化を示した。 3D-CNNモデルでは、テスト損失0.011とR2が0.82と妥当な性能を示したが、極端な条件下では不安定であった。 タンパ湾で約1.5mの負の上昇を引き起こしたハリケーン・イアンのケーススタディは、CNN-LSTMモデルが極端なシナリオで頑丈で精度が高いことを示している。

In this paper, we compare the performance of three common deep learning architectures, CNN-LSTM, LSTM, and 3D-CNN, in the context of surrogate storm surge modeling. The study site for this paper is the Tampa Bay area in Florida. Using high-resolution atmospheric data from the reanalysis models and historical water level data from NOAA tide stations, we trained and tested these models to evaluate their performance. Our findings indicate that the CNN-LSTM model outperforms the other architectures, achieving a test loss of 0.010 and an R-squared (R2) score of 0.84. The LSTM model, although it achieved the lowest training loss of 0.007 and the highest training R2 of 0.88, exhibited poorer generalization with a test loss of 0.014 and an R2 of 0.77. The 3D-CNN model showed reasonable performance with a test loss of 0.011 and an R2 of 0.82 but displayed instability under extreme conditions. A case study on Hurricane Ian, which caused a significant negative surge of -1.5 meters in Tampa Bay indicates the CNN-LSTM model's robustness and accuracy in extreme scenarios.
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# Time Make Space: 時間的に連続した感覚体験を符号化するネットワークにおける場所フィールドの出現

Time Makes Space: Emergence of Place Fields in Networks Encoding Temporally Continuous Sensory Experiences ( http://arxiv.org/abs/2408.05798v1 )

ライセンス: Link先を確認
Zhaoze Wang, Ronald W. Di Tullio, Spencer Rooke, Vijay Balasubramanian, (参考訳) 脊椎動物の海馬は、部分的なキューからのエピソード記憶のリコールをサポートするために、CA3領域の繰り返し接続を使用すると考えられている。 この脳領域は、位置選択的発射場が空間記憶をサポートするマップを実装している場所細胞も含む。 ここでは、時間的に連続した感覚エピソードを記憶するために訓練されたネットワークに、場所細胞が出現することを示す。 そこで我々はCA3を,模擬室内を横断するエージェントによるノイズや部分閉塞な観察から感覚体験を再現し,再現する再帰型オートエンコーダとしてモデル化した。 エージェントはげっ歯類からモデル化されたリアルな軌道を移動し、環境は高次元の感覚経験マップとしてモデル化される。 オートエンコーダをパターン完備に訓練し、全活動に制約を加えて経験を再構築することで、空間的に局所化された焼成場、すなわち細胞がコード層に出現する。 創発的な場所フィールドは、海馬の現象学の重要な側面を再現する。 a) ネットワークの隠された層における経験多様体の再配置により実施されるリマッピング(異なる環境における異なる学習地図の保守及び復号) b) 異なるアリーナにおける空間表現の直交性 c) 異なる形状の部屋において、大きな又は複雑な空間において複数の場所のフィールドを示す単一のユニットが頑丈な場所の出現 d) 場所フィールドの緩やかな表現的ドリフト 空間の連続的移動が感覚体験を時間的に連続させるため、これらの結果が生じると我々は主張する。 私たちはテスト可能な予測をします。 a) 急速に変化する感覚コンテキストが場所のフィールドを乱す b) リカレント接続がブロックされた場合でも,プレースフィールドは形成されますが,リマッピング時に以前に学習した表現への回帰は廃止されます。 c) 時間的に滑らかな経験の次元は、抽象空間の仮想ナビゲーションを含む場所の次元を設定する。

The vertebrate hippocampus is believed to use recurrent connectivity in area CA3 to support episodic memory recall from partial cues. This brain area also contains place cells, whose location-selective firing fields implement maps supporting spatial memory. Here we show that place cells emerge in networks trained to remember temporally continuous sensory episodes. We model CA3 as a recurrent autoencoder that recalls and reconstructs sensory experiences from noisy and partially occluded observations by agents traversing simulated rooms. The agents move in realistic trajectories modeled from rodents and environments are modeled as high-dimensional sensory experience maps. Training our autoencoder to pattern-complete and reconstruct experiences with a constraint on total activity causes spatially localized firing fields, i.e., place cells, to emerge in the encoding layer. The emergent place fields reproduce key aspects of hippocampal phenomenology: a) remapping (maintenance of and reversion to distinct learned maps in different environments), implemented via repositioning of experience manifolds in the network's hidden layer, b) orthogonality of spatial representations in different arenas, c) robust place field emergence in differently shaped rooms, with single units showing multiple place fields in large or complex spaces, and d) slow representational drift of place fields. We argue that these results arise because continuous traversal of space makes sensory experience temporally continuous. We make testable predictions: a) rapidly changing sensory context will disrupt place fields, b) place fields will form even if recurrent connections are blocked, but reversion to previously learned representations upon remapping will be abolished, c) the dimension of temporally smooth experience sets the dimensionality of place fields, including during virtual navigation of abstract spaces.
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# エゴセントリックなビジョン言語計画

Egocentric Vision Language Planning ( http://arxiv.org/abs/2408.05802v1 )

ライセンス: Link先を確認
Zhirui Fang, Ming Yang, Weishuai Zeng, Boyu Li, Junpeng Yue, Ziluo Ding, Xiu Li, Zongqing Lu, (参考訳) 我々は,大規模マルチモーダルモデル (LMM) とtext2image モデルを利用して,より一般的なエンボディエージェントを構築することを検討する。 LMMは、象徴的な抽象よりも長い水平タスクを計画するのに優れるが、物理的世界における接地に苦慮し、しばしば画像中の物体の位置を正確に識別することができない。 LMMと物理世界を結ぶにはブリッジが必要である。 本稿では,様々な家庭シナリオにおいて,エゴ中心型視覚言語計画(EgoPlan)という新たなアプローチを提案する。 このモデルは拡散モデルを利用して状態と動作の基本的なダイナミクスをシミュレートし、スタイル転送や光学フローのような技術を統合し、異なる環境力学の一般化を強化する。 LMMはプランナーとして機能し、命令をサブゴールに分割し、これらのサブゴールとのアライメントに基づいてアクションを選択する。 実験の結果、EgoPlanは家庭シナリオのベースラインに比べて、エゴセントリックな視点から長期的なタスクの成功率を改善することが示された。

We explore leveraging large multi-modal models (LMMs) and text2image models to build a more general embodied agent. LMMs excel in planning long-horizon tasks over symbolic abstractions but struggle with grounding in the physical world, often failing to accurately identify object positions in images. A bridge is needed to connect LMMs to the physical world. The paper proposes a novel approach, egocentric vision language planning (EgoPlan), to handle long-horizon tasks from an egocentric perspective in varying household scenarios. This model leverages a diffusion model to simulate the fundamental dynamics between states and actions, integrating techniques like style transfer and optical flow to enhance generalization across different environmental dynamics. The LMM serves as a planner, breaking down instructions into sub-goals and selecting actions based on their alignment with these sub-goals, thus enabling more generalized and effective decision-making. Experiments show that EgoPlan improves long-horizon task success rates from the egocentric view compared to baselines across household scenarios.
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# DCE-MRIにおける乳腺腫瘍分離のための原型学習誘導ハイブリッドネットワーク

Prototype Learning Guided Hybrid Network for Breast Tumor Segmentation in DCE-MRI ( http://arxiv.org/abs/2408.05803v1 )

ライセンス: Link先を確認
Lei Zhou, Yuzhong Zhang, Jiadong Zhang, Xuejun Qian, Chen Gong, Kun Sun, Zhongxiang Ding, Xing Wang, Zhenhui Li, Zaiyi Liu, Dinggang Shen, (参考訳) ダイナミックコントラスト強調MRI(Dynamic contrast-enhancement magnetic resonance imaging, DCE-MRI)をベースとした乳腺腫瘍郭清の自動化は臨床,特に乳腺疾患の存在を同定する上で有望である。 しかし、乳腺腫瘍の正確な分節化は難しい課題であり、しばしば複雑なネットワークの発達を必要とする。 計算コストとセグメンテーション性能の最適トレードオフを実現するために,畳み込みニューラルネットワーク(CNN)とトランスフォーマー層を組み合わせたハイブリッドネットワークを提案する。 具体的には、ハイブリッドネットワークは、畳み込み層と畳み込み層を積み重ねたエンコーダ・デコーダアーキテクチャで構成されている。 効果的な3Dトランスフォーマーレイヤはエンコーダサブネットワーク後に実装され、ボトルネック機能間のグローバルな依存関係をキャプチャする。 ハイブリッドネットワークの効率を改善するために、デコーダ層とトランス層のために2つの並列エンコーダサブネットが設計されている。 ハイブリッドネットワークの識別能力をさらに高めるため, オンラインクラスタリングにより, カテゴリ指定した特徴を計算し, 学習指導型予測モジュールを提案する。 学習された全ての原型的特徴は、最終的に腫瘍マスク予測のためのデコーダの特徴と組み合わせられる。 プライベートおよびパブリックなDCE-MRIデータセットによる実験結果から,提案したハイブリッドネットワークは,セグメント化精度と計算コストのバランスを維持しつつ,最先端(SOTA)手法よりも優れた性能を実現することが示された。 さらに,HER2陰性サブタイプからHER2陽性サブタイプを同定するために,自動生成腫瘍マスクを効果的に適用できることを実証した。 ソースコードはhttps://github.com/ZhouL-lab/PLHN.comで入手できる。

Automated breast tumor segmentation on the basis of dynamic contrast-enhancement magnetic resonance imaging (DCE-MRI) has shown great promise in clinical practice, particularly for identifying the presence of breast disease. However, accurate segmentation of breast tumor is a challenging task, often necessitating the development of complex networks. To strike an optimal trade-off between computational costs and segmentation performance, we propose a hybrid network via the combination of convolution neural network (CNN) and transformer layers. Specifically, the hybrid network consists of a encoder-decoder architecture by stacking convolution and decovolution layers. Effective 3D transformer layers are then implemented after the encoder subnetworks, to capture global dependencies between the bottleneck features. To improve the efficiency of hybrid network, two parallel encoder subnetworks are designed for the decoder and the transformer layers, respectively. To further enhance the discriminative capability of hybrid network, a prototype learning guided prediction module is proposed, where the category-specified prototypical features are calculated through on-line clustering. All learned prototypical features are finally combined with the features from decoder for tumor mask prediction. The experimental results on private and public DCE-MRI datasets demonstrate that the proposed hybrid network achieves superior performance than the state-of-the-art (SOTA) methods, while maintaining balance between segmentation accuracy and computation cost. Moreover, we demonstrate that automatically generated tumor masks can be effectively applied to identify HER2-positive subtype from HER2-negative subtype with the similar accuracy to the analysis based on manual tumor segmentation. The source code is available at https://github.com/ZhouL-lab/PLHN.
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# 1つのゴールは必要なすべて: 逆境、デモ、サブゴールのない対照的なRLからスキルと探索を創出する

A Single Goal is All You Need: Skills and Exploration Emerge from Contrastive RL without Rewards, Demonstrations, or Subgoals ( http://arxiv.org/abs/2408.05804v1 )

ライセンス: Link先を確認
Grace Liu, Michael Tang, Benjamin Eysenbach, (参考訳) 本稿では,試行錯誤が観測されるよりもずっと前に,簡単なRLアルゴリズムから生み出した技術と方向性探索の実証的証拠を示す。 例えば、操作タスクでは、エージェントはゴール状態の単一の観察を与えられ、まず、エンドエフェクタを移動させ、次にブロックを押して、最後にブロックを拾い、配置するためにスキルを学ぶ。 これらのスキルは、エージェントが目標地点にブロックを置く前に現れ、報酬関数、デモンストレーション、手動で特定された距離メトリクスの助けなしにできる。 エージェントが目標状態に確実に到達することを学習すると、探索は減少する。 提案手法の実装には, 先行作業の簡単な修正が伴うため, 密度推定やアンサンブル, 追加のハイパーパラメータは不要である。 直感的には、提案手法は探究に苦しむべきであり、我々の実験はいくつかのヒントを提供しているが、なぜこれほど効果的に働くのかという明確な理論的理解は欠如している。

In this paper, we present empirical evidence of skills and directed exploration emerging from a simple RL algorithm long before any successful trials are observed. For example, in a manipulation task, the agent is given a single observation of the goal state and learns skills, first for moving its end-effector, then for pushing the block, and finally for picking up and placing the block. These skills emerge before the agent has ever successfully placed the block at the goal location and without the aid of any reward functions, demonstrations, or manually-specified distance metrics. Once the agent has learned to reach the goal state reliably, exploration is reduced. Implementing our method involves a simple modification of prior work and does not require density estimates, ensembles, or any additional hyperparameters. Intuitively, the proposed method seems like it should be terrible at exploration, and we lack a clear theoretical understanding of why it works so effectively, though our experiments provide some hints.
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# 大次元カーネル密度推定器

Kernel Density Estimators in Large Dimensions ( http://arxiv.org/abs/2408.05807v1 )

ライセンス: Link先を確認
Giulio Biroli, Marc Mézard, (参考訳) 本稿では,高次元分布$\rho(x)$に対するカーネル密度推定について検討する。 従来のアプローチでは、大量のデータポイント$n$と固定次元$d$の制限に重点を置いてきた。 代わりに、データポイントの数$n$$$y_i$とそれらの次元$d$が、固定比$\alpha=(\log n)/d$で成長する状態を分析する。 我々の研究は、カーネルベースの密度$\hat \rho_h^{\mathcal {D}}(x)=\frac{1}{n h^d}\sum_{i=1}^n K\left(\frac{x-y_i}{h}\right)$, 帯域幅$h$: 中央極限定理(CLT)が持つ大帯域幅の古典的レジーム。 帯域幅の一定の値の下に$h_{CLT}(\alpha)$ とすると、CLTが故障する。 $\hat \rho_h^{\mathcal {D}}(x)$ for a fixed $x$ from $\rho(x)$の統計は、重尾分布(アルファ安定分布)によって与えられる。 特に$h_G(\alpha)$ 以下の値では、$\hat \rho_h^{\mathcal {D}}(x)$ は極値統計によって支配される。 高次元多変量ガウスデータの詳細な解析を行う。 本稿では,Kullback-Leibler分散に基づく帯域幅の最適しきい値が,本論文で同定された新しい統計体系に含まれることを示す。 本研究は,従来の手法の限界を明らかにするとともに,これらの新しい統計体系の妥当性を示し,高次元環境におけるケルネル密度推定の新しい知見を提供する。

This paper studies Kernel density estimation for a high-dimensional distribution $\rho(x)$. Traditional approaches have focused on the limit of large number of data points $n$ and fixed dimension $d$. We analyze instead the regime where both the number $n$ of data points $y_i$ and their dimensionality $d$ grow with a fixed ratio $\alpha=(\log n)/d$. Our study reveals three distinct statistical regimes for the kernel-based estimate of the density $\hat \rho_h^{\mathcal {D}}(x)=\frac{1}{n h^d}\sum_{i=1}^n K\left(\frac{x-y_i}{h}\right)$, depending on the bandwidth $h$: a classical regime for large bandwidth where the Central Limit Theorem (CLT) holds, which is akin to the one found in traditional approaches. Below a certain value of the bandwidth, $h_{CLT}(\alpha)$, we find that the CLT breaks down. The statistics of $\hat \rho_h^{\mathcal {D}}(x)$ for a fixed $x$ drawn from $\rho(x)$ is given by a heavy-tailed distribution (an alpha-stable distribution). In particular below a value $h_G(\alpha)$, we find that $\hat \rho_h^{\mathcal {D}}(x)$ is governed by extreme value statistics: only a few points in the database matter and give the dominant contribution to the density estimator. We provide a detailed analysis for high-dimensional multivariate Gaussian data. We show that the optimal bandwidth threshold based on Kullback-Leibler divergence lies in the new statistical regime identified in this paper. Our findings reveal limitations of classical approaches, show the relevance of these new statistical regimes, and offer new insights for Kernel density estimation in high-dimensional settings.
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# HySparK:大規模医用画像事前トレーニングのためのハイブリッドスパースマスキング

HySparK: Hybrid Sparse Masking for Large Scale Medical Image Pre-Training ( http://arxiv.org/abs/2408.05815v1 )

ライセンス: Link先を確認
Fenghe Tang, Ronghao Xu, Qingsong Yao, Xueming Fu, Quan Quan, Heqin Zhu, Zaiyi Liu, S. Kevin Zhou, (参考訳) 生成的自己教師型学習戦略は、顕著な学習表現能力を示す。 しかし、CNNとTransformerのハイブリッドアーキテクチャに基づくエンドツーエンドの事前学習手法には、強い局所的およびグローバルな表現を同時に学習できる点が限定されている。 この問題に対処するために,マスク画像モデリングに基づくHybrid Sparse masKing (HySparK) と呼ばれる生成前トレーニング戦略を提案し,それを医用画像の大規模事前トレーニングに適用する。 まず,エンコーダの3Dハイブリットマスキング戦略をボトムアップで実施し,一貫性マスキングの維持を図る。 次に、上位のCNNにスパース畳み込みを利用し、下位の視覚変換器に未成熟のパッチをエンコードする。 第2に,高密度なマルチスケール特徴再構成を実現するために,スキップ接続を用いた単純な階層デコーダを用いる。 第3に,複数の大規模3次元医用画像データセットの収集に事前学習手法を実装した。 広範囲な実験の結果,提案した事前学習戦略は,教師付き下流作業において堅牢な伝達可能性を示し,HySparKの期待する将来性に光を当てている。 コードはhttps://github.com/FengheTan9/HySparKで入手できる。

The generative self-supervised learning strategy exhibits remarkable learning representational capabilities. However, there is limited attention to end-to-end pre-training methods based on a hybrid architecture of CNN and Transformer, which can learn strong local and global representations simultaneously. To address this issue, we propose a generative pre-training strategy called Hybrid Sparse masKing (HySparK) based on masked image modeling and apply it to large-scale pre-training on medical images. First, we perform a bottom-up 3D hybrid masking strategy on the encoder to keep consistency masking. Then we utilize sparse convolution for the top CNNs and encode unmasked patches for the bottom vision Transformers. Second, we employ a simple hierarchical decoder with skip-connections to achieve dense multi-scale feature reconstruction. Third, we implement our pre-training method on a collection of multiple large-scale 3D medical imaging datasets. Extensive experiments indicate that our proposed pre-training strategy demonstrates robust transfer-ability in supervised downstream tasks and sheds light on HySparK's promising prospects. The code is available at https://github.com/FengheTan9/HySparK
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# フェデレーション予測最大化アルゴリズムの収束性について

On the Convergence of a Federated Expectation-Maximization Algorithm ( http://arxiv.org/abs/2408.05819v1 )

ライセンス: Link先を確認
Zhixu Tao, Rajita Chandak, Sanjeev Kulkarni, (参考訳) データの不均一性は、フェデレート学習アルゴリズムの収束率を研究する上で、長年にわたってボトルネックとなっていた。 データ不均一性の問題をより深く理解するために,Federated Mixture of $K$ Linear Regressionsモデルに対する期待最大化(EM)アルゴリズムの収束率について検討する。 EMアルゴリズムの収束率を,$m/n$,$m$をクライアント数,$n$をクライアント毎のデータポイント数というすべての条件下で完全に特徴づける。 信号対雑音比(SNR)を$\Omega(\sqrt{K})$で表すと、十分に初期化されたEMアルゴリズムはそれぞれの政権の下で基底真理の極小最大距離内に収束する。 興味深いことに、$m$が指数関数的に$n$に成長するとき、EMアルゴリズムは収束するために一定の回数の反復しか必要としない。 結果を説明するために,合成データセットの実験を行った。 驚くべきことに、データはボトルネックではなく、フェデレートされた学習アルゴリズムの収束を加速することができる。

Data heterogeneity has been a long-standing bottleneck in studying the convergence rates of Federated Learning algorithms. In order to better understand the issue of data heterogeneity, we study the convergence rate of the Expectation-Maximization (EM) algorithm for the Federated Mixture of $K$ Linear Regressions model. We fully characterize the convergence rate of the EM algorithm under all regimes of $m/n$ where $m$ is the number of clients and $n$ is the number of data points per client. We show that with a signal-to-noise-ratio (SNR) of order $\Omega(\sqrt{K})$, the well-initialized EM algorithm converges within the minimax distance of the ground truth under each of the regimes. Interestingly, we identify that when $m$ grows exponentially in $n$, the EM algorithm only requires a constant number of iterations to converge. We perform experiments on synthetic datasets to illustrate our results. Surprisingly, the results show that rather than being a bottleneck, data heterogeneity can accelerate the convergence of federated learning algorithms.
翻訳日:2024-08-13 15:27:01 公開日:2024-08-11
# 基礎変換器のサンプリング:理論的展望

Sampling Foundational Transformer: A Theoretical Perspective ( http://arxiv.org/abs/2408.05822v1 )

ライセンス: Link先を確認
Viet Anh Nguyen, Minh Lenhat, Khoa Nguyen, Duong Duc Hieu, Dao Huu Hung, Truong Son Hy, (参考訳) 自己保持機構の汎用性は、ほぼ全てのデータモダリティにおいてトランスフォーマーに大きな成功を収め、二次的な複雑さと訓練の難しさに制限を与えた。 異なるデータモダリティにトランスフォーマーを適用するには、実践者は巧妙なデータモダリティに依存した構築をしなければならない。 本稿では、複数のデータモダリティ(例えば、点雲、グラフ、シーケンス)と制約(例えば、回転不変量)を扱うことができるSampring Foundational Transformer(SFT)を提案する。 このようなモデルの存在は、複数のデータソース上での操作性を必要とする現代基礎モデリングとして重要である。 多数のトークンの効率向上のために、我々のモデルは、線形漸近的計算複雑性と実推測時間ゲインの両方に対して、サンプリングなしのサンプリングメカニズムを意識した文脈に依存している。 効率性のために、モデル収束率を高めるために、新たに発見された変圧器層の擬凸定式化を頼りにしている。 複数のデータモダリティを扱うモデルとして、SFTは他の非常に特殊なモデルに比べて推論が高速でありながら、多くのベンチマークで競合する結果を得た。

The versatility of self-attention mechanism earned transformers great success in almost all data modalities, with limitations on the quadratic complexity and difficulty of training. To apply transformers across different data modalities, practitioners have to make specific clever data-modality-dependent constructions. In this paper, we propose Sampling Foundational Transformer (SFT) that can work on multiple data modalities (e.g., point cloud, graph, and sequence) and constraints (e.g., rotational-invariant). The existence of such model is important as contemporary foundational modeling requires operability on multiple data sources. For efficiency on large number of tokens, our model relies on our context aware sampling-without-replacement mechanism for both linear asymptotic computational complexity and real inference time gain. For efficiency, we rely on our newly discovered pseudoconvex formulation of transformer layer to increase model's convergence rate. As a model working on multiple data modalities, SFT has achieved competitive results on many benchmarks, while being faster in inference, compared to other very specialized models.
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# 量子物理学とポスト量子物理学における観測可能性と予測可能性

Observability and Predictability in Quantum and Post-Quantum Physics ( http://arxiv.org/abs/2408.05828v1 )

ライセンス: Link先を確認
Johannes Fankhauser, (参考訳) 物理学の2つの領域を区別する枠組み、すなわち、マニフェスト(マニフェスト構成における直接観測可能な経験記録)と非マニファストな物理学の領域(つまり、マニフェスト構成が物理理論に従って意味するもの)を紹介する。 私は、多くの量子「パラドックス」が2つの領域についての曖昧な推論に依存していることを示します。 より具体的には、いわゆる「超現実的」軌道、遅延した選択量子消去器、および「弱測定」について研究する。 最後に、提示されたフレームワークにおいて、疑わしいパズルがどのように解決するかを示す。 次に、量子不確実性が基本的なものなのか、量子後理論が平均的にボルン則に準拠している間に予測上の優位性を持つのかという疑問を正式に定義し、解決する。 この「経験的完全性(empirical completeness)」という概念は、ボルン確率を超えた実際の予測過程を指し、量子論における「隠れ変数」プログラムから予測可能性の操作的概念を導出する。 経験的完全性が信号局所性とどのように結びつくのかを考察し、二部量子系において予測的優位性の不可能性の部分的証明が確立可能であることを論じる。 関連する結果は、現在の量子理論と将来の量子理論の基本的な構造を説明できる十分な原理として信号局所性を示し、自然の予測可能性の限界の側面として多くの量子的特徴に調和させる。

I introduce a framework to distinguish two domains of physics - the manifest (i.e. the directly observable empirical records in terms of manifest configurations) and the non-manifest domain of physics (i.e. the things that the manifest configurations signify according to a physical theory). I show that many quantum 'paradoxes' rest on ambiguous reasoning about the two domains. More concretely, I study so-called 'surrealistic' trajectories, the 'delayed choice quantum eraser', and 'weak measurements'. Finally, I show how the alleged puzzles resolve in the framework provided. I then formally define and address the question of whether quantum uncertainty could be fundamental or whether post-quantum theories could have predictive advantage whilst conforming to the Born rule on average. This notion of what I call 'empirical completeness' refers to actual prediction-making beyond the Born probabilities, and thus delineates the operational notion of predictability from a 'hidden variable' programme in quantum theory. I study how empirical completeness connects to signal-locality, and argue that a partial proof for the impossibility of predictive advantage can be established for bi-partite quantum systems. The relevant results demonstrate signal-locality as a sufficient principle that might explain the fundamental chanciness in present and future quantum theories and, in turn, reconciles us to many quantum features as aspects of limits on Nature's predictability.
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# 動的に生成されたドキュメント階層によるソフトウェアメンテナンスのサポート

Supporting Software Maintenance with Dynamically Generated Document Hierarchies ( http://arxiv.org/abs/2408.05829v1 )

ライセンス: Link先を確認
Katherine R. Dearstyne, Alberto D. Rodriguez, Jane Cleland-Huang, (参考訳) ソフトウェアドキュメンテーションはソフトウェアの保守タスクを幅広くサポートしていますが、高品質でマルチレベルなソフトウェアドキュメンテーションの作成とメンテナンスには信じられないほど時間がかかるため、多くのコードベースが適切なドキュメンテーションの欠如に悩まされています。 HGENは、LLMを活用してソースコードを6つのステージで変換し、構造化された文書の階層構造に変換する、完全に自動化されたパイプラインである。 我々はHGENを定量的にも質的にも評価した。 まず、これを3つの多様なプロジェクト用のドキュメンテーションの生成に使用し、生成したドキュメンテーションの質を以前に手作業で作成したドキュメンテーションと比較する上で重要な開発者を巻き込みます。 次に、各プロジェクトが提供するさまざまなデータセットを使用して、9つの異なる産業プロジェクトにおいてHGENを試験します。 プロジェクトステークホルダーからのフィードバックを収集し、反復するテーマを特定するための帰納的アプローチを用いて分析する。 その結果,HGENは手作業で構築したドキュメントに類似したアーティファクト階層を生成し,コアコンセプトをベースラインアプローチよりもはるかに高いカバレッジで実現していることがわかった。 Stakeholder氏のフィードバックは、コード理解とメンテナンスタスクを加速するためのツールとして、HGENの商業的影響の可能性を強調している。 結果はhttps://zenodo.org/records/11403244で見ることができる。

Software documentation supports a broad set of software maintenance tasks; however, creating and maintaining high-quality, multi-level software documentation can be incredibly time-consuming and therefore many code bases suffer from a lack of adequate documentation. We address this problem through presenting HGEN, a fully automated pipeline that leverages LLMs to transform source code through a series of six stages into a well-organized hierarchy of formatted documents. We evaluate HGEN both quantitatively and qualitatively. First, we use it to generate documentation for three diverse projects, and engage key developers in comparing the quality of the generated documentation against their own previously produced manually-crafted documentation. We then pilot HGEN in nine different industrial projects using diverse datasets provided by each project. We collect feedback from project stakeholders, and analyze it using an inductive approach to identify recurring themes. Results show that HGEN produces artifact hierarchies similar in quality to manually constructed documentation, with much higher coverage of the core concepts than the baseline approach. Stakeholder feedback highlights HGEN's commercial impact potential as a tool for accelerating code comprehension and maintenance tasks. Results and associated supplemental materials can be found at https://zenodo.org/records/11403244
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# マルチモーダル物体認識のためのロバスト領域一般化

Robust Domain Generalization for Multi-modal Object Recognition ( http://arxiv.org/abs/2408.05831v1 )

ライセンス: Link先を確認
Yuxin Qiao, Keqin Li, Junhong Lin, Rong Wei, Chufeng Jiang, Yang Luo, Haoyu Yang, (参考訳) マルチラベル分類において、機械学習は、トレーニングデータとは異なる分布を伴うタスクを扱う際に、ドメインの一般化の課題に遭遇する。 既存のアプローチは主に視覚オブジェクト認識に焦点を当て、自然言語の統合を無視している。 視覚言語プレトレーニングの最近の進歩は、広範囲な視覚言語ペアの監視を活用し、多様なドメインをまたいだ学習を可能にし、マルチモーダルシナリオでの認識を高める。 しかし、これらのアプローチは損失関数の利用、バックボーン間の一般化、クラス認識型視覚融合の制限に直面している。 本稿では,これらの制約を,実際の損失を推定し,より大きな視覚言語バックボーンに対する評価を拡大し,クラス認識型視覚融合に新たな混合損失を組み込んだMixup-CLIPoodを提案する。 提案手法は,複数のデータセットにまたがる領域一般化において,優れた性能を示す。

In multi-label classification, machine learning encounters the challenge of domain generalization when handling tasks with distributions differing from the training data. Existing approaches primarily focus on vision object recognition and neglect the integration of natural language. Recent advancements in vision-language pre-training leverage supervision from extensive visual-language pairs, enabling learning across diverse domains and enhancing recognition in multi-modal scenarios. However, these approaches face limitations in loss function utilization, generality across backbones, and class-aware visual fusion. This paper proposes solutions to these limitations by inferring the actual loss, broadening evaluations to larger vision-language backbones, and introducing Mixup-CLIPood, which incorporates a novel mix-up loss for enhanced class-aware visual fusion. Our method demonstrates superior performance in domain generalization across multiple datasets.
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# 分割・並列予測符号化:構造化ベイズ推論アルゴリズム

Divide-and-Conquer Predictive Coding: a structured Bayesian inference algorithm ( http://arxiv.org/abs/2408.05834v1 )

ライセンス: Link先を確認
Eli Sennesh, Hao Wu, Tommaso Salvatori, (参考訳) 予期せぬ刺激は、脳内の「エラー」または「サプライズ」シグナルを誘導する。 予測符号化の理論は、確率的グラフィカルモデルにおいて、大脳皮質が変分推論を実装していることを示唆することによって、ベイズ的推論の観点からこれらの観測を説明することを約束する。 しかし、機械学習タスクに適用した場合、このアルゴリズムの族は、高次元構造推論問題における他の変分的アプローチと同等に動作しない。 そこで本研究では,構造生成モデルに対する新しい予測符号化アルゴリズムを導入し,その手法をDCPC(Deput-and-Conquer predictive coding)と呼ぶ。 DCPCは、生成モデルの相関構造を尊重し、生物学的確率を犠牲にすることなく、モデルパラメータの最大様態を確実に更新するので、予測符号化の他の定式化と異なる。 実証的には、DCPCは競合するアルゴリズムよりも優れた数値性能を達成し、これまで予測符号に対処していなかった多くの問題に対して正確な推論を提供する。 GithubのPyroでDCPCのオープン実装を提供しています。

Unexpected stimuli induce "error" or "surprise" signals in the brain. The theory of predictive coding promises to explain these observations in terms of Bayesian inference by suggesting that the cortex implements variational inference in a probabilistic graphical model. However, when applied to machine learning tasks, this family of algorithms has yet to perform on par with other variational approaches in high-dimensional, structured inference problems. To address this, we introduce a novel predictive coding algorithm for structured generative models, that we call divide-and-conquer predictive coding (DCPC). DCPC differs from other formulations of predictive coding, as it respects the correlation structure of the generative model and provably performs maximum-likelihood updates of model parameters, all without sacrificing biological plausibility. Empirically, DCPC achieves better numerical performance than competing algorithms and provides accurate inference in a number of problems not previously addressed with predictive coding. We provide an open implementation of DCPC in Pyro on Github.
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# Devlore:Arm CCAを統合デバイスに拡張

Devlore: Extending Arm CCA to Integrated Devices A Journey Beyond Memory to Interrupt Isolation ( http://arxiv.org/abs/2408.05835v1 )

ライセンス: Link先を確認
Andrin Bertschi, Supraja Sridhara, Friederike Groschupp, Mark Kuhne, Benedict Schlüter, Clément Thorens, Nicolas Dutly, Srdjan Capkun, Shweta Shinde, (参考訳) Arm Confidential Computing Architecture (CCA)は、Realm VMと呼ばれる抽象化でセンシティブな計算を実行し、ハイパーバイザ、ホストOS、その他の共用VMから保護する。 しかし、CCAはプラットフォーム上の統合されたデバイスにリアルタイムVMへのアクセスを許可しないため、ソフトウェアに侵入的な変更を必要とするため、一部のデバイスで安全に達成することはできない。 本稿では,Devloreを提案する。Devloreは,仮想マシンが統合された周辺機器に直接アクセスできるようにする。 DevloreメモリアイソレーションはCCAハードウェアプリミティブ(グラニュルプロテクトとステージ2ページテーブル)を再利用しますが、割り込みアイソレーションはデリゲート・ビュー・チェックの戦略に適応します。 インシデント管理をハイパーバイザにオフロードするという私たちの選択は、信頼性の高いソフトウェアに正当性チェックを追加することで、Devloreは互換性とパフォーマンスを維持することができます。 我々は、Devlore on Arm FVPを評価し、Realm VMに付属する5種類の周辺機器を実証した。

Arm Confidential Computing Architecture (CCA) executes sensitive computation in an abstraction called realm VMs and protects it from the hypervisor, host OS, and other co-resident VMs. However, CCA does not allow integrated devices on the platform to access realm VMs and doing so requires intrusive changes to software and is simply not possible to achieve securely for some devices. In this paper, we present Devlore which allows realm VMs to directly access integrated peripherals. Devlore memory isolation re-purposes CCA hardware primitives (granule protection and stage-two page tables), while our interrupt isolation adapts a delegate-but-check strategy. Our choice of offloading interrupt management to the hypervisor but adding correctness checks in the trusted software allows Devlore to preserve compatibility and performance. We evaluate Devlore on Arm FVP to demonstrate 5 diverse peripherals attached to realm VMs.
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# 目視率と顔のランドマーク検出を用いたリアルタイムドローズネス検出

Real-Time Drowsiness Detection Using Eye Aspect Ratio and Facial Landmark Detection ( http://arxiv.org/abs/2408.05836v1 )

ライセンス: Link先を確認
Varun Shiva Krishna Rupani, Velpooru Venkata Sai Thushar, Kondadi Tejith, (参考訳) 交通や職場の健康などの分野での安全性向上には、眠気検知が不可欠である。 本研究は、視線量比(EAR)と顔のランドマーク検出技術を用いて、眠気を検出するために設計されたリアルタイムシステムを提案する。 このシステムは、Dlibsの事前訓練された形状予測モデルを利用して、EARを計算するために使用される68の顔のランドマークを正確に検出し、監視する。 EARのしきい値を確立することで、システムはいつ目を閉じているかを識別し、潜在的な眠気を示す。 このプロセスでは、ライブビデオストリームをキャプチャし、各フレームの顔を検出し、目印を抽出し、EARを計算して警告を評価する。 本実験により,低計算要求を維持しつつ,高い精度で眠気を確実に検出できることが示唆された。 この研究は、ドライバーの監視と職場の安全に有望な応用をもたらす、リアルタイムの眠気検知のための強力なソリューションを提供する。 今後の研究は、検出精度と信頼性をさらに高めるために、追加の生理的および文脈的データを統合することを検討する。

Drowsiness detection is essential for improving safety in areas such as transportation and workplace health. This study presents a real-time system designed to detect drowsiness using the Eye Aspect Ratio (EAR) and facial landmark detection techniques. The system leverages Dlibs pre-trained shape predictor model to accurately detect and monitor 68 facial landmarks, which are used to compute the EAR. By establishing a threshold for the EAR, the system identifies when eyes are closed, indicating potential drowsiness. The process involves capturing a live video stream, detecting faces in each frame, extracting eye landmarks, and calculating the EAR to assess alertness. Our experiments show that the system reliably detects drowsiness with high accuracy while maintaining low computational demands. This study offers a strong solution for real-time drowsiness detection, with promising applications in driver monitoring and workplace safety. Future research will investigate incorporating additional physiological and contextual data to further enhance detection accuracy and reliability.
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# 医用画像登録における深層学習 : マジックかミラージュか?

Deep Learning in Medical Image Registration: Magic or Mirage? ( http://arxiv.org/abs/2408.05839v1 )

ライセンス: Link先を確認
Rohit Jena, Deeksha Sethi, Pratik Chaudhari, James C. Gee, (参考訳) 古典的最適化と学習に基づく手法は、変形可能な画像登録における2つの支配パラダイムである。 最適化に基づく手法は、モダリティ全体にわたる一般化性と堅牢な性能を誇っているが、学習に基づく手法は、弱い監督と償却最適化を取り入れ、ピーク性能を約束する。 しかし、どちらのパラダイムも互いにうまく機能する正確な条件は、既存の文献では明確に述べられていない。 本稿では,画素ごとの強度とラベルの分布の相互情報と,古典的登録法の性能とを明示的に対応させる。 この強い相関関係は、学習に基づく手法のアーキテクチャ設計がこの相関に影響を与えそうにないという事実を示唆している。 この仮説は、最先端の古典的および学習に基づく手法で完全に検証されている。 しかし, 従来の手法では不可能な, 高忠実度とラベル登録が可能である。 次に、この高忠実度特徴学習はドメインシフトの不変性に変換されず、学習に基づく手法はデータ分布の変化に敏感であることを示す。 最後に、これらの観測に基づいて、与えられた登録問題に最適なパラダイムを選択するための一般的なレシピを提案する。

Classical optimization and learning-based methods are the two reigning paradigms in deformable image registration. While optimization-based methods boast generalizability across modalities and robust performance, learning-based methods promise peak performance, incorporating weak supervision and amortized optimization. However, the exact conditions for either paradigm to perform well over the other are shrouded and not explicitly outlined in the existing literature. In this paper, we make an explicit correspondence between the mutual information of the distribution of per-pixel intensity and labels, and the performance of classical registration methods. This strong correlation hints to the fact that architectural designs in learning-based methods is unlikely to affect this correlation, and therefore, the performance of learning-based methods. This hypothesis is thoroughly validated with state-of-the-art classical and learning-based methods. However, learning-based methods with weak supervision can perform high-fidelity intensity and label registration, which is not possible with classical methods. Next, we show that this high-fidelity feature learning does not translate to invariance to domain shift, and learning-based methods are sensitive to such changes in the data distribution. Finally, we propose a general recipe to choose the best paradigm for a given registration problem, based on these observations.
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# 追加正規化トピックモデルの反復的改善

Iterative Improvement of an Additively Regularized Topic Model ( http://arxiv.org/abs/2408.05840v1 )

ライセンス: Link先を確認
Alex Gorbulev, Vasiliy Alekseev, Konstantin Vorontsov, (参考訳) トピックモデリングは、基本的にはソフトなクラスタリングの問題である(既知のオブジェクト -- ドキュメント、未知のクラスタ -- トピック)。 つまり、そのタスクは正しくない。 特に、トピックモデルは不安定で不完全です。 これらすべてが、優れたトピックモデル(反復的ハイパーパラメータ選択、モデルトレーニング、トピック品質評価)を見つけるプロセスが特に長く、労働集約的であるという事実につながります。 私たちはプロセスを単純化し、決定論的かつ証明しやすくすることを目指しています。 そこで本研究では,トピックモデルの反復的学習手法を提案する。 この手法の本質は、一連の関連するトピックモデルがトレーニングされ、後続のモデルが少なくとも以前のモデル、すなわち、より早く見つかった良いトピックを全て保持するように訓練されることである。 モデル間の接続は加法正規化によって達成される。 この反復学習の結果、シリーズの最後のトピックモデルとなり、反復的に更新された追加正規化トピックモデル(ITAR)と呼ばれる。 いくつかの自然言語テキストのコレクションで実施された実験によると、提案されたITARモデルは、他の一般的なトピックモデル(LDA、ARTM、BERTopic)よりもパフォーマンスが良く、トピックは多様であり、その難易度(基礎となるデータを"説明"する能力)は適度である。

Topic modelling is fundamentally a soft clustering problem (of known objects -- documents, over unknown clusters -- topics). That is, the task is incorrectly posed. In particular, the topic models are unstable and incomplete. All this leads to the fact that the process of finding a good topic model (repeated hyperparameter selection, model training, and topic quality assessment) can be particularly long and labor-intensive. We aim to simplify the process, to make it more deterministic and provable. To this end, we present a method for iterative training of a topic model. The essence of the method is that a series of related topic models are trained so that each subsequent model is at least as good as the previous one, i.e., that it retains all the good topics found earlier. The connection between the models is achieved by additive regularization. The result of this iterative training is the last topic model in the series, which we call the iteratively updated additively regularized topic model (ITAR). Experiments conducted on several collections of natural language texts show that the proposed ITAR model performs better than other popular topic models (LDA, ARTM, BERTopic), its topics are diverse, and its perplexity (ability to "explain" the underlying data) is moderate.
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# Delta-Engineによるバーチャルワールドのスケーリング

Scaling Virtual World with Delta-Engine ( http://arxiv.org/abs/2408.05842v1 )

ライセンス: Link先を確認
Hongqiu Wu, Zekai Xu, Tianyang Xu, Jiale Hong, Weiqi Wu, Hai Zhao, Min Zhang, Zhezhi He, (参考訳) 本稿では,人々が住むことができるサイバースペースである「emph{virtual world}」に焦点を当てる。 理想的な仮想世界は、私たちの現実世界と非常によく似ている。 重要な側面の1つは、その進化する性質であり、個人が成長し、それによって客観的世界に影響を与える能力に反映されている。 このような力学は予測不可能であり、既存のシステムの範囲を超えている。 そこで我々は,この仮想世界を駆動する特別なエンジン「emph{Delta-Engine}」を提案する。 Delta$は、世界の進化とエンジンの拡張を関連付ける。 デルタエンジンはベースエンジンとニューラルプロキシで構成される。 観察されたプロキシは,‘emph{incremental prediction}’というプロセスを通じて,ベースエンジンに基づいた新たなコードを生成する。 本稿ではデルタエンジンのフルスタック導入について述べる。 デルタエンジンの重要な特徴は、世界中の未知の要素へのスケーラビリティである。技術的には、ニューラルネットワークとベースエンジンの完全なコワーキング、高品質なデータとの整合性から導かれる。 ベースエンジンをプロキシに埋め込むエンジン指向の微調整手法を提案する。 次に、人間とAIの協調設計プロセスについて議論し、新しい興味深いデータを効率的に作成する。 最終的に,デルタエンジンの性能を総合的に評価する3つの評価原則を提案する。 私たちのコード、データ、モデルは、 \url{https://github.com/gingasan/delta-engine}でオープンソース化されています。

In this paper, we focus on \emph{virtual world}, a cyberspace where people can live in. An ideal virtual world shares great similarity with our real world. One of the crucial aspects is its evolving nature, reflected by the individuals' capacity to grow and thereby influence the objective world. Such dynamics is unpredictable and beyond the reach of existing systems. For this, we propose a special engine called \emph{Delta-Engine} to drive this virtual world. $\Delta$ associates the world's evolution to the engine's expansion. A delta-engine consists of a base engine and a neural proxy. Given an observation, the proxy generates new code based on the base engine through the process of \emph{incremental prediction}. This paper presents a full-stack introduction to the delta-engine. The key feature of the delta-engine is its scalability to unknown elements within the world, Technically, it derives from the prefect co-work of the neural proxy and the base engine, and the alignment with high-quality data. We an engine-oriented fine-tuning method that embeds the base engine into the proxy. We then discuss a human-AI collaborative design process to produce novel and interesting data efficiently. Eventually, we propose three evaluation principles to comprehensively assess the performance of a delta engine: naive evaluation, incremental evaluation, and adversarial evaluation. Our code, data, and models are open-sourced at \url{https://github.com/gingasan/delta-engine}.
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# オンラインマトリックスコンプリート:ホットトアイテムとの協調的アプローチ

Online Matrix Completion: A Collaborative Approach with Hott Items ( http://arxiv.org/abs/2408.05843v1 )

ライセンス: Link先を確認
Dheeraj Baby, Soumyabrata Pal, (参考訳) 我々は、${M}$ users, ${N}$ items, ${T}$ rounds, and a unknown rank-$r$ reward matrix ${R}\in \mathbb{R}^{{M}\times {N}}$というオンライン設定における低階行列完備問題について検討する。 この問題は文献でよく研究されており、実際にいくつかの応用がある。 各ラウンドで、各ユーザに慎重に選択された個別のアイテムを${S}$で推奨し、ノイズの多い報酬を観察します。 In the regime where ${M},{N} >> {T}$, we propose two different computationally efficient algorithm for recommending items to users and analyze them under the benign \emph{hott items} assumption. 1) for ${S}=1$, under additional incoherence/smoothness assumptions on ${R}$, we propose the phased algorithm \textsc{PhasedClusterElim}。 我々のアルゴリズムは、$\tilde{O}({N}{M}^{-1}(\Delta^{-1}+\Delta{hott}}^{-2}))$に対して、$\Delta_{{hott}},\Delta$は問題依存のギャップパラメータであり、$\Delta_{{hott}} >> \Delta$はほとんど常に同じである。 2) 第二に、${S}=r$ で単純化された設定を考える。 ここでは、別の位相付きアルゴリズムである \textsc{DeterminantElim} を導入し、$\widetilde{O}({N}{M}^{-1/r}\Delta_{det}^{-1})$ の後悔の保証を導出する。 どちらのアルゴリズムも、ユーザー同士のコラボレーションを重要視し、段階的かつ斬新なアプローチで、ユーザーグループのサブ最適項目を共同で除去する。

We investigate the low rank matrix completion problem in an online setting with ${M}$ users, ${N}$ items, ${T}$ rounds, and an unknown rank-$r$ reward matrix ${R}\in \mathbb{R}^{{M}\times {N}}$. This problem has been well-studied in the literature and has several applications in practice. In each round, we recommend ${S}$ carefully chosen distinct items to every user and observe noisy rewards. In the regime where ${M},{N} >> {T}$, we propose two distinct computationally efficient algorithms for recommending items to users and analyze them under the benign \emph{hott items} assumption.1) First, for ${S}=1$, under additional incoherence/smoothness assumptions on ${R}$, we propose the phased algorithm \textsc{PhasedClusterElim}. Our algorithm obtains a near-optimal per-user regret of $\tilde{O}({N}{M}^{-1}(\Delta^{-1}+\Delta_{{hott}}^{-2}))$ where $\Delta_{{hott}},\Delta$ are problem-dependent gap parameters with $\Delta_{{hott}} >> \Delta$ almost always. 2) Second, we consider a simplified setting with ${S}=r$ where we make significantly milder assumptions on ${R}$. Here, we introduce another phased algorithm, \textsc{DeterminantElim}, to derive a regret guarantee of $\widetilde{O}({N}{M}^{-1/r}\Delta_{det}^{-1}))$ where $\Delta_{{det}}$ is another problem-dependent gap. Both algorithms crucially use collaboration among users to jointly eliminate sub-optimal items for groups of users successively in phases, but with distinctive and novel approaches.
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# 光子角運動量と零点振動

Photon Angular Momentum and Zero-Point Oscillations ( http://arxiv.org/abs/2408.05844v1 )

ライセンス: Link先を確認
Peter W. Milonni, G. Jordan Maclay, (参考訳) 局所的に振動する電荷分布からの放射は、古典的な電磁力学では説明できない角運動量を持つ。 最も単純な例は、単一の光子の電気双極子放射であり、この角運動量は双極子源の非励起状態における零点振動に起因することを示している。

Radiation from a localized, oscillating charge distribution can have angular momentum that cannot be explained in classical electrodynamics. We consider the simplest example -- electric dipole radiation of a single photon -- and show that this angular momentum is attributable to zero-point oscillations in unexcited states of the dipole source.
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# スパイクニューラルネットワークによる「XOR」問題の解決可能性について

On the Solvability of the {XOR} Problem by Spiking Neural Networks ( http://arxiv.org/abs/2408.05845v1 )

ライセンス: Link先を確認
Bernhard A. Moser, Michael Lunglmayr, (参考訳) 線形分離不能なXOR問題とバイナリ論理ゲートの表現に関する問題は、漏洩した積分と発火(LIF)ニューロンの最小構成でニューラルネットワークをスパイクすることで、時間的エンコーディングと解法の観点から再考される。 本稿では,情報符号化,完全接続型貯水池における隠蔽ユニット数,漏れパラメータの選択,リセット・ツー・ゼロ,リセット・バイ・サブトラクションといった高次パラメータの影響について,屈折時間に基づいて検討する。 重み行列の分布は、解を見つけるのにそれぞれ難易度、確率について洞察を与える。 これにより、グレードされたスパイクと適応されたリセット機構(reset-to-mod)とともにゼロ屈折時間がゼロとなり、隠れた層に2つのニューロンしか持たない最小構成のスパース解を実現できる。

The linearly inseparable XOR problem and the related problem of representing binary logical gates is revisited from the point of view of temporal encoding and its solvability by spiking neural networks with minimal configurations of leaky integrate-and-fire (LIF) neurons. We use this problem as an example to study the effect of different hyper parameters such as information encoding, the number of hidden units in a fully connected reservoir, the choice of the leaky parameter and the reset mechanism in terms of reset-to-zero and reset-by-subtraction based on different refractory times. The distributions of the weight matrices give insight into the difficulty, respectively the probability, to find a solution. This leads to the observation that zero refractory time together with graded spikes and an adapted reset mechanism, reset-to-mod, makes it possible to realize sparse solutions of a minimal configuration with only two neurons in the hidden layer to resolve all binary logic gate constellations with XOR as a special case.
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# 圧力検出のためのマルチ閾値戦略を用いたユニバーサルフレキシブルニアセンサニューロモルフィック触覚システム

A Universal Flexible Near-sensor Neuromorphic Tactile System with Multi-threshold strategy for Pressure Characteristic Detection ( http://arxiv.org/abs/2408.05846v1 )

ライセンス: Link先を確認
Jialin Liu, Diansheng Liao, (参考訳) 生体神経系を模倣して新しい世代情報処理システムを構築することは、高能率インテリジェントセンシングデバイスとバイオニックロボットを実装するための実現可能な方法である。 しかし、ほとんどの生物学的神経系、特に触覚系は様々な強力な機能を持っている。 これは、バイオニックシステム設計における大きな課題である。 本稿では,強い互換性とマルチスレッショルド信号処理戦略を備えた,広汎でフレキシブルなニューロモルフィックな触覚認識システムについて報告する。 神経系と同様に、我々の系内の信号はパルスとして送信され、閾値情報として処理される。 実現可能性検証には、3種類の異なる圧力信号(連続変化信号、モールス符号信号、シンボルパターン)をそれぞれ認識する。 本システムは,シンボルパターンやモース符号の認識において,これらの信号の傾向を正確に出力することができ,精度が高い。 従来のシステムと比較して,同一の認識タスクにおいて,システム消費は著しく減少する。 一方,システムの普遍性について,より詳細な紹介と実演を行う。

Constructing the new generation information processing system by mimicking biological nervous system is a feasible way for implement of high-efficient intelligent sensing device and bionic robot. However, most biological nervous system, especially the tactile system, have various powerful functions. This is a big challenge for bionic system design. Here we report a universal fully flexible neuromorphic tactile perception system with strong compatibility and a multithreshold signal processing strategy. Like nervous system, signal in our system is transmitted as pulses and processed as threshold information. For feasibility verification, recognition of three different type pressure signals (continuous changing signal, Morse code signal and symbol pattern) is tested respectively. Our system can output trend of these signals accurately and have a high accuracy in the recognition of symbol pattern and Morse code. Comparing to conventional system, consumption of our system significantly decreases in a same recognition task. Meanwhile, we give the detail introduction and demonstration of our system universality.
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# 欠落値を考慮した時系列分類のエンドツーエンドモデル

An End-to-End Model for Time Series Classification In the Presence of Missing Values ( http://arxiv.org/abs/2408.05849v1 )

ライセンス: Link先を確認
Pengshuai Yao, Mengna Liu, Xu Cheng, Fan Shi, Huan Li, Xiufeng Liu, Shengyong Chen, (参考訳) 時系列データを欠いた時系列分類は、時間的データが実用的な応用に欠落した値を含むことが多いため、時系列解析において一般的な問題である。 命令処理と分類を別々に扱う従来の2段階のアプローチは、命令処理でラベル情報が利用されないため、最適以下の性能をもたらす可能性がある。 一方、1段階のアプローチでは、不足した情報の下で特徴を学習することができるが、特徴表現は、分類過程においてインプットエラーが伝播するにつれて制限される。 これらの課題を克服するため、本研究では、単一のフレームワーク内でデータ計算と表現学習を統一し、ラベル情報を活用するためのエンドツーエンドニューラルネットワークを提案する。 従来の手法と異なり,本手法は計算データの精度に重点を置いておらず,分類性能を優先する。 ノイズインプットデータから有用な情報を抽出するために,特に設計されたマルチスケール特徴学習モジュールを実装した。 提案手法は,UCRアーカイブから得られた68個の単変量時系列データセットと,多変量時系列データセットの多変量データ比と4つの実世界データセットを用いて評価する。 その結果, 提案手法は, 不完全時系列分類における最先端手法, 特に欠落データが多いシナリオにおいて, より優れた性能を示すことがわかった。

Time series classification with missing data is a prevalent issue in time series analysis, as temporal data often contain missing values in practical applications. The traditional two-stage approach, which handles imputation and classification separately, can result in sub-optimal performance as label information is not utilized in the imputation process. On the other hand, a one-stage approach can learn features under missing information, but feature representation is limited as imputed errors are propagated in the classification process. To overcome these challenges, this study proposes an end-to-end neural network that unifies data imputation and representation learning within a single framework, allowing the imputation process to take advantage of label information. Differing from previous methods, our approach places less emphasis on the accuracy of imputation data and instead prioritizes classification performance. A specifically designed multi-scale feature learning module is implemented to extract useful information from the noise-imputation data. The proposed model is evaluated on 68 univariate time series datasets from the UCR archive, as well as a multivariate time series dataset with various missing data ratios and 4 real-world datasets with missing information. The results indicate that the proposed model outperforms state-of-the-art approaches for incomplete time series classification, particularly in scenarios with high levels of missing data.
翻訳日:2024-08-13 15:15:52 公開日:2024-08-11
# Kernel Goodness-of-Fitテストのロバスト性について

On the Robustness of Kernel Goodness-of-Fit Tests ( http://arxiv.org/abs/2408.05854v1 )

ライセンス: Link先を確認
Xing Liu, François-Xavier Briol, (参考訳) すべてのモデルが間違っている''''' であるため、サンプルサイズが十分に大きい場合、データが我々のモデルに準拠しているというヌル仮説は常に拒否される。 それにもかかわらず、確率モデルはまだ広く使われており、特定のタスクに十分なモデルかどうかというより関連する疑問が提起されている。 この問題は、我々のモデルに対応する分布から、ある程度の摂動まで、データが生成されるかどうかを問うことで、堅牢な適合性テスト問題として定式化することができる。 本稿では,既存のカーネルの良性テストが質的,定量的な堅牢性といった,ロバスト性という一般的な概念に従えば,ロバスト性は向上しないことを示す。 また、パラメータ推定文献からの傾きカーネルに基づくロバスト手法は、良質なテストの文脈において、両方のロバスト性を保証するには不十分であることを示す。 そこで本研究では,ハマー汚染モデルや密度不確かさ帯などの摂動モデルを含むカーネル・スタイン離散性球を用いて,この問題を解決した最初の堅牢なカーネル良性テストを提案する。

Goodness-of-fit testing is often criticized for its lack of practical relevance; since ``all models are wrong'', the null hypothesis that the data conform to our model is ultimately always rejected when the sample size is large enough. Despite this, probabilistic models are still used extensively, raising the more pertinent question of whether the model is good enough for a specific task. This question can be formalized as a robust goodness-of-fit testing problem by asking whether the data were generated by a distribution corresponding to our model up to some mild perturbation. In this paper, we show that existing kernel goodness-of-fit tests are not robust according to common notions of robustness including qualitative and quantitative robustness. We also show that robust techniques based on tilted kernels from the parameter estimation literature are not sufficient for ensuring both types of robustness in the context of goodness-of-fit testing. We therefore propose the first robust kernel goodness-of-fit test which resolves this open problem using kernel Stein discrepancy balls, which encompass perturbation models such as Huber contamination models and density uncertainty bands.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-11
# Retriever Augmented Large Language Models を用いた攻撃グラフ生成

Using Retriever Augmented Large Language Models for Attack Graph Generation ( http://arxiv.org/abs/2408.05855v1 )

ライセンス: Link先を確認
Renascence Tarafder Prapty, Ashish Kundu, Arun Iyengar, (参考訳) 現代のシステムの複雑さが増大するにつれて、効果的な脆弱性管理と脅威モデリング技術を通じて、セキュリティ姿勢を評価することの重要性も増す。 サイバーセキュリティ専門家の武器となる強力なツールのひとつがアタックグラフ(アタックグラフ)だ。 従来のアタックグラフの生成方法は、専門家の知識、手動のキュレーション、そして、脆弱性やエクスプロイトの進化を続ける性質のため、脅威の全体をカバーすることができない計算アルゴリズムを含む。 本稿では,ChatGPTのような大規模言語モデル(LLM)を活用して,その前提条件と効果に基づいて,CVE(Common Vulnerabilities and Exposures)をインテリジェントにチェーンすることで,攻撃グラフの自動生成を実現するアプローチについて検討する。 また、LSMを使って脅威レポートからアタックグラフを作成する方法も示している。

As the complexity of modern systems increases, so does the importance of assessing their security posture through effective vulnerability management and threat modeling techniques. One powerful tool in the arsenal of cybersecurity professionals is the attack graph, a representation of all potential attack paths within a system that an adversary might exploit to achieve a certain objective. Traditional methods of generating attack graphs involve expert knowledge, manual curation, and computational algorithms that might not cover the entire threat landscape due to the ever-evolving nature of vulnerabilities and exploits. This paper explores the approach of leveraging large language models (LLMs), such as ChatGPT, to automate the generation of attack graphs by intelligently chaining Common Vulnerabilities and Exposures (CVEs) based on their preconditions and effects. It also shows how to utilize LLMs to create attack graphs from threat reports.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-11
# シナプスクロスバーアレイのメモリ技術の比較評価 -第2報:設計ノブとDNN精度の動向-

Comparative Evaluation of Memory Technologies for Synaptic Crossbar Arrays- Part 2: Design Knobs and DNN Accuracy Trends ( http://arxiv.org/abs/2408.05857v1 )

ライセンス: Link先を確認
Jeffry Victor, Chunguang Wang, Sumeet K. Gupta, (参考訳) クロスバーメモリアレイは、ディープニューラルネットワーク(DNN)のインメモリ・コンピューティング(IMC)ベースのアクセラレーションの成果と評価されているが、関連するハードウェアの非理想性は、その有効性を制限している。 これを解決するには、ハードウェア非イデアルがDNN精度に与える影響を低減するための層間設計ソリューションが必要である。 本論文のパート1では,様々なメモリ技術とそのクロスバーアレイの協調最適化戦略を確立し,IMCロバスト性の観点から比較技術評価を行った。 本稿では, アレイサイズやビットスライス(デバイス当たりのビット数)などの様々な設計ノブと, 8T SRAM, 強誘電体トランジスタ(FeFET), Resistive RAM(ReRAM), スピン軌道トルク磁気RAM(SOT-MRAM)の性能への影響を, 7nm技術ノードにおける推論精度の文脈で解析する。 さらに,PWA(Partial Wordline Activation)や,ハードウェアの非理想性を低下させるカスタムADC参照レベルなどの回路設計ソリューションの効果を検討した。 CIFAR-10を用いたResNet-20の結果,PWAの精度は最大32.56%向上し,ADC参照レベルは最大31.62%向上した。 FeFETは他の技術と比較して、レイアウトの高さが小さく、メモリ状態の識別性が高いため、大規模な配列に最適である。 より高いビットスライスとより複雑なデータセット(ResNet-50とCifar-100)に対して、ReRAMはFeFETのパフォーマンスにマッチすることがわかった。

Crossbar memory arrays have been touted as the workhorse of in-memory computing (IMC)-based acceleration of Deep Neural Networks (DNNs), but the associated hardware non-idealities limit their efficacy. To address this, cross-layer design solutions that reduce the impact of hardware non-idealities on DNN accuracy are needed. In Part 1 of this paper, we established the co-optimization strategies for various memory technologies and their crossbar arrays, and conducted a comparative technology evaluation in the context of IMC robustness. In this part, we analyze various design knobs such as array size and bit-slice (number of bits per device) and their impact on the performance of 8T SRAM, ferroelectric transistor (FeFET), Resistive RAM (ReRAM) and spin-orbit-torque magnetic RAM (SOT-MRAM) in the context of inference accuracy at 7nm technology node. Further, we study the effect of circuit design solutions such as Partial Wordline Activation (PWA) and custom ADC reference levels that reduce the hardware non-idealities and comparatively analyze the response of each technology to such accuracy enhancing techniques. Our results on ResNet-20 (with CIFAR-10) show that PWA increases accuracy by up to 32.56% while custom ADC reference levels yield up to 31.62% accuracy enhancement. We observe that compared to the other technologies, FeFET, by virtue of its small layout height and high distinguishability of its memory states, is best suited for large arrays. For higher bit-slices and a more complex dataset (ResNet-50 with Cifar-100) we found that ReRAM matches the performance of FeFET.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-11
# 解釈可能性における認知的革命--説明行動から表現とアルゴリズムの解釈へ-

The Cognitive Revolution in Interpretability: From Explaining Behavior to Interpreting Representations and Algorithms ( http://arxiv.org/abs/2408.05859v1 )

ライセンス: Link先を確認
Adam Davies, Ashkan Khakzar, (参考訳) 計算グラフと学習パラメータは知っているが、これらの重みとそれらが実行する関数によって符号化された知識は本質的に解釈可能であるわけではない。 このように、深層学習の初期から、これらのモデルの振る舞いを説明し、内部で理解する努力が続けられており、近年では、大きな言語モデルのような基礎モデルによって学習された特徴と暗黙のアルゴリズムの研究分野として、機械的解釈可能性(MI)が独立した研究領域として出現している。 本研究では,人間の脳のような「ブラックボックス」知能システムの動作を研究・説明するために,認知科学の文脈でMIを基礎にすることを目的としている。 我々は認知科学史におけるいくつかの重要なアイデアと発展を活用し、MIにおける多様な目的を分散させ、明確な進路を示す。 まず、20世紀の心理学において、人間の心理学の研究を純粋な行動主義から心的表現や処理へとシフトさせた「認知革命」を反映した深層学習解釈の移行を促進するために、現在の手法が熟していると論じる。 第2に,計算神経科学における重要な並列性を反映した分類法を提案し,MI研究の2つの幅広いカテゴリ,意味論的解釈(潜伏表現の学習と使用),アルゴリズム的解釈(表現上の操作)を記述し,それらの相違する目標と研究対象を解明する。 最後に、両カテゴリの様々なアプローチの並列性と区別を詳述し、代表作品のそれぞれの長所と短所を分析し、基礎となる前提を明確にし、重要な課題を概説し、共通の枠組みの下でこれらの解釈様式を統一する可能性について議論する。

Artificial neural networks have long been understood as "black boxes": though we know their computation graphs and learned parameters, the knowledge encoded by these weights and functions they perform are not inherently interpretable. As such, from the early days of deep learning, there have been efforts to explain these models' behavior and understand them internally; and recently, mechanistic interpretability (MI) has emerged as a distinct research area studying the features and implicit algorithms learned by foundation models such as large language models. In this work, we aim to ground MI in the context of cognitive science, which has long struggled with analogous questions in studying and explaining the behavior of "black box" intelligent systems like the human brain. We leverage several important ideas and developments in the history of cognitive science to disentangle divergent objectives in MI and indicate a clear path forward. First, we argue that current methods are ripe to facilitate a transition in deep learning interpretation echoing the "cognitive revolution" in 20th-century psychology that shifted the study of human psychology from pure behaviorism toward mental representations and processing. Second, we propose a taxonomy mirroring key parallels in computational neuroscience to describe two broad categories of MI research, semantic interpretation (what latent representations are learned and used) and algorithmic interpretation (what operations are performed over representations) to elucidate their divergent goals and objects of study. Finally, we elaborate the parallels and distinctions between various approaches in both categories, analyze the respective strengths and weaknesses of representative works, clarify underlying assumptions, outline key challenges, and discuss the possibility of unifying these modes of interpretation under a common framework.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-11
# 強化学習による因果発見による配送リスクの根本原因

Root Cause Attribution of Delivery Risks via Causal Discovery with Reinforcement Learning ( http://arxiv.org/abs/2408.05860v1 )

ライセンス: Link先を確認
Shi Bo, Minheng Xiao, (参考訳) 本稿では, 因果発見と強化学習を統合することで, サプライチェーンにおける納入リスクの根本原因を解明する手法を提案する。 サプライチェーンが複雑化するにつれて、根本原因分析の伝統的な手法は、様々な要因間の複雑な相互関係を捉えるのに苦労し、しばしば素早い相関と準最適決定につながる。 提案手法は, 因果探索を利用して操作変数間の真の因果関係を同定し, 因果グラフを反復的に洗練するための強化学習を行うことにより, これらの課題に対処する。 本手法は、配送モードや配送状態などの遅延配送のキードライバの正確な識別を可能にし、サプライチェーン性能を最適化するための実用的な洞察を提供する。 当社のアプローチを現実世界のサプライチェーンデータセットに適用し、デリバリ遅延の原因を明らかにする上での有効性を示し、これらのリスクを軽減するための戦略を提供します。 この結果は,サプライチェーンの運用効率,顧客満足度,全体的な収益性の向上に重要な影響を及ぼす。

This paper presents a novel approach to root cause attribution of delivery risks within supply chains by integrating causal discovery with reinforcement learning. As supply chains become increasingly complex, traditional methods of root cause analysis struggle to capture the intricate interrelationships between various factors, often leading to spurious correlations and suboptimal decision-making. Our approach addresses these challenges by leveraging causal discovery to identify the true causal relationships between operational variables, and reinforcement learning to iteratively refine the causal graph. This method enables the accurate identification of key drivers of late deliveries, such as shipping mode and delivery status, and provides actionable insights for optimizing supply chain performance. We apply our approach to a real-world supply chain dataset, demonstrating its effectiveness in uncovering the underlying causes of delivery delays and offering strategies for mitigating these risks. The findings have significant implications for improving operational efficiency, customer satisfaction, and overall profitability within supply chains.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-11
# 知識グラフに基づくヒューマンライクメモリシステムによる部分観測可能なマルコフ決定過程の解法

Leveraging Knowledge Graph-Based Human-Like Memory Systems to Solve Partially Observable Markov Decision Processes ( http://arxiv.org/abs/2408.05861v1 )

ライセンス: Link先を確認
Taewoon Kim, Vincent François-Lavet, Michael Cochez, (参考訳) 人間はいつでも環境の一部だけを観察するが、我々の長期記憶システムのおかげで、複雑な長期的な決定を下すことができる。 AIが長期記憶システムをどのように学習し活用するかをテストするため、我々は部分的に観察可能なマルコフ決定プロセス(POMDP)環境を開発し、エージェントは迷路をナビゲートしながら質問に答えなければならない。 環境は完全に知識グラフ(KG)に基づいており、隠れた状態は動的KGである。 KGは人間でも機械でも読みやすいので、エージェントが何を覚えて忘れているかを簡単に確認できる。 私たちは、エージェントを異なるメモリシステムで訓練し比較し、独自のメモリシステムを管理する上で、人間の脳がどのように機能するかを明らかにします。 学習目標を記憶管理方針の学習として再設定することで,解釈可能なだけでなく,再利用可能な,最も可能性の高い信念状態を捉えることができた。

Humans observe only part of their environment at any moment but can still make complex, long-term decisions thanks to our long-term memory system. To test how an AI can learn and utilize its long-term memory system, we have developed a partially observable Markov decision processes (POMDP) environment, where the agent has to answer questions while navigating a maze. The environment is completely knowledge graph (KG) based, where the hidden states are dynamic KGs. A KG is both human- and machine-readable, making it easy to see what the agents remember and forget. We train and compare agents with different memory systems, to shed light on how human brains work when it comes to managing its own memory systems. By repurposing the given learning objective as learning a memory management policy, we were able to capture the most likely belief state, which is not only interpretable but also reusable.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-11
# SABER-6D:形状表現に基づくインプシットオブジェクトポース推定

SABER-6D: Shape Representation Based Implicit Object Pose Estimation ( http://arxiv.org/abs/2408.05867v1 )

ライセンス: Link先を確認
Shishir Reddy Vutukur, Mengkejiergeli Ba, Benjamin Busam, Matthias Kayser, Gurprit Singh, (参考訳) 本稿では,SABERと呼ばれる新しいエンコーダデコーダアーキテクチャを提案し,与えられたポーズで形状表現を学習することで,埋め込み空間における物体の6次元ポーズを学習する。 このモデルにより、RGB画像入力からターゲットポーズで形状表現を行うことで、ポーズを学習することができる。 2次元画像に基づく物体の回転空間の学習を支援する補助タスクとして形状表現を行う。 画像エンコーダは埋め込み空間内の回転を予測し、DeepSDFベースのデコーダは、所定のポーズでオブジェクトの形状を表現することを学習する。 我々のアプローチは形状に基づいており、パイプラインは対称性に関係なくどんな種類のオブジェクトにも適している。 さらに、SABERをトレーニングするためには、オブジェクトのCADモデルのみが必要である。 我々のパイプラインは合成データに基づいており、対称ラベルを使わずに対称オブジェクトを処理できるため、追加のラベル付きトレーニングデータを必要としない。 実験により,Occlusion-LineMODおよびT-LESSデータセット上で,対称オブジェクトと非対称オブジェクトのベンチマーク結果に近い結果が得られた。

In this paper, we propose a novel encoder-decoder architecture, named SABER, to learn the 6D pose of the object in the embedding space by learning shape representation at a given pose. This model enables us to learn pose by performing shape representation at a target pose from RGB image input. We perform shape representation as an auxiliary task which helps us in learning rotations space for an object based on 2D images. An image encoder predicts the rotation in the embedding space and the DeepSDF based decoder learns to represent the object's shape at the given pose. As our approach is shape based, the pipeline is suitable for any type of object irrespective of the symmetry. Moreover, we need only a CAD model of the objects to train SABER. Our pipeline is synthetic data based and can also handle symmetric objects without symmetry labels and, thus, no additional labeled training data is needed. The experimental evaluation shows that our method achieves close to benchmark results for both symmetric objects and asymmetric objects on Occlusion-LineMOD, and T-LESS datasets.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-11
# LaWa: 画像のインジェネレーションに潜在空間を使う

LaWa: Using Latent Space for In-Generation Image Watermarking ( http://arxiv.org/abs/2408.05868v1 )

ライセンス: Link先を確認
Ahmad Rezaei, Mohammad Akbari, Saeed Ranjbar Alvar, Arezou Fatemi, Yong Zhang, (参考訳) 生成モデルは、実際のものと区別できない高品質な画像を生成するため、AI生成画像の悪意ある使用に関する懸念が高まっている。 知覚不能な画像透かしはそのような問題に対する有効な解決策の1つである。 以前の透かし法は、透かしを追加するために、イメージを潜在空間にマッピングする。 さらに、遅延拡散モデル(LDM)は、事前訓練されたオートエンコーダの潜時空間で画像を生成する。 この潜伏空間は、ウォーターマーキングを生成プロセスに統合するために利用できると我々は主張する。 この目的のために, LDM用に設計された次世代画像透かし手法であるLaWaを提案する。 粗い透かし埋め込みモジュールを使用することで、LaWaは事前訓練されたオートエンコーダの潜伏空間を修正し、画像の知覚品質を維持しながら、幅広い画像変換に対して高い堅牢性を実現する。 また,LaWaは一般的な画像透かしにも利用できることを示す。 広範な実験を通じて、LaWaは、認識品質、攻撃に対する堅牢性、計算複雑性において、非常に低い偽陽性率を持ちながら、過去の研究よりも優れていたことを実証した。 コードはここにある。

With generative models producing high quality images that are indistinguishable from real ones, there is growing concern regarding the malicious usage of AI-generated images. Imperceptible image watermarking is one viable solution towards such concerns. Prior watermarking methods map the image to a latent space for adding the watermark. Moreover, Latent Diffusion Models (LDM) generate the image in the latent space of a pre-trained autoencoder. We argue that this latent space can be used to integrate watermarking into the generation process. To this end, we present LaWa, an in-generation image watermarking method designed for LDMs. By using coarse-to-fine watermark embedding modules, LaWa modifies the latent space of pre-trained autoencoders and achieves high robustness against a wide range of image transformations while preserving perceptual quality of the image. We show that LaWa can also be used as a general image watermarking method. Through extensive experiments, we demonstrate that LaWa outperforms previous works in perceptual quality, robustness against attacks, and computational complexity, while having very low false positive rate. Code is available here.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-11
# キックトップの非線形性とカオス

Non-linearity and chaos in the kicked top ( http://arxiv.org/abs/2408.05869v1 )

ライセンス: Link先を確認
Amit Anand, Robert B. Mann, Shohini Ghose, (参考訳) 古典的なカオスは、力学系の本質的に非線型性から生じる。 しかし、量子写像は線型であるため、カオスの定義は単純ではない。 古典力学はハミルトンの位相空間上の方程式によって支配されるが、その量子力学はヒルベルト空間におけるシュリンガー方程式によって記述される。 蹴り上げられたトップにおけるカオスの開始を示す非線型性の臨界度を、オリジナルのハミルトニアンを修正して、非線型性が量$p$でパラメータ化されるように探索する。 修正されたキックトップの2つの異なる挙動は、$p$の値に依存する。 カオスは、$p$が1\leq p \leq 2$の範囲内で変化するのに対して、$p > 2$は減少し、最終的に$p$が無限大になるにつれて、純粋に正則な振動系へと遷移する。 また、非カオス力学の複雑な位相空間構造についてもコメントする。 我々の調査は、古典システムにおける非線形性とカオスの関係に光を当て、その動的挙動に関する洞察を提供する。

Classical chaos arises from the inherent non-linearity of dynamical systems. However, quantum maps are linear; therefore, the definition of chaos is not straightforward. To address this, we study a quantum system that exhibits chaotic behavior in its classical limit: the kicked top model, whose classical dynamics are governed by Hamilton's equations on phase space, whereas its quantum dynamics are described by the Schr\"odinger equation in Hilbert space. We explore the critical degree of non-linearity signifying the onset of chaos in the kicked top by modifying the original Hamiltonian so that the non-linearity is parametrized by a quantity $p$. We find two distinct behaviors of the modified kicked top depending on the value of $p$. Chaos intensifies as $p$ varies within the range of $1\leq p \leq 2$, whereas it diminishes for $p > 2$, eventually transitioning to a purely regular oscillating system as $p$ tends to infinity. We also comment on the complicated phase space structure for non-chaotic dynamics. Our investigation sheds light on the relationship between non-linearity and chaos in classical systems, offering insights into their dynamic behavior.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-11
# 境界を定義する: 大規模言語モデルにおけるタスク実現可能性のスペクトル

Defining Boundaries: A Spectrum of Task Feasibility for Large Language Models ( http://arxiv.org/abs/2408.05873v1 )

ライセンス: Link先を確認
Wenbo Zhang, Zihang Xu, Hengrui Cai, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示しているが、その知識や能力を超えるクエリを処理できない場合が多いため、誤ったあるいは偽造された応答につながる。 本稿では,LLMが能力を超えるために必要なスキルのために,実用不可能なタスクを認識し,拒否する必要性に対処する。 まず、LLMの非実用的タスクを体系的に概念化し、関連する幻覚のスペクトルをカバーする形式的定義と分類を提供する。 我々は,タスク実現性に関する複数のLSMの能力をテストするために,多種多様な実現不可能かつ実現可能なタスクからなる新しいデータセットを開発し,ベンチマークする。 さらに, 微調整によるLLMの拒絶機能向上のための訓練強化の可能性についても検討した。 実験により本手法の有効性を検証し,実アプリケーションにおける LLM の動作境界を改良するための有望な方向を提供する。

Large language models (LLMs) have shown remarkable performance in various tasks but often fail to handle queries that exceed their knowledge and capabilities, leading to incorrect or fabricated responses. This paper addresses the need for LLMs to recognize and refuse infeasible tasks due to the required skills surpassing their capabilities. We first systematically conceptualize infeasible tasks for LLMs, providing formal definitions and categorizations that cover a spectrum of related hallucinations. We develop and benchmark a new dataset comprising diverse infeasible and feasible tasks to test multiple LLMs' abilities on task feasibility. Furthermore, we explore the potential of training enhancements to increase LLMs' refusal capabilities with fine-tuning. Experiments validate the effectiveness of our methods, offering promising directions for refining the operational boundaries of LLMs in real applications.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-11
# 商業・コンプライアンスにおけるLCMによるロバスト製品分類

LLM-Based Robust Product Classification in Commerce and Compliance ( http://arxiv.org/abs/2408.05874v1 )

ライセンス: Link先を確認
Sina Gholamian, Gianfranco Romani, Bartosz Rudnikowicz, Laura Skylaki, (参考訳) 商品分類は、コンプライアンス規則が検証され、製品カテゴリーに基づいて税や義務が適用されるため、国際貿易において重要な課題である。 製品の手動分類は時間がかかり、エラーが発生しやすいため、輸入・輸出された製品の膨大な量は手動の処理を不可能にしている。 その結果、国際貿易に関わる電子商取引プラットフォームや企業は、機械学習を用いた自動製品分類に移行した。 しかし、現在のアプローチでは、非常に簡潔で不完全な製品記述など、製品分類に関連する現実的な課題は考慮されていない。 さらに, 生成型大規模言語モデル (LLMs) の最近の進歩とその推論能力は, 製品分類や電子商取引にはほとんど及ばない。 本研究では,産業分類の現実的な課題について考察し,現実的なデータシミュレーションを可能にするデータ摂動を提案する。 さらに,不完全なデータが存在する場合の予測の堅牢性を向上させるため,LCMに基づく製品分類を採用する。 本研究は、文脈内学習を用いたLLMが、クリーンデータシナリオにおける教師ありアプローチよりも優れていることを示す。 さらに、データアタックが存在する場合、LLMは教師付きアプローチよりもはるかに堅牢であることを示す。

Product classification is a crucial task in international trade, as compliance regulations are verified and taxes and duties are applied based on product categories. Manual classification of products is time-consuming and error-prone, and the sheer volume of products imported and exported renders the manual process infeasible. Consequently, e-commerce platforms and enterprises involved in international trade have turned to automatic product classification using machine learning. However, current approaches do not consider the real-world challenges associated with product classification, such as very abbreviated and incomplete product descriptions. In addition, recent advancements in generative Large Language Models (LLMs) and their reasoning capabilities are mainly untapped in product classification and e-commerce. In this research, we explore the real-life challenges of industrial classification and we propose data perturbations that allow for realistic data simulation. Furthermore, we employ LLM-based product classification to improve the robustness of the prediction in presence of incomplete data. Our research shows that LLMs with in-context learning outperform the supervised approaches in the clean-data scenario. Additionally, we illustrate that LLMs are significantly more robust than the supervised approaches when data attacks are present.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-11
# 量子不協和音について

Note on quantum discord ( http://arxiv.org/abs/2408.05876v1 )

ライセンス: Link先を確認
Wang Yiding, Huang Xiaofen, Zhang Tinggui, (参考訳) 量子不協和は絡み合いを超えており、分離可能な幅広い量子状態に存在し、量子情報タスクにおいて重要な役割を果たす。 本稿では,まず,密度行列の部分的転置に基づく2量子系に対するゼロ・ディスコード基準を提案し,それをqubit-qudit系に拡張した。 詳細な例により、不協和検出におけるこれらの基準の有効性を示す。 さらに,密度行列の固有値ベクトルを用いた幾何量子不協和(GQD)の解析的下界を提供する。 最後に、GQDの下限に基づいて、一方的な労働赤字を低くした。

Quantum discord goes beyond entanglement and exists in a wide range of quantum states that may be separable, playing a crucial role in quantum information tasks. In this paper, we firstly proposed a zero-discord criterion for two-qubit system based on the partial transposition of density matrix, and then extended it to the qubit-qudit system. By detailed examples we demonstrate the effectiveness of these criteria in detecting discord. Moreover, we provide an analytical lower bound of geometric quantum discord(GQD) using eigenvalue vectors of density matrix. Finally, we presented a one-way work deficit lower bound based on our lower bound of GQD.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-11