このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241025となっている論文です。

PDF登録状況(公開日: 20241025)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子近似最適化アルゴリズムにおける最適パラメータの対称性インフォームド転送可能性

Symmetry-informed transferability of optimal parameters in the Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2407.04496v2 )

ライセンス: Link先を確認
Isak Lyngfelt, Laura García-Álvarez, (参考訳) 変動量子アルゴリズムの主な限界の1つは、高次元の非凸変動パラメータランドスケープの古典的な最適化である。 この最適化を簡略化するために、問題対称性と典型的な最適パラメータを集中する初期点として、探索空間を縮小することができる。 本稿では、d-正則木部分グラフを用いたMaxCut問題に対する量子近似最適化アルゴリズムの最適パラメータの典型的な値を考察し、異なるグラフインスタンスで再利用する。 数種類の重み付きおよび非重み付きグラフの最適化環境における対称性を証明し、複数の最適パラメータの存在を説明する。 しかし、全ての最適集合が問題インスタンス間でうまく転送できるわけではない。 探索空間内で特定の移動可能な領域を見つけ、研究された対称性を用いて最適なパラメータの任意の集合を適切な領域に変換する方法を示す。 最後に、これらの結果をIsing Hamiltonianによって記述された一般的な古典的最適化問題、関連する物理モデルに対するハミルトン変分アンサッツ、再帰的および多重角量子近似アルゴリズムに拡張する。

One of the main limitations of variational quantum algorithms is the classical optimization of the highly dimensional non-convex variational parameter landscape. To simplify this optimization, we can reduce the search space using problem symmetries and typical optimal parameters as initial points if they concentrate. In this article, we consider typical values of optimal parameters of the quantum approximate optimization algorithm for the MaxCut problem with d-regular tree subgraphs and reuse them in different graph instances. We prove symmetries in the optimization landscape of several kinds of weighted and unweighted graphs, which explains the existence of multiple sets of optimal parameters. However, we observe that not all optimal sets can be successfully transferred between problem instances. We find specific transferable domains in the search space and show how to translate an arbitrary set of optimal parameters into the adequate domain using the studied symmetries. Finally, we extend these results to general classical optimization problems described by Ising Hamiltonians, the Hamiltonian variational ansatz for relevant physical models, and the recursive and multi-angle quantum approximate optimization algorithms.
翻訳日:2024-11-08 23:46:45 公開日:2024-10-25
# GPT vs RETRO:検索区間とパラメータ効率の良いファインチューニングの探索

GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2407.04528v2 )

ライセンス: Link先を確認
Aleksander Ficek, Jiaqi Zeng, Oleksii Kuchaiev, (参考訳) パラメータ効率の良いファインチューニング(PEFT)と検索時間拡張生成(RAG)は、計算要求を最小化しながら大規模言語モデルを適応するための一般的な手法となっている。 本稿では, PEFT法 (P-tuning, Adapters, LoRA) を改良型Retrieval-Enhanced Transformer (RETRO) およびベースラインGPTモデルに適用する。 我々は,RETROモデルが,独自の事前学習プロセスによりゼロショット設定でGPTモデルより優れていることを示すが,PEFTではGPTモデルは高い性能を示す。 さらに,本研究では,8Bパラメータモデルがコストと性能の最適バランスと,他のPEFT手法に遅れたPチューニングラグを伴っていることを示唆した。 Instruction-tuned RETROモデルとbase RETROモデルにPEFTを適用する場合の比較分析を行う。 本研究は, GPTモデルとRETROモデルの両方に適用された各種PEFT法とRAGを総合的に比較し, それらの相対的性能を強調した。

Parameter-Efficient Fine-Tuning (PEFT) and Retrieval-Augmented Generation (RAG) have become popular methods for adapting large language models while minimizing compute requirements. In this paper, we apply PEFT methods (P-tuning, Adapters, and LoRA) to a modified Retrieval-Enhanced Transformer (RETRO) and a baseline GPT model across several sizes, ranging from 823 million to 48 billion parameters. We show that RETRO models outperform GPT models in zero-shot settings due to their unique pre-training process but GPT models have higher performance potential with PEFT. Additionally, our study indicates that 8B parameter models strike an optimal balance between cost and performance and P-tuning lags behind other PEFT techniques. We further provide a comparative analysis between applying PEFT to an Instruction-tuned RETRO model and base RETRO model. This work presents the first comprehensive comparison of various PEFT methods integrated with RAG, applied to both GPT and RETRO models, highlighting their relative performance.
翻訳日:2024-11-08 23:46:45 公開日:2024-10-25
# GPT vs RETRO:検索区間とパラメータ効率の良いファインチューニングの探索

GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2407.04528v3 )

ライセンス: Link先を確認
Aleksander Ficek, Jiaqi Zeng, Oleksii Kuchaiev, (参考訳) パラメータ効率の良いファインチューニング(PEFT)と検索時間拡張生成(RAG)は、計算要求を最小化しながら大規模言語モデルを適応するための一般的な手法となっている。 本稿では, PEFT法 (P-tuning, Adapters, LoRA) を改良型Retrieval-Enhanced Transformer (RETRO) およびベースラインGPTモデルに適用する。 我々は,RETROモデルが,独自の事前学習プロセスによりゼロショット設定でGPTモデルより優れていることを示すが,PEFTではGPTモデルは高い性能を示す。 さらに,本研究では,8Bパラメータモデルがコストと性能の最適バランスと,他のPEFT手法に遅れたPチューニングラグを伴っていることを示唆した。 Instruction-tuned RETROモデルとbase RETROモデルにPEFTを適用する場合の比較分析を行う。 本研究は, GPTモデルとRETROモデルの両方に適用された各種PEFT法とRAGを総合的に比較し, それらの相対的性能を強調した。

Parameter-Efficient Fine-Tuning (PEFT) and Retrieval-Augmented Generation (RAG) have become popular methods for adapting large language models while minimizing compute requirements. In this paper, we apply PEFT methods (P-tuning, Adapters, and LoRA) to a modified Retrieval-Enhanced Transformer (RETRO) and a baseline GPT model across several sizes, ranging from 823 million to 48 billion parameters. We show that RETRO models outperform GPT models in zero-shot settings due to their unique pre-training process but GPT models have higher performance potential with PEFT. Additionally, our study indicates that 8B parameter models strike an optimal balance between cost and performance and P-tuning lags behind other PEFT techniques. We further provide a comparative analysis between applying PEFT to an Instruction-tuned RETRO model and base RETRO model. This work presents the first comprehensive comparison of various PEFT methods integrated with RAG, applied to both GPT and RETRO models, highlighting their relative performance.
翻訳日:2024-11-08 23:46:45 公開日:2024-10-25
# GPT vs RETRO:検索区間とパラメータ効率の良いファインチューニングの探索

GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2407.04528v4 )

ライセンス: Link先を確認
Aleksander Ficek, Jiaqi Zeng, Oleksii Kuchaiev, (参考訳) パラメータ効率の良いファインチューニング(PEFT)と検索時間拡張生成(RAG)は、計算要求を最小化しながら大規模言語モデルを適応するための一般的な手法となっている。 本稿では, PEFT法 (P-tuning, Adapters, LoRA) を改良型Retrieval-Enhanced Transformer (RETRO) およびベースラインGPTモデルに適用する。 我々は,RETROモデルが,独自の事前学習プロセスによりゼロショット設定でGPTモデルより優れていることを示すが,PEFTではGPTモデルは高い性能を示す。 さらに,本研究では,8Bパラメータモデルがコストと性能の最適バランスと,他のPEFT手法に遅れたPチューニングラグを伴っていることを示唆した。 Instruction-tuned RETROモデルとbase RETROモデルにPEFTを適用する場合の比較分析を行う。 本研究は, GPTモデルとRETROモデルの両方に適用された各種PEFT法とRAGを総合的に比較し, それらの相対的性能を強調した。

Parameter-Efficient Fine-Tuning (PEFT) and Retrieval-Augmented Generation (RAG) have become popular methods for adapting large language models while minimizing compute requirements. In this paper, we apply PEFT methods (P-tuning, Adapters, and LoRA) to a modified Retrieval-Enhanced Transformer (RETRO) and a baseline GPT model across several sizes, ranging from 823 million to 48 billion parameters. We show that RETRO models outperform GPT models in zero-shot settings due to their unique pre-training process but GPT models have higher performance potential with PEFT. Additionally, our study indicates that 8B parameter models strike an optimal balance between cost and performance and P-tuning lags behind other PEFT techniques. We further provide a comparative analysis between applying PEFT to an Instruction-tuned RETRO model and base RETRO model. This work presents the first comprehensive comparison of various PEFT methods integrated with RAG, applied to both GPT and RETRO models, highlighting their relative performance.
翻訳日:2024-11-08 23:46:45 公開日:2024-10-25
# ストーリー全体ではない:コヒーレンス、グラウンド、反復の測定以上のビジュアルストーリーテリングを評価する必要がある

Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition ( http://arxiv.org/abs/2407.04559v3 )

ライセンス: Link先を確認
Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle, (参考訳) 視覚的なストーリーテリングは、時間順に順序付けられた画像の列が与えられた自然言語のストーリーを生成することで構成される。 このタスクは、モデルにとって難しいだけでなく、ストーリーを「良い」ものにする方法についてのコンセンサスがないため、自動メトリクスで評価するのも非常に難しい。 本稿では,視覚的接地,コヒーレンス,反復性の3つの重要な側面について,人間の類似性の観点から物語の質を測定する新しい手法を提案する。 次に,この手法を用いて複数のモデルから生成されたストーリーを評価することにより,基礎モデルであるLLaVAが最良の結果を得ることを示すが,50倍の小型ビジュアルストーリーテリングモデルであるTAPMに比べてわずかに劣る。 TAPMの視覚的および言語的コンポーネントをアップグレードすると、比較的少ないパラメータで競合性能が得られるモデルが得られる。 最後に、人間の評価研究を行い、その結果から「良い」ストーリーは人間のような視覚的接地、コヒーレンス、反復以上のレベルを必要とする可能性が示唆された。

Visual storytelling consists in generating a natural language story given a temporally ordered sequence of images. This task is not only challenging for models, but also very difficult to evaluate with automatic metrics since there is no consensus about what makes a story 'good'. In this paper, we introduce a novel method that measures story quality in terms of human likeness regarding three key aspects highlighted in previous work: visual grounding, coherence, and repetitiveness. We then use this method to evaluate the stories generated by several models, showing that the foundation model LLaVA obtains the best result, but only slightly so compared to TAPM, a 50-times smaller visual storytelling model. Upgrading the visual and language components of TAPM results in a model that yields competitive performance with a relatively low number of parameters. Finally, we carry out a human evaluation study, whose results suggest that a 'good' story may require more than a human-like level of visual grounding, coherence, and repetition.
翻訳日:2024-11-08 23:46:45 公開日:2024-10-25
# ストーリー全体ではない:コヒーレンス、グラウンド、反復の測定以上のビジュアルストーリーテリングを評価する必要がある

Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition ( http://arxiv.org/abs/2407.04559v4 )

ライセンス: Link先を確認
Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle, (参考訳) 視覚的なストーリーテリングは、時間順に順序付けられた画像の列が与えられた自然言語のストーリーを生成することで構成される。 このタスクは、モデルにとって難しいだけでなく、ストーリーを「良い」ものにする方法についてのコンセンサスがないため、自動メトリクスで評価するのも非常に難しい。 本稿では,視覚的接地,コヒーレンス,反復性の3つの重要な側面について,人間の類似性の観点から物語の質を測定する新しい手法を提案する。 次に,この手法を用いて複数のモデルから生成されたストーリーを評価することにより,基礎モデルであるLLaVAが最良の結果を得ることを示すが,50倍の小型ビジュアルストーリーテリングモデルであるTAPMに比べてわずかに劣る。 TAPMの視覚的および言語的コンポーネントをアップグレードすると、比較的少ないパラメータで競合性能が得られるモデルが得られる。 最後に、人間の評価研究を行い、その結果から「良い」ストーリーは人間のような視覚的接地、コヒーレンス、反復以上のレベルを必要とする可能性が示唆された。

Visual storytelling consists in generating a natural language story given a temporally ordered sequence of images. This task is not only challenging for models, but also very difficult to evaluate with automatic metrics since there is no consensus about what makes a story 'good'. In this paper, we introduce a novel method that measures story quality in terms of human likeness regarding three key aspects highlighted in previous work: visual grounding, coherence, and repetitiveness. We then use this method to evaluate the stories generated by several models, showing that the foundation model LLaVA obtains the best result, but only slightly so compared to TAPM, a 50-times smaller visual storytelling model. Upgrading the visual and language components of TAPM results in a model that yields competitive performance with a relatively low number of parameters. Finally, we carry out a human evaluation study, whose results suggest that a 'good' story may require more than a human-like level of visual grounding, coherence, and repetition.
翻訳日:2024-11-08 23:46:45 公開日:2024-10-25
# 1羽, 4羽の鳥:教師付きコントラスト学習を用いたQAシステムの総合的解法

One Stone, Four Birds: A Comprehensive Solution for QA System Using Supervised Contrastive Learning ( http://arxiv.org/abs/2407.09011v2 )

ライセンス: Link先を確認
Bo Wang, Tsunenori Mine, (参考訳) 本稿では,教師付きコントラスト学習(SCL)による質問応答(QA)システムの堅牢性と効率性を両立させる,新しい総合的ソリューションを提案する。 事前訓練された言語モデルでは、少量のデータと単純な微調整を必要とせず、高性能なQAシステムのトレーニングが簡単になっている。 しかし、近年の進歩にもかかわらず、既存のQAシステムは機能や訓練効率に重大な欠陥をみせている。 ユーザ入力意図分類、ドメイン外入力検出、新しい意図発見、継続学習の4つの重要なタスクを定義することで、機能問題に対処する。 次に,SCLをベースとした表現学習手法を活用し,クラス内およびクラス間分散特徴空間を効率的に構築し,既知の意図分類と未知の意図検出と発見を容易にする。 その結果、下流タスクに最小限のチューニングを施すことで、モデル効率を大幅に改善し、全てのタスクにまたがる新しい最先端パフォーマンスを実現することができる。

This paper presents a novel and comprehensive solution to enhance both the robustness and efficiency of question answering (QA) systems through supervised contrastive learning (SCL). Training a high-performance QA system has become straightforward with pre-trained language models, requiring only a small amount of data and simple fine-tuning. However, despite recent advances, existing QA systems still exhibit significant deficiencies in functionality and training efficiency. We address the functionality issue by defining four key tasks: user input intent classification, out-of-domain input detection, new intent discovery, and continual learning. We then leverage a unified SCL-based representation learning method to efficiently build an intra-class compact and inter-class scattered feature space, facilitating both known intent classification and unknown intent detection and discovery. Consequently, with minimal additional tuning on downstream tasks, our approach significantly improves model efficiency and achieves new state-of-the-art performance across all tasks.
翻訳日:2024-11-08 22:17:54 公開日:2024-10-25
# SE(3)-bi-equivariant Transformer for Point Cloud Assembly

SE(3)-bi-equivariant Transformers for Point Cloud Assembly ( http://arxiv.org/abs/2407.09167v3 )

ライセンス: Link先を確認
Ziming Wang, Rebecka Jörnsten, (参考訳) 一対の点雲が与えられた場合、アセンブリの目標は、一方の点雲ともう一方の点雲を整合させる厳密な変換を回復することである。 このタスクは、点雲がオーバーラップされない可能性があり、任意の初期位置を持つため、難しい。 これらの問題に対処するため,SE(3)-bi-equivariant transformer (BITR, SE(3)-bi-equivariant transformer) という手法を提案する。 その等価性のため、BITRはオーバーラップしないPCを扱えるだけでなく、初期位置に対する堅牢性も保証できる。 具体的には、BITRはまず、新しい$SE(3) \times SE(3)$-transformerを使って入力の特徴を抽出し、学習した特徴をSE(3)を出力として投影する。 さらに, BITR にスワップとスケールの等式を組み込むことにより, インプットのスケーリングおよびスワップにおいて, 安定した性能を保証できることが理論的に示されている。 本研究は,BITRの実践的課題における有効性について実験的に示す。

Given a pair of point clouds, the goal of assembly is to recover a rigid transformation that aligns one point cloud to the other. This task is challenging because the point clouds may be non-overlapped, and they may have arbitrary initial positions. To address these difficulties, we propose a method, called SE(3)-bi-equivariant transformer (BITR), based on the SE(3)-bi-equivariance prior of the task: it guarantees that when the inputs are rigidly perturbed, the output will transform accordingly. Due to its equivariance property, BITR can not only handle non-overlapped PCs, but also guarantee robustness against initial positions. Specifically, BITR first extracts features of the inputs using a novel $SE(3) \times SE(3)$-transformer, and then projects the learned feature to group SE(3) as the output. Moreover, we theoretically show that swap and scale equivariances can be incorporated into BITR, thus it further guarantees stable performance under scaling and swapping the inputs. We experimentally show the effectiveness of BITR in practical tasks.
翻訳日:2024-11-08 22:06:29 公開日:2024-10-25
# 無限文脈LLMのためのヒューマン・ライクなエピソード記憶

Human-like Episodic Memory for Infinite Context LLMs ( http://arxiv.org/abs/2407.09450v2 )

ライセンス: Link先を確認
Zafeirios Fountas, Martin A Benfeghoul, Adnan Oomerjee, Fenia Christopoulou, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang, (参考訳) 大規模言語モデル(LLM)は目覚ましい能力を示しているが、それでも広いコンテキストの処理に苦慮しており、長いシーケンスでコヒーレンスと精度を維持する能力は制限されている。 対照的に、人間の脳は、生涯にわたって、広範囲の時間的スケールでエピソード体験を組織化し、取り出すのに優れています。 本研究では,人間のエピソード記憶と事象認識の重要な側面を微調整なしでLLMに統合し,計算効率を保ちながら,事実上無限のコンテキスト長を処理できる新しい手法EM-LLMを提案する。 EM-LLMは、ベイジアン・サプライズとグラフ理論境界修正を組み合わせたオンライン手法を用いて、トークンのシーケンスをコヒーレントなエピソードイベントに整理する。 必要に応じて、これらのイベントは2段階のメモリプロセスを通じて検索され、類似性に基づく、時間的に連続した検索を組み合わせて、関連情報への効率的かつ人間的なアクセスを行う。 LongBench と InfiniteBench ベンチマークの実験では、EM-LLM の優れた性能を示し、様々なベースライン LLM で最先端の検索モデル InfLLM を一貫して上回っている。 さらに、EM-LLMは、同様のリソースを必要としながら、幅広いタスクにおいて、人気の高いRAGよりも優れています。 特に、EM-LLMのパフォーマンスは、ほとんどのタスクでフルコンテキストモデルを超え、1000万のトークンで検索を成功させる。 最後に,EM-LLMのイベントセグメンテーションと人間の知覚イベントとの間には強い相関関係がみられ,この人工システムと生体との橋渡しが示唆され,人間の記憶機構を探索するための新しい計算フレームワークが提供される。

Large language models (LLMs) have shown remarkable capabilities, but still struggle with processing extensive contexts, limiting their ability to maintain coherence and accuracy over long sequences. In contrast, the human brain excels at organising and retrieving episodic experiences across vast temporal scales, spanning a lifetime. In this work, we introduce EM-LLM, a novel approach that integrates key aspects of human episodic memory and event cognition into LLMs with no fine-tuning, enabling them to handle practically infinite context lengths while maintaining computational efficiency. EM-LLM organises sequences of tokens into coherent episodic events using a combination of Bayesian surprise and graph-theoretic boundary refinement in an online fashion. When needed, these events are retrieved through a two-stage memory process, combining similarity-based and temporally contiguous retrieval for efficient and human-like access to relevant information. Experiments on the LongBench and InfiniteBench benchmarks demonstrate EM-LLM's superior performance, consistently outperforming the state-of-the-art retrieval model InfLLM across various baseline LLMs. In addition, EM-LLM outperforms its popular counterpart, RAG, in a wide range of tasks, while requiring similar resources. Notably, EM-LLM's performance even surpasses full-context models in most tasks, while successfully performing retrieval across 10 million tokens - a scale computationally infeasible for such models. Finally, our analysis reveals strong correlations between EM-LLM's event segmentation and human-perceived events, suggesting a bridge between this artificial system and its biological counterpart, thereby offering a novel computational framework for exploring human memory mechanisms.
翻訳日:2024-11-08 22:06:29 公開日:2024-10-25
# アンカーモデルアグリゲーションによる半教師付き学習のためのラベルなしクライアントの多様性の学習

Learning Unlabeled Clients Divergence for Federated Semi-Supervised Learning via Anchor Model Aggregation ( http://arxiv.org/abs/2407.10327v2 )

ライセンス: Link先を確認
Marawan Elbatel, Hualiang Wang, Jixiang Chen, Hao Wang, Xiaomeng Li, (参考訳) フェデレート半教師付き学習(FedSemi)とは、完全なラベル付きデータを持つクライアント、部分的にラベル付けされたクライアント、さらには完全にラベル付けされていないクライアントがデータプライバシを保存するシナリオを指す。 しかし、未定義の不均一なクラス分布と誤った擬似ラベルによってクライアントのドリフトが問題となる。 既存のFedSemiメソッドは、本質的に信頼性の低いクライアントからのモデルを集約できないため、不均一なデータ分散からユニークな情報を見落とし、準最適結果をもたらす。 本稿では,SemiAnAggによる未ラベルクライアントアグリゲーションを実現する。 SemiAnAggはアンカーモデルを通じて未ラベルのクライアントコントリビューションを学び、その情報的価値を効果的に活用する。 我々のキーとなる考え方は、ローカルクライアントデータを同じグローバルモデルと、同じ一貫した初期化アンカーモデル(すなわち、ランダムモデル)にフィードすることで、各未ラベルクライアントの重要性を測定できるということです。 CIFAR-100の精度は9%向上し、ISIC-18のリコールは7.6%向上した。 コードは、https://github.com/xmed-lab/SemiAnAgg.comで入手できる。

Federated semi-supervised learning (FedSemi) refers to scenarios where there may be clients with fully labeled data, clients with partially labeled, and even fully unlabeled clients while preserving data privacy. However, challenges arise from client drift due to undefined heterogeneous class distributions and erroneous pseudo-labels. Existing FedSemi methods typically fail to aggregate models from unlabeled clients due to their inherent unreliability, thus overlooking unique information from their heterogeneous data distribution, leading to sub-optimal results. In this paper, we enable unlabeled client aggregation through SemiAnAgg, a novel Semi-supervised Anchor-Based federated Aggregation. SemiAnAgg learns unlabeled client contributions via an anchor model, effectively harnessing their informative value. Our key idea is that by feeding local client data to the same global model and the same consistently initialized anchor model (i.e., random model), we can measure the importance of each unlabeled client accordingly. Extensive experiments demonstrate that SemiAnAgg achieves new state-of-the-art results on four widely used FedSemi benchmarks, leading to substantial performance improvements: a 9% increase in accuracy on CIFAR-100 and a 7.6% improvement in recall on the medical dataset ISIC-18, compared with prior state-of-the-art. Code is available at: https://github.com/xmed-lab/SemiAnAgg.
翻訳日:2024-11-08 21:43:45 公開日:2024-10-25
# XEdgeAI: データ中心の説明可能なエッジAIアプローチを備えた人間中心の産業検査フレームワーク

XEdgeAI: A Human-centered Industrial Inspection Framework with Data-centric Explainable Edge AI Approach ( http://arxiv.org/abs/2407.11771v2 )

ライセンス: Link先を確認
Truong Thanh Hung Nguyen, Phuc Truong Loc Nguyen, Hung Cao, (参考訳) 近年の深層学習の進歩は、産業環境における視覚的品質検査と予測的メンテナンスを著しく改善している。 しかし、これらの技術を低リソースのエッジデバイスにデプロイすることは、その高い計算要求と説明可能なAI(XAI)メソッド固有の複雑さのために、重大な課題を生じさせる。 本稿では,低リソースエッジデバイスへのセマンティックセグメンテーションモデルの展開を最適化する,新しいXAI統合ビジュアル品質検査フレームワークを導入することで,これらの課題に対処する。 我々のフレームワークはXAIとLarge Vision Language Modelを取り入れ、視覚的およびテキスト的説明を通じて人間中心の解釈可能性を提供する。 これはエンドユーザの信頼とモデルの解釈可能性にとって重要です。 我々は,基本モデルファインチューニング,XAIに基づく説明生成,XAIアプローチの評価,XAI誘導データ拡張,エッジ互換モデルの開発,理解可能な視覚的・テキスト的説明の生成という,6つの基本モジュールからなる包括的方法論を概説する。 XAIガイダンスによるデータ拡張を通じて、ドメインエキスパートの知識を視覚的およびテキスト的説明に取り入れた強化モデルは、モバイルデバイスにデプロイされ、現実世界のシナリオでエンドユーザをサポートする。 実験により,提案手法の有効性を示すとともに,モデルサイズを大幅に削減し,競争精度を向上する。 このアプローチは、重要な産業アプリケーションにおいて、信頼性と解釈可能なAIツールを広く採用するための道を開くものだ。 この研究のコードはhttps://github.com/Analytics-Everywhere-Lab/vqixai.comにある。

Recent advancements in deep learning have significantly improved visual quality inspection and predictive maintenance within industrial settings. However, deploying these technologies on low-resource edge devices poses substantial challenges due to their high computational demands and the inherent complexity of Explainable AI (XAI) methods. This paper addresses these challenges by introducing a novel XAI-integrated Visual Quality Inspection framework that optimizes the deployment of semantic segmentation models on low-resource edge devices. Our framework incorporates XAI and the Large Vision Language Model to deliver human-centered interpretability through visual and textual explanations to end-users. This is crucial for end-user trust and model interpretability. We outline a comprehensive methodology consisting of six fundamental modules: base model fine-tuning, XAI-based explanation generation, evaluation of XAI approaches, XAI-guided data augmentation, development of an edge-compatible model, and the generation of understandable visual and textual explanations. Through XAI-guided data augmentation, the enhanced model incorporating domain expert knowledge with visual and textual explanations is successfully deployed on mobile devices to support end-users in real-world scenarios. Experimental results showcase the effectiveness of the proposed framework, with the mobile model achieving competitive accuracy while significantly reducing model size. This approach paves the way for the broader adoption of reliable and interpretable AI tools in critical industrial applications, where decisions must be both rapid and justifiable. Our code for this work can be found at https://github.com/Analytics-Everywhere-Lab/vqixai.
翻訳日:2024-11-08 20:59:00 公開日:2024-10-25
# 量子漁業情報に基づく絡み合い基準

Entanglement Criteria Based on Quantum Fisher Information ( http://arxiv.org/abs/2407.15413v2 )

ライセンス: Link先を確認
Ao-Xiang Liu, Ma-Cheng Yang, Cong-Feng Qiao, (参考訳) エンタングルメント検出を最適化するために、測定軌道上のQFIを最大化することにより、量子フィッシャー情報におけるメソロジー的に動作するエンタングルメント条件を定式化する。 具体的には、典型的局所可観測(英語版)の2つのクラス、すなわち局所正規直交可観測(英語版)と対称情報的に完備な正の演算子評価測度(英語版)を考える。 その結果、対称情報完全正の演算子評価尺度は、量子情報処理における対称情報完全正の演算子評価尺度の未確認の一般上の優位性を示唆するエンタングルメント検出における局所正規直交観測値よりも優れていることが示された。

To optimize the entanglement detection, we formulate the metrologically operational entanglement condition in quantum Fisher information by maximizing the QFI on the measurement orbit. Specifically, we consider two classes of typical local observables, i.e. the local orthonormal observables and symmetric informationally complete positive operator-valued measures. Result shows that the symmetric informationally complete positive operator-valued measures are superior to local orthonormal observables in entanglement detection, which in some sense hints the yet unconfirmed generally superiority of symmetric informationally complete positive operator-valued measures in quantum information processing.
翻訳日:2024-11-08 15:56:37 公開日:2024-10-25
# フロー制御のための高度な深層強化学習法:群不変および位置符号化ネットワークによる学習速度と品質の向上

Advanced deep-reinforcement-learning methods for flow control: group-invariant and positional-encoding networks improve learning speed and quality ( http://arxiv.org/abs/2407.17822v2 )

ライセンス: Link先を確認
Joongoo Jeon, Jean Rabault, Joel Vasanth, Francisco Alcántara-Ávila, Shilaj Baral, Ricardo Vinuesa, (参考訳) フロー制御は、幅広い応用においてエネルギー効率を最大化する鍵となる。 しかし、従来のフロー制御手法は、非線形システムと高次元データに対処する上で大きな課題に直面し、現実的なエネルギーシステムへの応用を制限している。 本研究では,フロー制御のための深層強化学習法,特にグループ不変ネットワークと位置エンコーディングをDRLアーキテクチャに統合することに焦点を当てた。 提案手法は,マルチエージェント強化学習(MARL)を用いて,局所対称性の不変性を確保するために,群不変ネットワークと組み合わせて空間のポリシー不変性を利用する。 さらに、トランスアーキテクチャにインスパイアされた位置エンコーディングが組み込まれ、エージェントに位置情報を提供し、厳密な不変性からアクション制約を緩和する。 提案手法はレイリー・ブエナード対流のケーススタディを用いて検証され、ヌッセルト数 Nu の最小化が目的である。 グループ不変ニューラルネットワーク(GI-NN)は、ベースMARLよりも高速な収束を示し、平均ポリシー性能が向上する。 GI-NNはDRLトレーニング時間を半分に削減しただけでなく、学習再現性も向上した。 位置エンコーディングはこれらの結果をさらに強化し、最小のNuを効果的に減少させ、収束を安定化させる。 興味深いことに、学習速度の向上を専門とするグループ不変ネットワークと、学習品質の向上を専門とする位置符号化がある。 これらの結果から,各制御問題の特徴と目的に応じて適切な特徴表現法を選択することが不可欠であることが示唆された。 本研究の結果は, 不変かつ一意な表現を持つ新しいDRL法に刺激を与えるだけでなく, 産業応用に有用な洞察を与えるものと考えられる。

Flow control is key to maximize energy efficiency in a wide range of applications. However, traditional flow-control methods face significant challenges in addressing non-linear systems and high-dimensional data, limiting their application in realistic energy systems. This study advances deep-reinforcement-learning (DRL) methods for flow control, particularly focusing on integrating group-invariant networks and positional encoding into DRL architectures. Our methods leverage multi-agent reinforcement learning (MARL) to exploit policy invariance in space, in combination with group-invariant networks to ensure local symmetry invariance. Additionally, a positional encoding inspired by the transformer architecture is incorporated to provide location information to the agents, mitigating action constraints from strict invariance. The proposed methods are verified using a case study of Rayleigh-B\'enard convection, where the goal is to minimize the Nusselt number Nu. The group-invariant neural networks (GI-NNs) show faster convergence compared to the base MARL, achieving better average policy performance. The GI-NNs not only cut DRL training time in half but also notably enhance learning reproducibility. Positional encoding further enhances these results, effectively reducing the minimum Nu and stabilizing convergence. Interestingly, group invariant networks specialize in improving learning speed and positional encoding specializes in improving learning quality. These results demonstrate that choosing a suitable feature-representation method according to the purpose as well as the characteristics of each control problem is essential. We believe that the results of this study will not only inspire novel DRL methods with invariant and unique representations, but also provide useful insights for industrial applications.
翻訳日:2024-11-08 15:01:09 公開日:2024-10-25
# 電子商取引検索のための選好最適化を用いた生成検索

Generative Retrieval with Preference Optimization for E-commerce Search ( http://arxiv.org/abs/2407.19829v2 )

ライセンス: Link先を確認
Mingming Li, Huimu Wang, Zuxu Chen, Guangtao Nie, Yiming Qiu, Guoyu Tang, Lin Liu, Jingwei Zhuo, (参考訳) 生成検索は、特定のクエリに応答して、関連するドキュメントの識別子を直接生成することにより、文書検索に画期的なパラダイムを導入する。 このパラダイムは、特に表現と一般化の能力において、大きな言語モデルの文脈において、かなりの利点と可能性を示してきた。 しかし、簡単なクエリから詳細な項目タイトルを生成する複雑さ、言語順の弱い項目タイトルのノイズの存在、ロングテールクエリの問題、結果の解釈可能性など、Eコマースの検索シナリオにおいて大きな課題に直面している。 これらの課題に対処するため、我々は、優先最適化による生成検索と呼ばれる、Eコマース検索のための革新的なフレームワークを開発した。 このフレームワークは、自動回帰モデルとターゲットデータとを効果的に学習し、整列し、その後制約ベースのビームサーチにより最終項目を生成するように設計されている。 生のタイトルを表すためにマルチスパン識別子を使用し、クエリからタイトルを生成するタスクをクエリからマルチスパン識別子を生成するタスクに変換することにより、生成プロセスを簡素化することを目指している。 さらに、このフレームワークは、クリックデータを用いた人間の嗜好と整合し、最終項目を検索するためのキースパンを識別する制約付き検索手法を用いて、結果の解釈性を向上させる。 大規模な実験により,本フレームワークは実世界のデータセット上での競合性能を実証し,オンラインA/Bテストはコンバージョンゲインの改善における優位性と有効性を示す。

Generative retrieval introduces a groundbreaking paradigm to document retrieval by directly generating the identifier of a pertinent document in response to a specific query. This paradigm has demonstrated considerable benefits and potential, particularly in representation and generalization capabilities, within the context of large language models. However, it faces significant challenges in E-commerce search scenarios, including the complexity of generating detailed item titles from brief queries, the presence of noise in item titles with weak language order, issues with long-tail queries, and the interpretability of results. To address these challenges, we have developed an innovative framework for E-commerce search, called generative retrieval with preference optimization. This framework is designed to effectively learn and align an autoregressive model with target data, subsequently generating the final item through constraint-based beam search. By employing multi-span identifiers to represent raw item titles and transforming the task of generating titles from queries into the task of generating multi-span identifiers from queries, we aim to simplify the generation process. The framework further aligns with human preferences using click data and employs a constrained search method to identify key spans for retrieving the final item, thereby enhancing result interpretability. Our extensive experiments show that this framework achieves competitive performance on a real-world dataset, and online A/B tests demonstrate the superiority and effectiveness in improving conversion gains.
翻訳日:2024-11-08 14:16:02 公開日:2024-10-25
# GABInsight:ビジョンランゲージモデルにおけるジェンダー・アクティビティ結合バイアスの探索

GABInsight: Exploring Gender-Activity Binding Bias in Vision-Language Models ( http://arxiv.org/abs/2407.21001v3 )

ライセンス: Link先を確認
Ali Abdollahi, Mahdi Ghaznavi, Mohammad Reza Karimi Nejad, Arash Mari Oriyad, Reza Abbasi, Ali Salesi, Melika Behjati, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah, (参考訳) 視覚言語モデル(VLM)は、画像に現れる個人の評価を必要とするものを含む、多くの下流タスクで集中的に使用される。 VLMは単純なシングルパーソンのシナリオではうまく機能するが、現実のアプリケーションでは、異なる性別の人が異なる活動を行う複雑な状況に直面していることが多い。 このような場合、VLMは、期待される性別(モデルその他のサンプル選択バイアスの詳細な性別ステレオタイプによる)を行動のパフォーマーとして特定する傾向を示す。 画像やテキスト中の実際のパフォーマーのジェンダーに関連付けるバイアスを、ジェンダー・アクティビティ・バインド(GAB)バイアスと呼び、このバイアスがどのようにVLMの内部化されるかを分析する。 このバイアスを評価するために、私たちはGABデータセットを導入し、いくつかのシナリオにおいて現実世界のイメージの不足に対処する、さまざまなアクティビティを表す約5500のAI生成イメージを作成しました。 広範に品質制御を行うため、生成した画像は、その多様性、品質、リアリズムについて評価される。 我々は,テキスト・ツー・イメージ検索と画像・ツー・テキスト検索の文脈で,このデータセット上で12の有名な事前学習VLMをテストし,そのバイアスが予測に与える影響を計測した。 さらに,VLMのテキストエンコーダのバイアスを定量化し,VLMのアクティビティ認識能力を評価するための補足実験を行った。 以上の結果から,VLMは性活動性結合バイアスに直面すると平均で約13.2%の低下を経験することが示唆された。

Vision-language models (VLMs) are intensively used in many downstream tasks, including those requiring assessments of individuals appearing in the images. While VLMs perform well in simple single-person scenarios, in real-world applications, we often face complex situations in which there are persons of different genders doing different activities. We show that in such cases, VLMs are biased towards identifying the individual with the expected gender (according to ingrained gender stereotypes in the model or other forms of sample selection bias) as the performer of the activity. We refer to this bias in associating an activity with the gender of its actual performer in an image or text as the Gender-Activity Binding (GAB) bias and analyze how this bias is internalized in VLMs. To assess this bias, we have introduced the GAB dataset with approximately 5500 AI-generated images that represent a variety of activities, addressing the scarcity of real-world images for some scenarios. To have extensive quality control, the generated images are evaluated for their diversity, quality, and realism. We have tested 12 renowned pre-trained VLMs on this dataset in the context of text-to-image and image-to-text retrieval to measure the effect of this bias on their predictions. Additionally, we have carried out supplementary experiments to quantify the bias in VLMs' text encoders and to evaluate VLMs' capability to recognize activities. Our experiments indicate that VLMs experience an average performance decline of about 13.2% when confronted with gender-activity binding bias.
翻訳日:2024-11-08 13:51:33 公開日:2024-10-25
# ロボットマニピュレーションのためのステージガイド型動的マルチセンサフュージョン

Play to the Score: Stage-Guided Dynamic Multi-Sensory Fusion for Robotic Manipulation ( http://arxiv.org/abs/2408.01366v2 )

ライセンス: Link先を確認
Ruoxuan Feng, Di Hu, Wenke Ma, Xuelong Li, (参考訳) 人間は、環境と対話する際に異なる感覚に柔軟に交互に変化する優れた才能を持っている。 食材添加のタイミングを巧みに計り、色、音、香りに応じて熱を制御し、複雑な調理工程のすべての段階をシームレスにナビゲートするシェフの写真。 この能力は、各段階におけるサブゴールを達成するためには、異なる感覚の活用が必要であるため、タスクステージの完全な理解に基づいて構築される。 ロボットに類似した能力を与えるため、サブゴールによって分割されたタスクステージを模倣学習プロセスに統合し、動的多感覚融合を誘導する。 そこで我々は,MS-Botを提案する。MS-Botは段階誘導型動的多感核融合法であり,予測された現在段階内の微細な状態に基づいて,モダリティの優先度を動的に調整する。 我々は、視覚、聴覚、触覚センサーを備えたロボットシステムを訓練し、キーウェイに注ぐ、ペグを挿入するといったロボット操作に挑戦する。 実験結果から,本手法は従来の方法よりもヒトの核融合プロセスと密に連携し,より効果的で説明可能な動的核融合を可能にすることが示唆された。

Humans possess a remarkable talent for flexibly alternating to different senses when interacting with the environment. Picture a chef skillfully gauging the timing of ingredient additions and controlling the heat according to the colors, sounds, and aromas, seamlessly navigating through every stage of the complex cooking process. This ability is founded upon a thorough comprehension of task stages, as achieving the sub-goal within each stage can necessitate the utilization of different senses. In order to endow robots with similar ability, we incorporate the task stages divided by sub-goals into the imitation learning process to accordingly guide dynamic multi-sensory fusion. We propose MS-Bot, a stage-guided dynamic multi-sensory fusion method with coarse-to-fine stage understanding, which dynamically adjusts the priority of modalities based on the fine-grained state within the predicted current stage. We train a robot system equipped with visual, auditory, and tactile sensors to accomplish challenging robotic manipulation tasks: pouring and peg insertion with keyway. Experimental results indicate that our approach enables more effective and explainable dynamic fusion, aligning more closely with the human fusion process than existing methods.
翻訳日:2024-11-08 13:18:17 公開日:2024-10-25
# 英国のバイオバンクによる網膜画像分類モデルにおけるバイアスについて

On Biases in a UK Biobank-based Retinal Image Classification Model ( http://arxiv.org/abs/2408.02676v2 )

ライセンス: Link先を確認
Anissa Alloula, Rima Mustafa, Daniel R McGowan, Bartłomiej W. Papież, (参考訳) 最近の研究は、医療における機械学習モデルの性能の相違を警告している。 本研究では,イギリスバイオバンクの眼底網膜画像にこのような格差が存在するかどうかを,これらの画像を用いた疾患分類モデルのトレーニングと評価により検討する。 モデル全体の性能は高いものの,様々な集団間での相違について検討し,実質的な相違点を見出した。 特に、厳格なデータ標準化プロトコルを考えると、特定の評価センタに対する不公平なパフォーマンスが明らかになる。 これらの違いがどのように出現するかを比較し、既存のバイアス緩和手法をそれぞれに適用する。 重要な洞察は、それぞれの相違がユニークな性質を持ち、緩和法に異なる反応をするということである。 また、これらの手法は公平性を高めることができず、特定のバイアスに合わせたより良いバイアス緩和法の必要性を強調している。

Recent work has uncovered alarming disparities in the performance of machine learning models in healthcare. In this study, we explore whether such disparities are present in the UK Biobank fundus retinal images by training and evaluating a disease classification model on these images. We assess possible disparities across various population groups and find substantial differences despite strong overall performance of the model. In particular, we discover unfair performance for certain assessment centres, which is surprising given the rigorous data standardisation protocol. We compare how these differences emerge and apply a range of existing bias mitigation methods to each one. A key insight is that each disparity has unique properties and responds differently to the mitigation methods. We also find that these methods are largely unable to enhance fairness, highlighting the need for better bias mitigation methods tailored to the specific type of bias.
翻訳日:2024-11-08 12:55:50 公開日:2024-10-25
# 大規模実証のためのテンソル型量子位相差推定法

Tensor-based quantum phase difference estimation for large-scale demonstration ( http://arxiv.org/abs/2408.04946v3 )

ライセンス: Link先を確認
Shu Kanno, Kenji Sugisaki, Hajime Nakamura, Hiroshi Yamauchi, Rei Sakuma, Takao Kobayashi, Qi Gao, Naoki Yamamoto, (参考訳) 本研究では,量子位相差推定法(QPDE)とテンソルネットワークに基づく一元圧縮法を利用して,重畳状態と時間進化ゲートを合成するエネルギー計算アルゴリズムを開発した。 このアルゴリズムは, 効率的な実装に加えて, 指数関数的に非偏極雑音の影響を低減させる。 我々は、Q-CTRLエラー抑制モジュールを用いて、従来のQPE実験の7242制御Zゲートレベルにおいて、32系(+1アンシラ)量子ビットの回路を用いたIBM超伝導デバイス上での1次元ハバードモデルのエネルギーギャップ計算を実演した。 さらに,13-(17-)量子ヘキサトリエン (オクタテトラエン) シミュレーションで検証した空間軌道の局在化とインデックスソートによる分子実行手法を提案する。 QPDEはQPEと同じ目的を扱えるので、我々のアルゴリズムは実際のデバイス上での量子コンピューティングの飛躍的な進歩を表している。

We develop an energy calculation algorithm leveraging quantum phase difference estimation (QPDE) scheme and a tensor-network-based unitary compression method in the preparation of superposition states and time-evolution gates. Alongside its efficient implementation, this algorithm reduces depolarization noise affections exponentially. We demonstrated energy gap calculations for one-dimensional Hubbard models on IBM superconducting devices using circuits up to 32-system (plus one-ancilla) qubits, a five-fold increase over previous QPE demonstrations, at the 7242 controlled-Z gate level of standard transpilation, utilizing a Q-CTRL error suppression module. Additionally, we propose a technique towards molecular executions using spatial orbital localization and index sorting, verified by a 13- (17-)qubit hexatriene (octatetraene) simulation. Since QPDE can handle the same objectives as QPE, our algorithm represents a leap forward in quantum computing on real devices.
翻訳日:2024-11-08 12:00:36 公開日:2024-10-25
# 階層構造ニューラルネットワークによる検索

Hierarchical Structured Neural Network for Retrieval ( http://arxiv.org/abs/2408.06653v2 )

ライセンス: Link先を確認
Kaushik Rangadurai, Siyang Yuan, Minhui Huang, Yiqun Liu, Golnaz Ghasemiesfeh, Yunchen Pu, Xinfeng Xie, Xingfeng He, Fangzhou Xu, Andrew Cui, Vidhoon Viswanathan, Yan Dong, Liang Xiong, Lin Yang, Liang Wang, Jiyan Yang, Chonglin Sun, (参考訳) アドレコメンデーションシステム(Ads)では,Two Tower や Siamese Networks を利用してユーザとアイテム(ads)の両方の埋め込みを学習する。 次に、ANN(Adroximate Nearest Neighbor Search)を使用して、特定のユーザに対して最も関連性の高い広告を効率よく検索する。 最近この業界で人気が高まっているにもかかわらず、いくつかの制限がある。 第一に、Two Towerモデルアーキテクチャは単一のドット製品インタラクションを使用する。 第2に、トレーニングプロセスが完了した後、ANNのコンポーネントであるCentroid表現とクラスタ割り当てが発生する。 その結果、彼らは検索モデルに使用される最適化基準を考慮していない。 本稿では,階層型階層型ニューラルネットワーク(HSNN)を提案する。階層型クラスタリングとニューラルネットワークモデルにより,線形推論コストを維持しつつ,ランク付け段階においてより一般的な高度なインタラクションとモデルアーキテクチャを活用できる。 オフライン評価の6.5%の改善と、A/B実験によるオンライン利益の1.22%を実証する。 HSNNはAds Recommendationシステムにうまくデプロイされ、現在トラフィックの大部分を処理しています。 本稿では,新鮮度,ボラティリティ,コールドスタートレコメンデーション,クラスタ崩壊,大規模検索生産システムにおけるモデル展開の教訓といった課題に対処し,本システムの開発経験を公開する。

Embedding Based Retrieval (EBR) is a crucial component of the retrieval stage in (Ads) Recommendation System that utilizes Two Tower or Siamese Networks to learn embeddings for both users and items (ads). It then employs an Approximate Nearest Neighbor Search (ANN) to efficiently retrieve the most relevant ads for a specific user. Despite the recent rise to popularity in the industry, they have a couple of limitations. Firstly, Two Tower model architecture uses a single dot product interaction which despite their efficiency fail to capture the data distribution in practice. Secondly, the centroid representation and cluster assignment, which are components of ANN, occur after the training process has been completed. As a result, they do not take into account the optimization criteria used for retrieval model. In this paper, we present Hierarchical Structured Neural Network (HSNN), a deployed jointly optimized hierarchical clustering and neural network model that can take advantage of sophisticated interactions and model architectures that are more common in the ranking stages while maintaining a sub-linear inference cost. We achieve 6.5% improvement in offline evaluation and also demonstrate 1.22% online gains through A/B experiments. HSNN has been successfully deployed into the Ads Recommendation system and is currently handling major portion of the traffic. The paper shares our experience in developing this system, dealing with challenges like freshness, volatility, cold start recommendations, cluster collapse and lessons deploying the model in a large scale retrieval production system.
翻訳日:2024-11-08 11:26:46 公開日:2024-10-25
# ポリプセグメンテーションにおけるアンサンブルアーキテクチャ

Ensemble architecture in polyp segmentation ( http://arxiv.org/abs/2408.07262v2 )

ライセンス: Link先を確認
Hao-Yun Hsu, Yi-Ching Cheng, Guan-Hua Huang, (参考訳) 本研究では,意味的セグメンテーションのアーキテクチャを再検討し,ポリプセグメンテーションに優れたモデルを評価する。 最適な結果を得るために、異なるモデルの利点を利用する統合フレームワークを導入します。 より具体的には、予測のための畳み込みモデルと変圧器モデルから学習した特徴を融合させ、モデル性能を向上させるためのアンサンブル手法として、このアプローチを考察する。 ポリプセグメンテーション実験により,提案アーキテクチャは他のトップモデルを超え,学習能力とレジリエンスの向上が示された。 コードはhttps://github.com/HuangDLab/EnFormer.comで入手できる。

In this research, we revisit the architecture of semantic segmentation and evaluate the models excelling in polyp segmentation. We introduce an integrated framework that harnesses the advantages of different models to attain an optimal outcome. More specifically, we fuse the learned features from convolutional and transformer models for prediction, and we view this approach as an ensemble technique to enhance model performance. Our experiments on polyp segmentation reveal that the proposed architecture surpasses other top models, exhibiting improved learning capacity and resilience. The code is available at https://github.com/HuangDLab/EnFormer.
翻訳日:2024-11-08 07:53:35 公開日:2024-10-25
# ポリプセグメンテーションにおけるアンサンブルアーキテクチャ

Ensemble architecture in polyp segmentation ( http://arxiv.org/abs/2408.07262v3 )

ライセンス: Link先を確認
Hao-Yun Hsu, Yi-Ching Cheng, Guan-Hua Huang, (参考訳) 本研究では, 意味的セグメンテーションのアーキテクチャと, ポリープセグメンテーションの卓越したモデルについて検討した。 最適な結果を得るために,異なるモデルの利点を利用する統合フレームワークを提案する。 具体的には、予測のための畳み込みモデルと変圧器モデルから学習した特徴を融合させ、モデル性能を向上させるためにアンサンブル手法を適用する。 ポリプセグメンテーション実験により,提案アーキテクチャが他のトップモデルを上回っ,学習能力とレジリエンスが向上したことが明らかとなった。 コードはhttps://github.com/HuangDLab/EnFormer.comで入手できる。

This study explored the architecture of semantic segmentation and evaluated models that excel in polyp segmentation. We present an integrated framework that harnesses the advantages of different models to attain an optimal outcome. Specifically, in this framework, we fuse the learned features from convolutional and transformer models for prediction, thus engendering an ensemble technique to enhance model performance. Our experiments on polyp segmentation revealed that the proposed architecture surpassed other top models, exhibiting improved learning capacity and resilience. The code is available at https://github.com/HuangDLab/EnFormer.
翻訳日:2024-11-08 07:53:35 公開日:2024-10-25
# ソフトな値に基づく復号化を伴う連続・離散拡散モデルにおける導出自由誘導

Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding ( http://arxiv.org/abs/2408.08252v4 )

ライセンス: Link先を確認
Xiner Li, Yulai Zhao, Chenyu Wang, Gabriele Scalia, Gokcen Eraslan, Surag Nair, Tommaso Biancalani, Aviv Regev, Sergey Levine, Masatoshi Uehara, (参考訳) 拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。 しかし、単に自然である設計を生成するのではなく、これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目的としていることが多い。 この目的を達成するための既存の方法は、しばしば ``differentiable' プロキシモデル (\textit{e g }, 分類器ガイダンスまたはDPS) や、計算に高価な拡散モデルの微調整 (\textit{e g }, 分類器なしガイダンス、RLベースの微調整) を必要とする。 本研究では,これらの課題に対処するための新しい手法を提案する。 提案アルゴリズムは,中間ノイズ状態が将来高い報酬をもたらすか,あるいは事前学習した拡散モデルの標準推論手順に先立って,ソフト値関数を統合する反復サンプリング手法である。 特に、本手法は微調整生成モデルを避け、微分可能なモデルを構築する必要をなくす。 これにより、(1)多くの科学的領域で一般的に使われている非微分可能特徴/回帰フィードバックを直接利用し、(2)近年の離散拡散モデルに原則的に適用することができる。 最後に、画像生成、分子生成、DNA/RNA配列生成など、複数の領域にわたるアルゴリズムの有効性を示す。 コードは \href{https://github.com/masa-ue/SVDD}{https://github.com/masa-ue/SVDD} で公開されている。

Diffusion models excel at capturing the natural design spaces of images, molecules, DNA, RNA, and protein sequences. However, rather than merely generating designs that are natural, we often aim to optimize downstream reward functions while preserving the naturalness of these design spaces. Existing methods for achieving this goal often require ``differentiable'' proxy models (\textit{e.g.}, classifier guidance or DPS) or involve computationally expensive fine-tuning of diffusion models (\textit{e.g.}, classifier-free guidance, RL-based fine-tuning). In our work, we propose a new method to address these challenges. Our algorithm is an iterative sampling method that integrates soft value functions, which looks ahead to how intermediate noisy states lead to high rewards in the future, into the standard inference procedure of pre-trained diffusion models. Notably, our approach avoids fine-tuning generative models and eliminates the need to construct differentiable models. This enables us to (1) directly utilize non-differentiable features/reward feedback, commonly used in many scientific domains, and (2) apply our method to recent discrete diffusion models in a principled way. Finally, we demonstrate the effectiveness of our algorithm across several domains, including image generation, molecule generation, and DNA/RNA sequence generation. The code is available at \href{https://github.com/masa-ue/SVDD}{https://github.com/masa-ue/SVDD}.
翻訳日:2024-11-08 07:29:14 公開日:2024-10-25
# ソフトな値に基づく復号化を伴う連続・離散拡散モデルにおける導出自由誘導

Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding ( http://arxiv.org/abs/2408.08252v5 )

ライセンス: Link先を確認
Xiner Li, Yulai Zhao, Chenyu Wang, Gabriele Scalia, Gokcen Eraslan, Surag Nair, Tommaso Biancalani, Shuiwang Ji, Aviv Regev, Sergey Levine, Masatoshi Uehara, (参考訳) 拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。 しかし、単に自然である設計を生成するのではなく、これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目的としていることが多い。 この目的を達成するための既存の方法は、しばしば ``differentiable' プロキシモデル (\textit{e g }, 分類器ガイダンスまたはDPS) や、計算に高価な拡散モデルの微調整 (\textit{e g }, 分類器なしガイダンス、RLベースの微調整) を必要とする。 本研究では,これらの課題に対処するための新しい手法を提案する。 提案アルゴリズムは,中間ノイズ状態が将来高い報酬をもたらすか,あるいは事前学習した拡散モデルの標準推論手順に先立って,ソフト値関数を統合する反復サンプリング手法である。 特に、本手法は微調整生成モデルを避け、微分可能なモデルを構築する必要をなくす。 これにより、(1)多くの科学的領域で一般的に使われている非微分可能特徴/回帰フィードバックを直接利用し、(2)近年の離散拡散モデルに原則的に適用することができる。 最後に、画像生成、分子生成、DNA/RNA配列生成など、複数の領域にわたるアルゴリズムの有効性を示す。 コードは \href{https://github.com/masa-ue/SVDD}{https://github.com/masa-ue/SVDD} で公開されている。

Diffusion models excel at capturing the natural design spaces of images, molecules, DNA, RNA, and protein sequences. However, rather than merely generating designs that are natural, we often aim to optimize downstream reward functions while preserving the naturalness of these design spaces. Existing methods for achieving this goal often require ``differentiable'' proxy models (\textit{e.g.}, classifier guidance or DPS) or involve computationally expensive fine-tuning of diffusion models (\textit{e.g.}, classifier-free guidance, RL-based fine-tuning). In our work, we propose a new method to address these challenges. Our algorithm is an iterative sampling method that integrates soft value functions, which looks ahead to how intermediate noisy states lead to high rewards in the future, into the standard inference procedure of pre-trained diffusion models. Notably, our approach avoids fine-tuning generative models and eliminates the need to construct differentiable models. This enables us to (1) directly utilize non-differentiable features/reward feedback, commonly used in many scientific domains, and (2) apply our method to recent discrete diffusion models in a principled way. Finally, we demonstrate the effectiveness of our algorithm across several domains, including image generation, molecule generation, and DNA/RNA sequence generation. The code is available at \href{https://github.com/masa-ue/SVDD}{https://github.com/masa-ue/SVDD}.
翻訳日:2024-11-08 07:29:14 公開日:2024-10-25
# Aliasing and Label-Independent Decomposition of Risk: Beyond the bias-variance trade-off

Aliasing and Label-Independent Decomposition of Risk: Beyond the bias-variance trade-off ( http://arxiv.org/abs/2408.08294v2 )

ライセンス: Link先を確認
Mark K. Transtrum, Gus L. W. Hart, Tyler J. Jarvis, Jared P. Whitehead, (参考訳) データサイエンスにおける中心的な問題は、未知の関数の潜在的なノイズのあるサンプルを使用して、目に見えない入力の関数値を予測することである。 古典統計学において、予測誤差は、モデル単純性と複雑な関数に適合する能力のバランスをとるバイアスと分散の間のトレードオフとして理解される。 しかし、過パラメータ化モデルは「二重降下」のような反直観的行動を示し、複雑性が増大するモデルは一般化誤差を減少させる。 バイアス分散トレードオフとは対照的に、一般化エイリアス分解(GAD)と呼ばれる代替パラダイムを導入する。 本稿では,複雑なモデルの漸近的に小さな誤差を,過度にパラメータ化された状態に発生する系統的な「デエイリアス化」として説明する。 大規模モデルの限界において、エイリアスによる誤差寄与は消滅し、漸近的全誤差の表現は、ごく少数の訓練点において非常に大きなモデルのデータ不十分性障害(英語版)と呼ぶ。 一般化エイリアス分解は、データラベルを見ることなく、モデルクラスとサンプルの関係から明示的に計算できるため、データ収集や実験を行う前に、実験設計やモデル選択に関する質問に答えることができる。 本稿では、古典回帰問題や材料科学で用いられるクラスタ展開モデルなど、いくつかの例を用いて、このアプローチを実証する。

A central problem in data science is to use potentially noisy samples of an unknown function to predict function values for unseen inputs. In classical statistics, the predictive error is understood as a trade-off between the bias and the variance that balances model simplicity with its ability to fit complex functions. However, over-parameterized models exhibit counter-intuitive behaviors, such as "double descent" in which models of increasing complexity exhibit decreasing generalization error. In contrast to the bias-variance trade-off, we introduce an alternative paradigm called the generalized aliasing decomposition (GAD). We explain the asymptotically small error of complex models as a systematic "de-aliasing" that occurs in the over-parameterized regime. In the limit of large models, the error contribution due to aliasing vanishes, leaving an expression for the asymptotic total error we call the data insufficiency failure of very large models on few training points. Because the generalized aliasing decomposition can be explicitly calculated from the relationship between model class and samples without seeing any data labels, it can answer questions related to experimental design and model selection before collecting data or performing experiments. We demonstrate this approach using several examples, including classical regression problems and a cluster expansion model used in materials science.
翻訳日:2024-11-08 07:29:14 公開日:2024-10-25
# CoRA:大規模言語モデルの推薦重みによる協調的情報知覚

CoRA: Collaborative Information Perception by Large Language Model's Weights for Recommendation ( http://arxiv.org/abs/2408.10645v2 )

ライセンス: Link先を確認
Yuting Liu, Jinghao Zhang, Yizhou Dang, Yuliang Liang, Qiang Liu, Guibing Guo, Jianzhe Zhao, Xingwei Wang, (参考訳) LLM(Large Language Models)における協調情報の導入は,LLMを推奨に適応させる上で有望な手法である。 既存の手法では、テキストトークンと協調した特徴を統一シーケンス入力に結合し、それらの特徴をLSMの入力空間と整列するように微調整する。 本研究では,LLMをレコメンデーションタスクに適応する際の2つの制限を同定し,汎用知識と協調情報の統合を阻害し,準最適レコメンデーション性能をもたらす。 1)レコメンデーションデータを用いた微調整LDMは,レコメンデーションテキストの解釈や推論に不可欠である,固有の世界知識や基本的な能力を損なう可能性がある。 2)コラボレーティブな特徴をテキストプロンプトに組み込むことは,本来のプロンプトの意味を乱し,LLMが適切な出力を生成するのを防ぐ。 本稿では,協調重み生成器を用いた新しいパラダイムであるCoRA(Collaborative LoRAの頭字語)を提案する。 入力空間アライメントではなく、LLMのパラメータ空間と協調情報を整列し、LSMの出力を更新するためのインクリメンタルウェイトとして表現する。 このようにして、LLMは、一般的な知識やテキスト推論能力を変えることなく、協調情報を知覚する。 具体的には、ユーザとアイテムの埋め込みを抽出するために協調フィルタリングモデルを使用し、それらを協調重み生成器を通じて低ランク特性の協調重みに変換する。 次に、LLMの重みをLLMの重みにマージし、LLMが協調的な信号を知覚し、パーソナライズされたレコメンデーションを生成することができる。 大規模な実験により、コラボレーティブ情報がLLMに効果的に統合され、レコメンデーション性能が向上することが確認された。

Involving collaborative information in Large Language Models (LLMs) is a promising technique for adapting LLMs for recommendation. Existing methods achieve this by concatenating collaborative features with text tokens into a unified sequence input and then fine-tuning to align these features with LLM's input space. Although effective, in this work, we identify two limitations when adapting LLMs to recommendation tasks, which hinder the integration of general knowledge and collaborative information, resulting in sub-optimal recommendation performance. (1) Fine-tuning LLM with recommendation data can undermine its inherent world knowledge and fundamental competencies, which are crucial for interpreting and inferring recommendation text. (2) Incorporating collaborative features into textual prompts disrupts the semantics of the original prompts, preventing LLM from generating appropriate outputs. In this paper, we propose a new paradigm, CoRA (an acronym for Collaborative LoRA), with a collaborative weights generator. Rather than input space alignment, this method aligns collaborative information with LLM's parameter space, representing them as incremental weights to update LLM's output. This way, LLM perceives collaborative information without altering its general knowledge and text inference capabilities. Specifically, we employ a collaborative filtering model to extract user and item embeddings, converting them into collaborative weights with low-rank properties through the collaborative weights generator. We then merge the collaborative weights into LLM's weights, enabling LLM to perceive the collaborative signals and generate personalized recommendations without fine-tuning or extra collaborative tokens in prompts. Extensive experiments confirm that CoRA effectively integrates collaborative information into LLM, enhancing recommendation performance.
翻訳日:2024-11-08 06:33:41 公開日:2024-10-25
# CoRA:大規模言語モデルの推薦重みによる協調的情報知覚

CoRA: Collaborative Information Perception by Large Language Model's Weights for Recommendation ( http://arxiv.org/abs/2408.10645v3 )

ライセンス: Link先を確認
Yuting Liu, Jinghao Zhang, Yizhou Dang, Yuliang Liang, Qiang Liu, Guibing Guo, Jianzhe Zhao, Xingwei Wang, (参考訳) LLM(Large Language Models)における協調情報の導入は,LLMを推奨に適応させる上で有望な手法である。 既存の手法では、テキストトークンと協調した特徴を統一シーケンス入力に結合し、それらの特徴をLSMの入力空間と整列するように微調整する。 本研究では,LLMをレコメンデーションタスクに適応する際の2つの制限を同定し,汎用知識と協調情報の統合を阻害し,準最適レコメンデーション性能をもたらす。 1)レコメンデーションデータを用いた微調整LDMは,レコメンデーションテキストの解釈や推論に不可欠である,固有の世界知識や基本的な能力を損なう可能性がある。 2)コラボレーティブな特徴をテキストプロンプトに組み込むことは,本来のプロンプトの意味を乱し,LLMが適切な出力を生成するのを防ぐ。 本稿では,コラボレーティブなクエリジェネレータを備えた新しいパラダイムである \textbf{Co}llaborative \textbf{Lo}RA (CoRA) を提案する。 入力空間アライメントではなく、LLMのパラメータ空間と協調情報を整列し、LSMの出力を更新するためのインクリメンタルウェイトとして表現する。 このようにして、LLMは、一般的な知識やテキスト推論能力を変えることなく、協調情報を知覚する。 具体的には、ユーザとアイテムの埋め込みを抽出し、学習可能なクエリのセットに注入するために、協調フィルタリングモデルを用いる。 次に、協調クエリを低ランク特性の協調重みに変換し、協調重みをLLMの重みにマージし、LLMが協調信号を知覚し、微調整や余分な協調トークンなしでパーソナライズされたレコメンデーションを生成することを可能にする。 大規模な実験により、コラボレーティブ情報がLLMに効果的に統合され、レコメンデーション性能が向上することが確認された。

Involving collaborative information in Large Language Models (LLMs) is a promising technique for adapting LLMs for recommendation. Existing methods achieve this by concatenating collaborative features with text tokens into a unified sequence input and then fine-tuning to align these features with LLM's input space. Although effective, in this work, we identify two limitations when adapting LLMs to recommendation tasks, which hinder the integration of general knowledge and collaborative information, resulting in sub-optimal recommendation performance. (1) Fine-tuning LLM with recommendation data can undermine its inherent world knowledge and fundamental competencies, which are crucial for interpreting and inferring recommendation text. (2) Incorporating collaborative features into textual prompts disrupts the semantics of the original prompts, preventing LLM from generating appropriate outputs. In this paper, we propose a new paradigm, \textbf{Co}llaborative \textbf{Lo}RA (CoRA), with a collaborative query generator. Rather than input space alignment, this method aligns collaborative information with LLM's parameter space, representing them as incremental weights to update LLM's output. This way, LLM perceives collaborative information without altering its general knowledge and text inference capabilities. Specifically, we employ a collaborative filtering model to extract user and item embeddings and inject them into a set number of learnable queries. We then convert collaborative queries into collaborative weights with low-rank properties and merge the collaborative weights into LLM's weights, enabling LLM to perceive the collaborative signals and generate personalized recommendations without fine-tuning or extra collaborative tokens in prompts. Extensive experiments confirm that CoRA effectively integrates collaborative information into LLM, enhancing recommendation performance.
翻訳日:2024-11-08 06:33:41 公開日:2024-10-25
# ダブル量子ドットにおけるマイクロ波誘起冷却:スピン量子ビット付近の熱雑音低減のためのミルライルビン温度の達成

Microwave-Induced Cooling in Double Quantum Dots: Achieving Millikelvin Temperatures to Reduce Thermal Noise around Spin Qubits ( http://arxiv.org/abs/2408.12024v3 )

ライセンス: Link先を確認
Daryoosh Vashaee, Jahanfar Abouie, (参考訳) ゲート定義量子ドット(QD)におけるスピン量子ビットは、そのスケーラビリティと長いコヒーレンス時間のために、主要な技術として出現している。 しかし、これらの量子ビットを極低温に保つには、通常複雑な低温システムが必要である。 本稿では,DQDが冷媒として機能し,計算量子ビット周辺の局所フォノン環境を低減できる新しいゲート定義二重量子ドット (DQD) 冷却システムを提案する。 冷却過程は2つの異なる段階で発生し、第1段階はマイクロ波誘起状態の非集団化と高速サイクルの非核化と組み合わせてDQDの個体群を基底状態に移動させ、事実上DQDの温度を下げる。 2番目のステップでは、冷却されたDQDはDQDスピンエネルギーと共鳴するフォノンと相互作用して吸収し、周囲の環境におけるスピン格子緩和に寄与するこれらのフォノンをフィルタリングする。 本研究は, 温度1Kで局部DQD温度を10mK以下で達成可能であることを示すための計算と数値計算を行い, 冷却性能の劣化エネルギー, 磁場強度, ダイアバティックリターン時間に対する感度を解析し, 第2ステップでのフォノンろ過にはさらなる調査が必要であることを示した。

Spin qubits in gate-defined quantum dots (QDs) are emerging as a leading technology due to their scalability and long coherence times. However, maintaining these qubits at ultra-low temperatures typically requires complex cryogenic systems. This paper proposes a novel gate-defined double quantum dot (DQD) cooling system, where the DQDs act as refrigerants to reduce the local phonon environment around computational qubits. The cooling process occurs in two distinct stages: the first step involves microwave-induced state depopulation combined with fast cyclic detuning to transfer the DQD's population to the ground state, effectively lowering the DQD's temperature. In the second step, the cooled DQD interacts with and absorbs phonons resonant with the DQD spin energy, thereby filtering out these phonons that contribute to spin-lattice relaxation in the surrounding environment. This study focuses on the first step, presenting detailed calculations and numerical results that demonstrate the feasibility of achieving local DQD temperatures below 10 mK at a bath temperature of 1 K. The sensitivity of the cooling performance to detuning energy, magnetic field strength, and diabatic return time is analyzed, while the phonon filtering in the second step will require further investigation.
翻訳日:2024-11-08 05:49:00 公開日:2024-10-25
# ダブル量子ドットにおけるマイクロ波誘起冷却:スピン量子ビット付近の熱雑音低減のためのミルライルビン温度の達成

Microwave-Induced Cooling in Double Quantum Dots: Achieving Millikelvin Temperatures to Reduce Thermal Noise around Spin Qubits ( http://arxiv.org/abs/2408.12024v4 )

ライセンス: Link先を確認
Daryoosh Vashaee, Jahanfar Abouie, (参考訳) ゲート定義量子ドット(QD)におけるスピン量子ビットは、そのスケーラビリティと長いコヒーレンス時間のために、主要な技術として出現している。 しかし、これらの量子ビットを極低温に保つには、通常複雑な低温システムが必要である。 本稿では,DQDが冷媒として機能し,計算量子ビット周辺の局所フォノン環境を低減できる新しいゲート定義二重量子ドット (DQD) 冷却システムを提案する。 冷却過程は2つの異なる段階で発生し、第1段階はマイクロ波誘起状態の非集団化と高速サイクルの非核化と組み合わせてDQDの個体群を基底状態に移動させ、事実上DQDの温度を下げる。 2番目のステップでは、冷却されたDQDはDQDスピンエネルギーと共鳴するフォノンと相互作用して吸収し、周囲の環境におけるスピン格子緩和に寄与するこれらのフォノンをフィルタリングする。 本研究は, 温度1Kで局部DQD温度を10mK以下で達成可能であることを示すための計算と数値計算を行い, 冷却性能の劣化エネルギー, 磁場強度, ダイアバティックリターン時間に対する感度を解析し, 第2ステップでのフォノンろ過にはさらなる調査が必要であることを示した。

Spin qubits in gate-defined quantum dots (QDs) are emerging as a leading technology due to their scalability and long coherence times. However, maintaining these qubits at ultra-low temperatures typically requires complex cryogenic systems. This paper proposes a novel gate-defined double quantum dot (DQD) cooling system, where the DQDs act as refrigerants to reduce the local phonon environment around computational qubits. The cooling process occurs in two distinct stages: the first step involves microwave-induced state depopulation combined with fast cyclic detuning to transfer the DQD's population to the ground state, effectively lowering the DQD's temperature. In the second step, the cooled DQD interacts with and absorbs phonons resonant with the DQD spin energy, thereby filtering out these phonons that contribute to spin-lattice relaxation in the surrounding environment. This study focuses on the first step, presenting detailed calculations and numerical results that demonstrate the feasibility of achieving local DQD temperatures below 10 mK at a bath temperature of 1 K. The sensitivity of the cooling performance to detuning energy, magnetic field strength, and diabatic return time is analyzed, while the phonon filtering in the second step will require further investigation.
翻訳日:2024-11-08 05:49:00 公開日:2024-10-25
# PAM: マルチモーダル・メディカル・イメージにまたがる任意の3Dオブジェクトのセグメンテーションモデル

PAM: A Propagation-Based Model for Segmenting Any 3D Objects across Multi-Modal Medical Images ( http://arxiv.org/abs/2408.13836v2 )

ライセンス: Link先を確認
Zifan Chen, Xinyu Nan, Jiazheng Li, Jie Zhao, Haifeng Li, Ziling Lin, Haoshen Li, Heyun Chen, Yiting Liu, Lei Tang, Li Zhang, Bin Dong, (参考訳) ボリュームセグメンテーションは医療画像において重要であるが、現在の手法では、多くの手動アノテーションを必要としたり、特定のタスクに合わせたりすることで、その汎用性を制限するといった課題に直面している。 自然画像の一般的なセグメンテーションモデルは, 医用画像の特徴とよく一致しない。 異なる3D医療構造や画像のモダリティを効果的に扱えるような、適応可能なアプローチが求められています。 本研究では,境界ボックスやスケッチのような2次元プロンプトを用いて医用画像ボリュームの完全な3次元セグメンテーションを作成するセグメンテーション手法であるPAM(Propagating Anything Model)を提案する。 PAMはスライス間の関係をモデル化し、3D構造全体にわたる情報の流れを維持する。 スライス内での処理のためのCNNベースのUNetと、スライス間で情報を伝達するTransformerベースのアテンションモジュールを組み合わせることで、様々な画像モダリティの一般化性が向上する。 PAMは、MedSAMやSegVolのような既存のモデルよりも大幅に優れており、平均的な改善は44の医療データセットと様々な種類のオブジェクトに対して、18.1%以上のダイス類似度係数(DSC)である。 また、急激な偏差と異なる伝播設定にもかかわらず安定した性能を示し、他のモデルよりも高速な推論速度を示した。 PAMのワンビュープロンプト設計により効率が向上し、2ビュープロンプトに比べて相互作用時間が約63.6%削減された。 構造的関係に焦点が当てられているため、PAMは目に見えない複雑な物体をうまく扱い、新しい状況に一般化するユニークな能力を示した。 PAMは医用画像のセグメンテーションの進歩を表しており、広範な手作業や専門訓練の必要性を効果的に軽減している。 その適応性は、臨床現場でより自動化され信頼性の高い分析を行うための有望なツールとなる。

Volumetric segmentation is important in medical imaging, but current methods face challenges like requiring lots of manual annotations and being tailored to specific tasks, which limits their versatility. General segmentation models used for natural images don't perform well with the unique features of medical images. There's a strong need for an adaptable approach that can effectively handle different 3D medical structures and imaging modalities. In this study, we present PAM (Propagating Anything Model), a segmentation approach that uses a 2D prompt, like a bounding box or sketch, to create a complete 3D segmentation of medical image volumes. PAM works by modeling relationships between slices, maintaining information flow across the 3D structure. It combines a CNN-based UNet for processing within slices and a Transformer-based attention module for propagating information between slices, leading to better generalizability across various imaging modalities. PAM significantly outperformed existing models like MedSAM and SegVol, with an average improvement of over 18.1% in dice similarity coefficient (DSC) across 44 medical datasets and various object types. It also showed stable performance despite prompt deviations and different propagation setups, and faster inference speeds compared to other models. PAM's one-view prompt design made it more efficient, reducing interaction time by about 63.6% compared to two-view prompts. Thanks to its focus on structural relationships, PAM handled unseen and complex objects well, showing a unique ability to generalize to new situations. PAM represents an advancement in medical image segmentation, effectively reducing the need for extensive manual work and specialized training. Its adaptability makes it a promising tool for more automated and reliable analysis in clinical settings.
翻訳日:2024-11-08 05:15:13 公開日:2024-10-25
# CMIP6を用いたドイツにおけるタービン位置認識型マルチDecadal風力予測

Turbine location-aware multi-decadal wind power predictions for Germany using CMIP6 ( http://arxiv.org/abs/2408.14889v2 )

ライセンス: Link先を確認
Nina Effenberger, Nicole Ludwig, (参考訳) 気候変動は風とそれによる風力発電に大きく影響する。 気候モデルは洞察を与え、長期の電力計画に使用されるべきである。 本研究はガウス過程を用いて,地球規模の気候モデルから得られた風速の出力を予測し,集約された予測と実際の発電との比較を行う。 過去の気象モデルデータの解析は、CMIP6気候モデルデータを用いた多段階風力予測をサポートし、位置認識の重要性を強調している。 2050年までの予測では、年間風力発電の微妙な変化しか示されていない。 SSP2-4.5とSSP3-7.0の2つの気候シナリオの風力発電予測は、2015年から2023年までの実際の風力発電と密接に一致している。 我々の分析は、ドイツ北部の沿岸部がドイツ南部に比べて大きな不確実性を示しており、将来の風がより信頼性の高い地域での風力拡大を動機付けている。 全体としては、風力エネルギーは将来信頼できるエネルギー源となる可能性が高いことを示唆している。

Climate change will impact wind and therefore wind power generation with largely unknown effect and magnitude. Climate models can provide insights and should be used for long-term power planning. In this work we use Gaussian processes to predict power output given wind speeds from a global climate model and compare the aggregated predictions to actual power generation. Analyzing past climate model data supports the use of CMIP6 climate model data for multi-decadal wind power predictions and highlights the importance of being location-aware. Our predictions up to 2050 reveal only minor changes in yearly wind power generation. We find that wind power projections of the two in-between climate scenarios SSP2-4.5 and SSP3-7.0 closely align with actual wind power generation between 2015 and 2023. Our analysis also reveals larger uncertainty associated with Germany's coastal areas in the North as compared to Germany's South, motivating wind power expansion in regions where future wind is likely more reliable. Overall, our results indicate that wind energy will likely remain a reliable energy source in the future.
翻訳日:2024-11-08 04:52:58 公開日:2024-10-25
# TinyAgent: エッジでの関数呼び出し

TinyAgent: Function Calling at the Edge ( http://arxiv.org/abs/2409.00608v2 )

ライセンス: Link先を確認
Lutfi Eren Erdogan, Nicholas Lee, Siddharth Jha, Sehoon Kim, Ryan Tabrizi, Suhong Moon, Coleman Hooper, Gopala Anumanchipalli, Kurt Keutzer, Amir Gholami, (参考訳) 近年の大規模言語モデル (LLM) により,様々なツールやAPIを統合して,関数呼び出しによるユーザクエリを満足する高度なエージェントシステムの開発が可能になった。 しかしながら、これらのLSMのエッジへの展開は、モデルのサイズや計算上の要求がかなり大きいため、一般的にクラウドベースのインフラを必要とするため、検討されていない。 この目的のために,タスク固有の小言語モデルエージェントを訓練し,デプロイするためのエンドツーエンドフレームワークであるTinyAgentを紹介した。 まず、LLMCompilerフレームワークを介して、オープンソースモデルの正確な関数呼び出しを可能にする方法を示す。 次に,関数呼び出しのための高品質なデータセットを体系的にキュレートし,TinyAgent-1.1Bと7Bの2つの小言語モデルを微調整する。 効率的な推論のために,入力プロンプト長を削減し,量子化を利用して推論速度をさらに高速化する新しいツール検索手法を提案する。 駆動アプリケーションとして、テキストや音声入力によるユーザコマンドの実行が可能な、AppleのMacBook用のローカルSiriライクなシステムをデモする。 以上の結果から,GPT-4-Turboのような大規模モデルの機能呼び出し能力は,エッジに完全に展開しつつ実現可能であることが示された。 私たちはデータセット、モデル、インストール可能なパッケージをオープンソース化し、MacBookアシスタントエージェントのデモビデオを提供しています。

Recent large language models (LLMs) have enabled the development of advanced agentic systems that can integrate various tools and APIs to fulfill user queries through function calling. However, the deployment of these LLMs on the edge has not been explored since they typically require cloud-based infrastructure due to their substantial model size and computational demands. To this end, we present TinyAgent, an end-to-end framework for training and deploying task-specific small language model agents capable of function calling for driving agentic systems at the edge. We first show how to enable accurate function calling for open-source models via the LLMCompiler framework. We then systematically curate a high-quality dataset for function calling, which we use to fine-tune two small language models, TinyAgent-1.1B and 7B. For efficient inference, we introduce a novel tool retrieval method to reduce the input prompt length and utilize quantization to further accelerate the inference speed. As a driving application, we demonstrate a local Siri-like system for Apple's MacBook that can execute user commands through text or voice input. Our results show that our models can achieve, and even surpass, the function-calling capabilities of larger models like GPT-4-Turbo, while being fully deployed at the edge. We open-source our dataset, models, and installable package and provide a demo video for our MacBook assistant agent.
翻訳日:2024-11-08 03:46:24 公開日:2024-10-25
# TinyAgent: エッジでの関数呼び出し

TinyAgent: Function Calling at the Edge ( http://arxiv.org/abs/2409.00608v3 )

ライセンス: Link先を確認
Lutfi Eren Erdogan, Nicholas Lee, Siddharth Jha, Sehoon Kim, Ryan Tabrizi, Suhong Moon, Coleman Hooper, Gopala Anumanchipalli, Kurt Keutzer, Amir Gholami, (参考訳) 近年の大規模言語モデル (LLM) により,様々なツールやAPIを統合して,関数呼び出しによるユーザクエリを満足する高度なエージェントシステムの開発が可能になった。 しかしながら、これらのLSMのエッジへの展開は、モデルのサイズや計算上の要求がかなり大きいため、一般的にクラウドベースのインフラを必要とするため、検討されていない。 この目的のために,タスク固有の小言語モデルエージェントを訓練し,デプロイするためのエンドツーエンドフレームワークであるTinyAgentを紹介した。 まず、LLMCompilerフレームワークを介して、オープンソースモデルの正確な関数呼び出しを可能にする方法を示す。 次に,関数呼び出しのための高品質なデータセットを体系的にキュレートし,TinyAgent-1.1Bと7Bの2つの小言語モデルを微調整する。 効率的な推論のために,入力プロンプト長を削減し,量子化を利用して推論速度をさらに高速化する新しいツール検索手法を提案する。 駆動アプリケーションとして、テキストや音声入力によるユーザコマンドの実行が可能な、AppleのMacBook用のローカルSiriライクなシステムをデモする。 以上の結果から,GPT-4-Turboのような大規模モデルの機能呼び出し能力は,エッジに完全に展開しつつ実現可能であることが示された。 私たちはデータセット、モデル、インストール可能なパッケージをオープンソース化し、MacBookアシスタントエージェントのデモビデオを提供しています。

Recent large language models (LLMs) have enabled the development of advanced agentic systems that can integrate various tools and APIs to fulfill user queries through function calling. However, the deployment of these LLMs on the edge has not been explored since they typically require cloud-based infrastructure due to their substantial model size and computational demands. To this end, we present TinyAgent, an end-to-end framework for training and deploying task-specific small language model agents capable of function calling for driving agentic systems at the edge. We first show how to enable accurate function calling for open-source models via the LLMCompiler framework. We then systematically curate a high-quality dataset for function calling, which we use to fine-tune two small language models, TinyAgent-1.1B and 7B. For efficient inference, we introduce a novel tool retrieval method to reduce the input prompt length and utilize quantization to further accelerate the inference speed. As a driving application, we demonstrate a local Siri-like system for Apple's MacBook that can execute user commands through text or voice input. Our results show that our models can achieve, and even surpass, the function-calling capabilities of larger models like GPT-4-Turbo, while being fully deployed at the edge. We open-source our dataset, models, and installable package and provide a demo video for our MacBook assistant agent.
翻訳日:2024-11-08 03:46:24 公開日:2024-10-25
# PatternPaint: 生成AIと塗装技術を用いたレイアウトパターンの生成

PatternPaint: Generating Layout Patterns Using Generative AI and Inpainting Techniques ( http://arxiv.org/abs/2409.01348v2 )

ライセンス: Link先を確認
Guanglei Zhou, Bhargav Korrapati, Gaurav Rajavendra Reddy, Jiang Hu, Yiran Chen, Dipto G. Thakurta, (参考訳) 製造(DFM)研究における下流業務において,多様なVLSIレイアウトパターンの生成が不可欠である。 しかし、長い設計サイクルは包括的レイアウトパターンライブラリの作成を妨げることが多く、製品開発プロセスの後半で新しい有害パターンが発見される可能性がある。 既存のトレーニングベースのMLパターン生成アプローチでは,トレーニングサンプルの可用性が限られているため,技術ノード開発の初期段階において,法的レイアウトパターンの生成に苦慮している。この課題に対処するために,DRCクリーントレーニングサンプルに制限された法的なパターンを生成可能な,トレーニングフリーフレームワークであるPatternPaintを提案する。 PatternPaintは、複雑なレイアウトパターンの生成を、テンプレートベースのdenoisingスキームで一連のインペイントプロセスに単純化する。 我々のフレームワークは、一般的な事前学習された画像基盤モデル(安定拡散)でさえも、貴重なパターンのバリエーションを生成でき、ライブラリーを拡張できる。 特に、PatternPaintは任意の入力サイズで操作できる。 さらに,VLSIレイアウト画像を用いた事前学習モデルの微調整を行った結果,ベースモデルと比較して2倍の効率が得られた。 提案手法は, 複雑な2次元金属配線設計規則設定において, 法則パターンを生成でき, 高い多様性を達成できることを示す。 フレキシブルな設定で設計されたシステムは、局所的な変更と設計規則違反訂正によるパターン生成をサポートする。 サブ3nm技術ノード(Intel 18A)で検証されたPatternPaintは、20個のデザインルールクリーンレイアウトパターンを入力として使用する複雑な2Dレイアウトパターンライブラリを生成する最初のフレームワークである。

Generation of diverse VLSI layout patterns is crucial for various downstream tasks in design for manufacturing (DFM) studies. However, the lengthy design cycles often hinder the creation of a comprehensive layout pattern library, and new detrimental patterns may be discovered late in the product development process. Existing training-based ML pattern generation approaches struggle to produce legal layout patterns in the early stages of technology node development due to the limited availability of training samples.To address this challenge, we propose PatternPaint, a training-free framework capable of generating legal patterns with limited DRC Clean training samples. PatternPaint simplifies complex layout pattern generation into a series of inpainting processes with a template-based denoising scheme. Our framework enables even a general pre-trained image foundation model (stable-diffusion), to generate valuable pattern variations, thereby enhancing the library. Notably, PatternPaint can operate with any input size. Furthermore, we explore fine-tuning a pre-trained model with VLSI layout images, resulting in a 2x generation efficiency compared to the base model. Our results show that the proposed model can generate legal patterns in complex 2D metal interconnect design rule settings and achieves a high diversity score. The designed system, with its flexible settings, supports pattern generation with localized changes and design rule violation correction. Validated on a sub-3nm technology node (Intel 18A), PatternPaint is the first framework to generate a complex 2D layout pattern library using only 20 design rule clean layout patterns as input.
翻訳日:2024-11-08 03:23:46 公開日:2024-10-25
# 自動微分による逆磁気伝導設計

Inverse magneto-conductance design by automatic differentiation ( http://arxiv.org/abs/2409.02009v2 )

ライセンス: Link先を確認
Yuta Hirasaki, Koji Inui, Eiji Saitoh, (参考訳) 薄いワイヤの磁気伝導は、伝導電子の量子干渉による複雑なパターンを示すことが多い。 これらのパターンは欠陥や電位分布などのワイヤの微細構造を反映している。 本研究では,所望の磁気伝導パターンを示す顕微鏡構造を自動生成する逆設計法を提案する。 本稿では,ワイヤの欠陥位置を正確に生成し,様々な複雑なパターンに効果的に適用できることを数値的に示す。 また,実験研究を促進する構造設計手法についても論じる。

Magneto-conductance in thin wires often exhibits complicated patterns due to the quantum interference of conduction electrons. These patterns reflect microscopic structures in the wires, such as defects or potential distributions. In this study, we propose an inverse design method to automatically generate a microscopic structure that exhibits desired magneto-conductance patterns. We numerically demonstrate that our method accurately generates defect positions in wires and can be effectively applied to various complicated patterns. We also discuss techniques for designing structures that facilitate experimental investigation.
翻訳日:2024-11-07 23:56:04 公開日:2024-10-25
# 子宮内膜症診断のためのヒト-AI協調マルチモーダルマルチレイタラーニング

Human-AI Collaborative Multi-modal Multi-rater Learning for Endometriosis Diagnosis ( http://arxiv.org/abs/2409.02046v3 )

ライセンス: Link先を確認
Hu Wang, David Butler, Yuan Zhang, Jodie Avery, Steven Knox, Congbo Ma, Louise Hull, Gustavo Carneiro, (参考訳) 子宮内膜症は、出生時に女性に割り当てられた患者の約10%に影響を及ぼし、診断と管理が困難である。 診断は通常、腹腔鏡下手術またはT1/T2MRI画像の解析を用いて、疾患の様々な徴候を同定する。 子宮内膜症の診断上の重要な徴候は、ポウチ・オブ・ダグラス(POD)の消滅である。 しかし、経験豊富な臨床医でさえ、信頼性の高いAIモデルのトレーニングを複雑にするMRI画像からPODを正確に分類することに苦労している。 本稿では,HAICOMM(Human-AI Collaborative Multi-modal Multi-rater Learning)手法を提案する。 HAICOMMは、この問題の3つの重要な側面を探求する最初の方法である。 1) トレーニングサンプル毎に利用可能な複数の「ノイズ」ラベルから、よりクリーンなラベルを抽出するマルチラター学習 2)T1/T2MRI画像のトレーニング・テストへの活用のためのマルチモーダル学習 3) 臨床医とAIモデルからの予測を活用して、スタンドアロンの臨床医やAIモデルよりも正確な分類を提供するシステムを構築する。 提案手法を検証するために収集したマルチレータT1/T2MRI子宮内膜症データセットの結果から,提案したHAICOMMモデルは,臨床医,ノイズラベル学習モデル,マルチレータ学習手法のアンサンブルよりも優れていた。

Endometriosis, affecting about 10% of individuals assigned female at birth, is challenging to diagnose and manage. Diagnosis typically involves the identification of various signs of the disease using either laparoscopic surgery or the analysis of T1/T2 MRI images, with the latter being quicker and cheaper but less accurate. A key diagnostic sign of endometriosis is the obliteration of the Pouch of Douglas (POD). However, even experienced clinicians struggle with accurately classifying POD obliteration from MRI images, which complicates the training of reliable AI models. In this paper, we introduce the Human-AI Collaborative Multi-modal Multi-rater Learning (HAICOMM) methodology to address the challenge above. HAICOMM is the first method that explores three important aspects of this problem: 1) multi-rater learning to extract a cleaner label from the multiple "noisy" labels available per training sample; 2) multi-modal learning to leverage the presence of T1/T2 MRI images for training and testing; and 3) human-AI collaboration to build a system that leverages the predictions from clinicians and the AI model to provide more accurate classification than standalone clinicians and AI models. Presenting results on the multi-rater T1/T2 MRI endometriosis dataset that we collected to validate our methodology, the proposed HAICOMM model outperforms an ensemble of clinicians, noisy-label learning models, and multi-rater learning methods.
翻訳日:2024-11-07 23:56:04 公開日:2024-10-25
# 仮設拡散モデルと極秘時間非依存仮設モデルと爆発的不正確なカテゴリーサンプリング

Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling ( http://arxiv.org/abs/2409.02908v2 )

ライセンス: Link先を確認
Kaiwen Zheng, Yongxin Chen, Hanzi Mao, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang, (参考訳) マスク付き拡散モデル(MDM)は、他の離散拡散モデルよりも優れた性能を持つため、離散データの生成モデルとして人気があり、言語モデリングタスクの自己回帰モデル(ARM)と競合している。 マスク付き拡散フレームワークを単純化する最近の取り組みにより、連続空間拡散モデルやより原則化されたトレーニングやサンプリングレシピとの整合性がさらに高められた。 しかし,本論文では,MDMのトレーニングとサンプリングの両方が理論的には時間変数から解放され,拡散モデルのキーシグネチャとなり,代わりにマスクモデルと等価であることを明らかにした。 サンプリング面上の接続は,提案した第1ハイティングサンプリング(FHS)によって引き起こされる。 具体的には、FHSは理論上MDMの原生成プロセスと等価であり、時間を要するカテゴリサンプリングを著しく軽減し、20$\times$スピードアップを実現していることを示す。 さらに、我々の調査は、MDMがARMを真に勝てるかどうかに疑問を呈している。 一般に使われている32ビット浮動小数点精度が不正確な分類的サンプリングをもたらす場合でも、初めて基礎となる数値問題を同定する。 数値問題により, 有効温度は理論的にも経験的にも低下し, トークンの多様性の低下により, 不完全生成パープレキシティ測定のみで生成品質を評価できる以前の評価結果が得られた。

Masked diffusion models (MDMs) have emerged as a popular research topic for generative modeling of discrete data, thanks to their superior performance over other discrete diffusion models, and are rivaling the auto-regressive models (ARMs) for language modeling tasks. The recent effort in simplifying the masked diffusion framework further leads to alignment with continuous-space diffusion models and more principled training and sampling recipes. In this paper, however, we reveal that both training and sampling of MDMs are theoretically free from the time variable, arguably the key signature of diffusion models, and are instead equivalent to masked models. The connection on the sampling aspect is drawn by our proposed first-hitting sampler (FHS). Specifically, we show that the FHS is theoretically equivalent to MDMs' original generation process while significantly alleviating the time-consuming categorical sampling and achieving a 20$\times$ speedup. In addition, our investigation raises doubts about whether MDMs can truly beat ARMs. We identify, for the first time, an underlying numerical issue, even with the commonly used 32-bit floating-point precision, which results in inaccurate categorical sampling. We show that the numerical issue lowers the effective temperature both theoretically and empirically, and the resulting decrease in token diversity makes previous evaluations, which assess the generation quality solely through the incomplete generative perplexity metric, somewhat unfair.
翻訳日:2024-11-07 23:34:03 公開日:2024-10-25
# 仮設拡散モデルと極秘時間非依存仮設モデルと爆発的不正確なカテゴリーサンプリング

Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling ( http://arxiv.org/abs/2409.02908v3 )

ライセンス: Link先を確認
Kaiwen Zheng, Yongxin Chen, Hanzi Mao, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang, (参考訳) マスク付き拡散モデル(MDM)は、他の離散拡散モデルよりも優れた性能を持つため、離散データの生成モデルとして人気があり、言語モデリングタスクの自己回帰モデル(ARM)と競合している。 マスク付き拡散フレームワークを単純化する最近の取り組みにより、連続空間拡散モデルやより原則化されたトレーニングやサンプリングレシピとの整合性がさらに高められた。 しかし,本論文では,MDMのトレーニングとサンプリングの両方が理論的には時間変数から解放され,拡散モデルのキーシグネチャとなり,代わりにマスクモデルと等価であることを明らかにした。 サンプリング面上の接続は,提案した第1ハイティングサンプリング(FHS)によって引き起こされる。 具体的には、FHSは理論上MDMの原生成プロセスと等価であり、時間を要するカテゴリサンプリングを著しく軽減し、20$\times$スピードアップを実現していることを示す。 さらに、我々の調査は、MDMがテキスト生成においてARMを真に勝てるかどうかという疑念を提起している。 一般に使われている32ビット浮動小数点精度が不正確な分類的サンプリングをもたらす場合でも、初めて基礎となる数値問題を同定する。 その結果, 有効温度を理論的にも経験的にも低下させ, トークンの多様性の低下により, 不完全な生成パープレキシティ測定によってのみ生成品質を評価する従来の評価結果が不公平であることが判明した。

Masked diffusion models (MDMs) have emerged as a popular research topic for generative modeling of discrete data, thanks to their superior performance over other discrete diffusion models, and are rivaling the auto-regressive models (ARMs) for language modeling tasks. The recent effort in simplifying the masked diffusion framework further leads to alignment with continuous-space diffusion models and more principled training and sampling recipes. In this paper, however, we reveal that both training and sampling of MDMs are theoretically free from the time variable, arguably the key signature of diffusion models, and are instead equivalent to masked models. The connection on the sampling aspect is drawn by our proposed first-hitting sampler (FHS). Specifically, we show that the FHS is theoretically equivalent to MDMs' original generation process while significantly alleviating the time-consuming categorical sampling and achieving a 20$\times$ speedup. In addition, our investigation raises doubts about whether MDMs can truly beat ARMs in text generation. We identify, for the first time, an underlying numerical issue, even with the commonly used 32-bit floating-point precision, which results in inaccurate categorical sampling. We show that it lowers the effective temperature both theoretically and empirically, and the resulting decrease in token diversity makes previous evaluations, which assess the generation quality solely through the incomplete generative perplexity metric, somewhat unfair.
翻訳日:2024-11-07 23:34:03 公開日:2024-10-25
# ランダム化による量子アルゴリズムのコスト削減

Halving the Cost of Quantum Algorithms with Randomization ( http://arxiv.org/abs/2409.03744v3 )

ライセンス: Link先を確認
John M. Martyn, Patrick Rall, (参考訳) 量子信号処理(QSP)は、線形作用素の多項式変換を実装するための体系的なフレームワークを提供し、ほとんどすべての既知の量子アルゴリズムを統一する。 並行して、最近の研究はランダム化されたコンパイルを開発した。これはユニタリゲートを量子チャネルにプロモートし、誤りの二次的な抑制を可能にする技術である($\epsilon \rightarrow O(\epsilon^2)$)。 ここでは、確率量子信号処理によるランダム化コンパイルをQSPに統合する。 提案アルゴリズムは, 平均進化が対象関数に収束するように戦略的に選択された多項式の確率的混合を実装し, 誤差は等価な個々の多項式よりも2次的に小さい。 ほとんど全てのQSPベースのアルゴリズムは、$O(\log(1/\epsilon))$ -- 関数解析の結果から生じる -- のクエリ複雑さを示すので、このエラーは、漸近的に1/2$に近づいた要因によって、クエリの複雑さを減少させる。 QSPの統一能力により、この削減は量子アルゴリズムにまで拡張され、実時間と想像の時間進化、位相推定、基底状態の準備、行列逆転のアルゴリズムで示される。

Quantum signal processing (QSP) provides a systematic framework for implementing a polynomial transformation of a linear operator, and unifies nearly all known quantum algorithms. In parallel, recent works have developed randomized compiling, a technique that promotes a unitary gate to a quantum channel and enables a quadratic suppression of error (i.e., $\epsilon \rightarrow O(\epsilon^2)$) at little to no overhead. Here we integrate randomized compiling into QSP through Stochastic Quantum Signal Processing. Our algorithm implements a probabilistic mixture of polynomials, strategically chosen so that the average evolution converges to that of a target function, with an error quadratically smaller than that of an equivalent individual polynomial. Because nearly all QSP-based algorithms exhibit query complexities scaling as $O(\log(1/\epsilon))$ -- stemming from a result in functional analysis -- this error suppression reduces their query complexity by a factor that asymptotically approaches $1/2$. By the unifying capabilities of QSP, this reduction extends broadly to quantum algorithms, which we demonstrate on algorithms for real and imaginary time evolution, phase estimation, ground state preparation, and matrix inversion.
翻訳日:2024-11-07 23:11:54 公開日:2024-10-25
# Hindi-BEIRとNLLB-E5を用いたゼロショットヒンディー検索モデルのベンチマークと構築

Benchmarking and Building Zero-Shot Hindi Retrieval Model with Hindi-BEIR and NLLB-E5 ( http://arxiv.org/abs/2409.05401v2 )

ライセンス: Link先を確認
Arkadeep Acharya, Rudra Murthy, Vishwajeet Kumar, Jaydeep Sen, (参考訳) 世界中のヒンディー語話者が多数いることから、ヒンディー語のための堅牢で効率的な情報検索システムの必要性が高まっている。 進行中の研究にもかかわらず、ヒンディー語での検索モデルを評価するための包括的なベンチマークは欠落している。 このギャップに対処するため、Hindi-BEIRベンチマークを導入し、7つの異なるタスクにまたがる15のデータセットを含む。 我々は,Hindi-BEIRベンチマークによる最先端多言語検索モデルの評価を行い,Hindi検索性能に影響を与える課題と領域固有の課題を特定する。 これらの結果から得られた知見に基づいて,ヒンディー語学習データを必要とせずにヒンディー語をサポートするため,ゼロショットアプローチを活用する多言語検索モデルであるNLLB-E5を導入する。 Hindi-BEIRベンチマークとNLLB-E5モデルのリリースを含む私たちの貢献は、研究者にとって貴重なリソースであり、多言語検索モデルの進歩を促進するだろうと考えています。

Given the large number of Hindi speakers worldwide, there is a pressing need for robust and efficient information retrieval systems for Hindi. Despite ongoing research, comprehensive benchmarks for evaluating retrieval models in Hindi are lacking. To address this gap, we introduce the Hindi-BEIR benchmark, comprising 15 datasets across seven distinct tasks. We evaluate state-of-the-art multilingual retrieval models on the Hindi-BEIR benchmark, identifying task and domain-specific challenges that impact Hindi retrieval performance. Building on the insights from these results, we introduce NLLB-E5, a multilingual retrieval model that leverages a zero-shot approach to support Hindi without the need for Hindi training data. We believe our contributions, which include the release of the Hindi-BEIR benchmark and the NLLB-E5 model, will prove to be a valuable resource for researchers and promote advancements in multilingual retrieval models.
翻訳日:2024-11-07 22:27:40 公開日:2024-10-25
# 言語モデルにおける結合の表現論的解析

Representational Analysis of Binding in Language Models ( http://arxiv.org/abs/2409.05448v3 )

ライセンス: Link先を確認
Qin Dai, Benjamin Heinzerling, Kentaro Inui, (参考訳) 複雑な推論にはエンティティのトラッキングが不可欠だ。 コンテキスト内エンティティ追跡を実行するには、言語モデル(LM)がエンティティを属性(例えば、コンテナをコンテンツにバインドする)にバインドし、エンティティの属性をリコールする必要がある。 例えば、'The coffee is in Box Z', the stone is in Box M', the map is in Box H'', to infer ``Box Z contains the coffee'' という文脈では、LMは ``Box Z'' を ``coffee'' に結合しなければならない。 LMの結合挙動を説明するために、既存の研究はBinding ID機構を導入し、LMはBinding ID(BI)と呼ばれる抽象概念を用いてエンティティと属性のペアを内部的にマークしている。 しかし、バインディング動作を直接決定するエンティティアクティベーションから注文ID(OI)をキャプチャしていない。 本稿では, OI の局在化と OI と結合挙動の因果性を証明することで, BI 機構の新たな視点を提供する。 具体的には、次元還元法(例えばPCA)を利用して、LMの活性化に低ランク部分空間が存在し、主に実体と属性の順序(すなわちOI)を符号化する。 さらに、OI符号化方向に沿って表現を編集する場合、LMは与えられた実体を他の属性に結合する傾向にあるという、OIの結合に対する因果効果も発見する。 例えば、OIエンコーディング方向に沿ってアクティベーションをパッチすることで、LM に ``Box Z が Stone' を含むと ``Box Z が map'' を含むと推測させることができる。

Entity tracking is essential for complex reasoning. To perform in-context entity tracking, language models (LMs) must bind an entity to its attribute (e.g., bind a container to its content) to recall attribute for a given entity. For example, given a context mentioning ``The coffee is in Box Z, the stone is in Box M, the map is in Box H'', to infer ``Box Z contains the coffee'' later, LMs must bind ``Box Z'' to ``coffee''. To explain the binding behaviour of LMs, existing research introduces a Binding ID mechanism and states that LMs use a abstract concept called Binding ID (BI) to internally mark entity-attribute pairs. However, they have not captured the Ordering ID (OI) from entity activations that directly determines the binding behaviour. In this work, we provide a novel view of the BI mechanism by localizing OI and proving the causality between OI and binding behaviour. Specifically, by leveraging dimension reduction methods (e.g., PCA), we discover that there exists a low-rank subspace in the activations of LMs, that primarily encodes the order (i.e., OI) of entity and attribute. Moreover, we also discover the causal effect of OI on binding that when editing representations along the OI encoding direction, LMs tend to bind a given entity to other attributes accordingly. For example, by patching activations along the OI encoding direction we can make the LM to infer ``Box Z contains the stone'' and ``Box Z contains the map''.
翻訳日:2024-11-07 22:27:40 公開日:2024-10-25
# 解釈可能なエンドステージ腎疾患(ESRD)予測に向けて : 説明可能なAI技術を用いた管理的クレームデータの利用

Towards Interpretable End-Stage Renal Disease (ESRD) Prediction: Utilizing Administrative Claims Data with Explainable AI Techniques ( http://arxiv.org/abs/2409.12087v2 )

ライセンス: Link先を確認
Yubo Li, Saba Al-Sayouri, Rema Padman, (参考訳) 本研究は,慢性腎臓病(CKD)から末期腎疾患(ESRD)への進行を予測するために,高度な機械学習とディープラーニング技術を組み合わせた管理クレームデータを活用する可能性を検討する。 我々は、ランダムフォレストやXGBoostといった従来の機械学習手法とLong Short-Term Memory(LSTM)ネットワークのようなディープラーニングアプローチを用いて、大手医療保険会社が提供した包括的10年間のデータセットを分析し、複数の観測窓の予測モデルを開発する。 その結果、LSTMモデル、特に24ヶ月の観測窓は、ESRDの進行予測において優れた性能を示し、文献における既存モデルよりも優れていた。 さらに、SHAP分析を応用して解釈可能性を高め、個々の特徴が患者レベルでの予測に与える影響について考察する。 本研究は, CKD管理とESRD進行予測に行政請求データを活用することの価値を浮き彫りにする。

This study explores the potential of utilizing administrative claims data, combined with advanced machine learning and deep learning techniques, to predict the progression of Chronic Kidney Disease (CKD) to End-Stage Renal Disease (ESRD). We analyze a comprehensive, 10-year dataset provided by a major health insurance organization to develop prediction models for multiple observation windows using traditional machine learning methods such as Random Forest and XGBoost as well as deep learning approaches such as Long Short-Term Memory (LSTM) networks. Our findings demonstrate that the LSTM model, particularly with a 24-month observation window, exhibits superior performance in predicting ESRD progression, outperforming existing models in the literature. We further apply SHapley Additive exPlanations (SHAP) analysis to enhance interpretability, providing insights into the impact of individual features on predictions at the individual patient level. This study underscores the value of leveraging administrative claims data for CKD management and predicting ESRD progression.
翻訳日:2024-11-07 19:26:16 公開日:2024-10-25
# 解釈可能なエンドステージ腎疾患(ESRD)予測に向けて : 説明可能なAI技術を用いた管理的クレームデータの利用

Towards Interpretable End-Stage Renal Disease (ESRD) Prediction: Utilizing Administrative Claims Data with Explainable AI Techniques ( http://arxiv.org/abs/2409.12087v3 )

ライセンス: Link先を確認
Yubo Li, Saba Al-Sayouri, Rema Padman, (参考訳) 本研究は,慢性腎臓病(CKD)から末期腎疾患(ESRD)への進行を予測するために,高度な機械学習とディープラーニング技術を組み合わせた管理クレームデータを活用する可能性を検討する。 我々は、ランダムフォレストやXGBoostといった従来の機械学習手法とLong Short-Term Memory(LSTM)ネットワークのようなディープラーニングアプローチを用いて、大手医療保険会社が提供した包括的10年間のデータセットを分析し、複数の観測窓の予測モデルを開発する。 その結果、LSTMモデル、特に24ヶ月の観測窓は、ESRDの進行予測において優れた性能を示し、文献における既存モデルよりも優れていた。 さらに、SHAP分析を応用して解釈可能性を高め、個々の特徴が患者レベルでの予測に与える影響について考察する。 本研究は, CKD管理とESRD進行予測に行政請求データを活用することの価値を浮き彫りにする。

This study explores the potential of utilizing administrative claims data, combined with advanced machine learning and deep learning techniques, to predict the progression of Chronic Kidney Disease (CKD) to End-Stage Renal Disease (ESRD). We analyze a comprehensive, 10-year dataset provided by a major health insurance organization to develop prediction models for multiple observation windows using traditional machine learning methods such as Random Forest and XGBoost as well as deep learning approaches such as Long Short-Term Memory (LSTM) networks. Our findings demonstrate that the LSTM model, particularly with a 24-month observation window, exhibits superior performance in predicting ESRD progression, outperforming existing models in the literature. We further apply SHapley Additive exPlanations (SHAP) analysis to enhance interpretability, providing insights into the impact of individual features on predictions at the individual patient level. This study underscores the value of leveraging administrative claims data for CKD management and predicting ESRD progression.
翻訳日:2024-11-07 19:26:16 公開日:2024-10-25
# iCost:不均衡分類のための新しいインスタンス複雑度に基づくコスト感性学習フレームワーク

iCost: A Novel Instance Complexity Based Cost-Sensitive Learning Framework for Imbalanced Classification ( http://arxiv.org/abs/2409.13007v1 )

ライセンス: Link先を確認
Asif Newaz, Asif Ur Rahman Adib, Taskeed Jabid, (参考訳) データにおけるクラス不均衡は、分類タスクにとって重要な課題である。 比較的一般的で、望ましいパフォーマンスを得るためには慎重に処理する必要がある。 伝統的な分類アルゴリズムは多数派に偏っている。 シナリオを緩和する1つの方法は、分類器をコストに敏感にすることです。 これは、マイノリティクラスのインスタンスに高い分類コストを割り当てることによって達成される。 この実装の1つの問題は、すべてのマイノリティクラスインスタンスが平等に扱われ、同じペナルティ値が割り当てられることである。 しかし、すべてのインスタンスの学習困難は、同じではない。 決定境界の近くにあるインスタンスは分類が難しいが、遠くにあるインスタンスはより簡単である。 インスタンスの複雑さを考慮し、すべてのマイノリティクラスのサンプルを均一に重み付けすることなしに、不確実なバイアスが発生し、その結果、多数派クラスのインスタンスの多くの誤分類が発生する。 これは望ましくないことであり、この状況を克服するために、本研究では、複雑性に基づく新規なコスト感受性アプローチを提案する。 まず、難易度に基づいてすべてのマイノリティクラスインスタンスを分類し、それに応じてインスタンスを罰する。 これにより、より公平なインスタンスの重み付けが保証され、過剰なペナルティ化が防止される。 提案手法の有効性を実証し,66個の不均衡データセットを従来のコスト依存型学習フレームワークと比較した。

Class imbalance in data presents significant challenges for classification tasks. It is fairly common and requires careful handling to obtain desirable performance. Traditional classification algorithms become biased toward the majority class. One way to alleviate the scenario is to make the classifiers cost-sensitive. This is achieved by assigning a higher misclassification cost to minority-class instances. One issue with this implementation is that all the minority-class instances are treated equally, and assigned with the same penalty value. However, the learning difficulties of all the instances are not the same. Instances that are located near the decision boundary are harder to classify, whereas those further away are easier. Without taking into consideration the instance complexity and naively weighting all the minority-class samples uniformly, results in an unwarranted bias and consequently, a higher number of misclassifications of the majority-class instances. This is undesirable and to overcome the situation, we propose a novel instance complexity-based cost-sensitive approach in this study. We first categorize all the minority-class instances based on their difficulty level and then the instances are penalized accordingly. This ensures a more equitable instance weighting and prevents excessive penalization. The performance of the proposed approach is tested on 66 imbalanced datasets against the traditional cost-sensitive learning frameworks and a significant improvement in performance is noticeable, demonstrating the effectiveness of our method.
翻訳日:2024-11-07 12:14:24 公開日:2024-10-25
# iCost: 新たなインスタンス複雑度に基づくコスト感応学習フレームワーク

iCost: A Novel Instance Complexity Based Cost-Sensitive Learning Framework ( http://arxiv.org/abs/2409.13007v2 )

ライセンス: Link先を確認
Asif Newaz, Asif Ur Rahman Adib, Taskeed Jabid, (参考訳) データにおけるクラス不均衡は、分類タスクにとって重要な課題である。 比較的一般的で、望ましいパフォーマンスを得るためには慎重に処理する必要がある。 伝統的な分類アルゴリズムは多数派に偏っている。 シナリオを緩和する1つの方法は、分類器をコストに敏感にすることです。 これは、マイノリティクラスのインスタンスに高い分類コストを割り当てることによって達成される。 この実装の1つの問題は、すべてのマイノリティクラスインスタンスが平等に扱われ、同じペナルティ値が割り当てられることである。 しかし、すべてのインスタンスの学習困難は、同じではない。 重複する領域や決定境界付近に位置するインスタンスは分類が難しく、さらに離れたインスタンスは容易に分類できる。 インスタンスの複雑さを考慮し、すべてのマイノリティクラスのサンプルを均一に重み付けすることなしに、不確実なバイアスが発生し、その結果、多数派クラスのインスタンスの多くの誤分類が発生する。 これは望ましくないことであり、この状況を克服するために、本研究では、新しいインスタンスの複雑性に基づくコスト感受性アプローチ(「iCost」と呼ばれる)を提案する。 まず、難易度に基づいてすべてのマイノリティクラスインスタンスを分類し、それに応じてインスタンスを罰する。 これにより、より公平なインスタンスの重み付けが保証され、過剰なペナルティ化が防止される。 提案手法の性能は,65のバイナリと10のマルチクラス不均衡データセットに対して,従来のコスト依存学習フレームワークに対して検証される。 提案手法の有効性を実証し,性能を著しく改善した。

Class imbalance in data presents significant challenges for classification tasks. It is fairly common and requires careful handling to obtain desirable performance. Traditional classification algorithms become biased toward the majority class. One way to alleviate the scenario is to make the classifiers cost-sensitive. This is achieved by assigning a higher misclassification cost to minority-class instances. One issue with this implementation is that all the minority-class instances are treated equally, and assigned with the same penalty value. However, the learning difficulties of all the instances are not the same. Instances that are located in the overlapping region or near the decision boundary are harder to classify, whereas those further away are easier. Without taking into consideration the instance complexity and naively weighting all the minority-class samples uniformly, results in an unwarranted bias and consequently, a higher number of misclassifications of the majority-class instances. This is undesirable and to overcome the situation, we propose a novel instance complexity-based cost-sensitive approach (termed 'iCost') in this study. We first categorize all the minority-class instances based on their difficulty level and then the instances are penalized accordingly. This ensures a more equitable instance weighting and prevents excessive penalization. The performance of the proposed approach is tested on 65 binary and 10 multiclass imbalanced datasets against the traditional cost-sensitive learning frameworks. A significant improvement in performance has been observed, demonstrating the effectiveness of the proposed strategy.
翻訳日:2024-11-07 12:14:24 公開日:2024-10-25
# スピンセンシングと制御のための改良された電子核量子ゲート

Improved Electron-Nuclear Quantum Gates for Spin Sensing and Control ( http://arxiv.org/abs/2409.13610v1 )

ライセンス: Link先を確認
H. B. van Ommen, G. L. van de Stolpe, N. Demetriou, H. K. C. Beukers, J. Yun, T. R. J. Fortuin, M. Iuliano, A. R. -P. Montblanch, R. Hanson, T. H. Taminiau, (参考訳) 固体欠陥の近くで核スピンを検知し制御する能力は、様々な量子技術を可能にする可能性がある。 DDRF(Dynamically Decoupled Radio-Frequency)制御は、設計の柔軟性と長い電子スピンコヒーレンス時間を提供する。 しかし、従来の研究では、単純化されたモデルと、最適ゲート設計と基本的な限界についてはほとんど知られていない。 本稿では,スピンセンシングと制御に重要な意味を持つ汎用DDRFフレームワークを開発する。 ダイヤモンド中の単一NV中心における実験により相関する解析モデルでは, ゲートの選択性とその有効ラビ周波数を制御し, フレキシブルなゲート設計を可能にする機構が明らかにされている。 これらの知見を応用して、弱い結合スピンを検出するための60倍感度向上の可能性を示し、マルチキュービットレジスタにおける量子ゲートの最適化について検討する。 これらの結果は、幅広い種類のゲートの理解を促進し、アプリケーション固有の設計のためのツールボックスを提供し、量子制御とセンシングの改善を可能にした。

The ability to sense and control nuclear spins near solid-state defects might enable a range of quantum technologies. Dynamically Decoupled Radio-Frequency (DDRF) control offers a high degree of design flexibility and long electron-spin coherence times. However, previous studies considered simplified models and little is known about optimal gate design and fundamental limits. Here, we develop a generalised DDRF framework that has important implications for spin sensing and control. Our analytical model, which we corroborate by experiments on a single NV center in diamond, reveals the mechanisms that govern the selectivity of gates and their effective Rabi frequencies, and enables flexible detuned gate designs. We apply these insights to show a potential 60x sensitivity enhancement for detecting weakly coupled spins and to study the optimisation of quantum gates in multi-qubit registers. These results advance the understanding for a broad class of gates and provide a toolbox for application-specific design, enabling improved quantum control and sensing.
翻訳日:2024-11-07 06:19:44 公開日:2024-10-25
# スピンセンシングと制御のための改良された電子核量子ゲート

Improved Electron-Nuclear Quantum Gates for Spin Sensing and Control ( http://arxiv.org/abs/2409.13610v2 )

ライセンス: Link先を確認
H. B. van Ommen, G. L. van de Stolpe, N. Demetriou, H. K. C. Beukers, J. Yun, T. R. J. Fortuin, M. Iuliano, A. R. -P. Montblanch, R. Hanson, T. H. Taminiau, (参考訳) 固体欠陥の近くで核スピンを検知し制御する能力は、様々な量子技術を可能にする可能性がある。 DDRF(Dynamically Decoupled Radio-Frequency)制御は、設計の柔軟性と長い電子スピンコヒーレンス時間を提供する。 しかし、従来の研究では、単純化されたモデルと、最適ゲート設計と基本的な限界についてはほとんど知られていない。 本稿では,スピンセンシングと制御に重要な意味を持つ汎用DDRFフレームワークを開発する。 ダイヤモンド中の単一NV中心における実験により相関する解析モデルでは, ゲートの選択性とその有効ラビ周波数を制御し, フレキシブルなゲート設計を可能にする機構が明らかにされている。 これらの知見を応用して、弱い結合スピンを検出するための60倍感度向上を数値的に示し、マルチキュービットレジスタにおける量子ゲートの最適化について検討する。 これらの結果は、幅広い種類のゲートの理解を促進し、アプリケーション固有の設計のためのツールボックスを提供し、量子制御とセンシングの改善を可能にした。

The ability to sense and control nuclear spins near solid-state defects might enable a range of quantum technologies. Dynamically Decoupled Radio-Frequency (DDRF) control offers a high degree of design flexibility and long electron-spin coherence times. However, previous studies considered simplified models and little is known about optimal gate design and fundamental limits. Here, we develop a generalised DDRF framework that has important implications for spin sensing and control. Our analytical model, which we corroborate by experiments on a single NV center in diamond, reveals the mechanisms that govern the selectivity of gates and their effective Rabi frequencies, and enables flexible detuned gate designs. We apply these insights to numerically show a 60x sensitivity enhancement for detecting weakly coupled spins and study the optimisation of quantum gates in multi-qubit registers. These results advance the understanding for a broad class of gates and provide a toolbox for application-specific design, enabling improved quantum control and sensing.
翻訳日:2024-11-07 06:19:44 公開日:2024-10-25
# ニューラルネットワークの堅牢性向上のための制約付き最適化手法

A constrained optimization approach to improve robustness of neural networks ( http://arxiv.org/abs/2409.13770v1 )

ライセンス: Link先を確認
Shudian Zhao, Jan Kronqvist, (参考訳) 本稿では, クリーンデータに対する高い精度を維持しつつ, 敵攻撃に対する堅牢性を向上するための, 微調整事前学習ニューラルネットワークに対する非線形プログラミングに基づく新しいアプローチを提案する。 本手法では, 逆補正制約を導入し, 正当性を確保するとともに, モデルパラメータの変更を最小限に抑える。 本研究では,多面体切断により実現可能な領域を近似し,ロバスト性と精度のバランスをとることにより,大規模非凸最適化問題を反復的に解く,効率的な切削平面アルゴリズムを提案する。 MNISTやCIFAR10のような標準データセットの計算実験では、非常に小さな逆データであっても、提案手法は精度への影響を最小限に抑えながら、ロバスト性を大幅に向上することを示した。

In this paper, we present a novel nonlinear programming-based approach to fine-tune pre-trained neural networks to improve robustness against adversarial attacks while maintaining high accuracy on clean data. Our method introduces adversary-correction constraints to ensure correct classification of adversarial data and minimizes changes to the model parameters. We propose an efficient cutting-plane-based algorithm to iteratively solve the large-scale nonconvex optimization problem by approximating the feasible region through polyhedral cuts and balancing between robustness and accuracy. Computational experiments on standard datasets such as MNIST and CIFAR10 demonstrate that the proposed approach significantly improves robustness, even with a very small set of adversarial data, while maintaining minimal impact on accuracy.
翻訳日:2024-11-07 05:13:17 公開日:2024-10-25
# ニューラルネットワークの堅牢性向上のための制約付き最適化手法

A constrained optimization approach to improve robustness of neural networks ( http://arxiv.org/abs/2409.13770v2 )

ライセンス: Link先を確認
Shudian Zhao, Jan Kronqvist, (参考訳) 本稿では, クリーンデータに対する高い精度を維持しつつ, 敵攻撃に対する堅牢性を向上するための, 微調整事前学習ニューラルネットワークに対する非線形プログラミングに基づく新しいアプローチを提案する。 本手法では, 逆補正制約を導入し, 正当性を確保するとともに, モデルパラメータの変更を最小限に抑える。 本研究では,多面体切断により実現可能な領域を近似し,ロバスト性と精度のバランスをとることにより,大規模非凸最適化問題を反復的に解く,効率的な切削平面アルゴリズムを提案する。 MNISTやCIFAR10のような標準データセットの計算実験では、非常に小さな逆データであっても、提案手法は精度への影響を最小限に抑えながら、ロバスト性を大幅に向上することを示した。

In this paper, we present a novel nonlinear programming-based approach to fine-tune pre-trained neural networks to improve robustness against adversarial attacks while maintaining high accuracy on clean data. Our method introduces adversary-correction constraints to ensure correct classification of adversarial data and minimizes changes to the model parameters. We propose an efficient cutting-plane-based algorithm to iteratively solve the large-scale nonconvex optimization problem by approximating the feasible region through polyhedral cuts and balancing between robustness and accuracy. Computational experiments on standard datasets such as MNIST and CIFAR10 demonstrate that the proposed approach significantly improves robustness, even with a very small set of adversarial data, while maintaining minimal impact on accuracy.
翻訳日:2024-11-07 05:13:17 公開日:2024-10-25
# ビームスプリッターとMZIのフェルミオンとボソンペア

Fermion and Boson Pairs in Beamsplitters and MZIs ( http://arxiv.org/abs/2409.13835v1 )

ライセンス: Link先を確認
Jonte R. Hance, (参考訳) この短いTopical Reviewでは、典型的には自明であるが、公式には別の場所では与えられていないもの、最初の多重フェルミオンの振る舞い、次にビームスプリッターで複数のボソン、そしてこれから、マッハ・ツェンダー干渉計(MZIs)における複数のフェルミオンと複数のボソンの挙動について考察する。 このレビューは、数学的に単純だが直観的でない量子場理論から現象論的記述へ進む方法を示すことで、この分野の研究者や学生が量子粒子の振る舞いに対するより強い直観を構築するのに役立つことを願っている。

In this short Topical Review, we look at something typically considered trivial, but not given formally elsewhere -- the behaviour of first multiple fermions then multiple bosons at a beamsplitter, and, extending from this, the behaviour of multiple fermions and multiple bosons in Mach-Zehnder interferometers (MZIs). We hope that by showing how to go from mathematically-simple but unintuitive quantum field theory to a phenomenological description, this Review will help researchers and students in the field build a stronger intuition for the behaviour of quantum particles.
翻訳日:2024-11-07 05:01:49 公開日:2024-10-25
# ビームスプリッターとMZIのフェルミオンとボソンペア

Fermion and Boson Pairs in Beamsplitters and MZIs ( http://arxiv.org/abs/2409.13835v2 )

ライセンス: Link先を確認
Jonte R. Hance, (参考訳) この短いTopical Reviewでは、ビームスプリッターで最初の複数のフェルミオン、次に複数のボソンの振る舞いについて、通常は自明だが、公式には他の場所では与えられていないものに注目します。 これを拡張して、マッハ・ツェンダー干渉計(MZIs)における複数のフェルミオンと複数のボソンの挙動を記述する。 このレビューは、数学的に単純だが直観的でない量子場理論から現象論的記述へ進む方法を示すことで、研究者と学生の両方が量子粒子の振る舞いに対するより強い直観を構築するのに役立つことを願っている。

In this short Topical Review, we look at something typically considered trivial, but not given formally elsewhere -- the behaviour of first multiple fermions, then multiple bosons, at a beamsplitter. Extending from this, we then describe the behaviour of multiple fermions and multiple bosons in Mach-Zehnder interferometers (MZIs). We hope that by showing how to go from mathematically-simple but unintuitive quantum field theory to a phenomenological description, this Review will help both researchers and students build a stronger intuition for the behaviour of quantum particles.
翻訳日:2024-11-07 05:01:49 公開日:2024-10-25
# LatentQGAN: 古典的な畳み込みオートエンコーダを備えたハイブリッドQGAN

LatentQGAN: A Hybrid QGAN with Classical Convolutional Autoencoder ( http://arxiv.org/abs/2409.14622v1 )

ライセンス: Link先を確認
Vieloszynski Alexis, Soumaya Cherkaoui, Jean-Frédéric Laprade, Oliver Nahman-Lévesque, Abdallah Aaraba, Shengrui Wang, (参考訳) 量子機械学習は、古典的なデータを生成するために量子計算を利用する。 量子機械学習の潜在的な応用は、古典的なデータを生成するために量子コンピュータのパワーを利用することである。 古典的画像生成におけるジェネレーティブ・アドバイサル・ネットワークの成功を踏まえ、その量子バージョンの開発が活発に行われている。 しかしながら、量子コンピュータ上の既存の実装は、スケーラビリティやトレーニング収束問題といった重大な課題に直面していることが多い。 これらの問題に対処するために、オートエンコーダと結合したハイブリッド量子古典的GANを用いた新しい量子モデルであるLatntQGANを提案する。 当初、画像生成のために設計されたが、LatentQGANアプローチは、様々な実用的なデータ生成タスクにまたがる幅広い応用の可能性を秘めている。 古典的シミュレータとノイズの多い中間スケールの量子コンピュータの実験結果は、量子資源のオーバーヘッドを大幅に削減すると共に、既存の量子法よりも大幅に性能が向上したことを示している。

Quantum machine learning consists in taking advantage of quantum computations to generate classical data. A potential application of quantum machine learning is to harness the power of quantum computers for generating classical data, a process essential to a multitude of applications such as enriching training datasets, anomaly detection, and risk management in finance. Given the success of Generative Adversarial Networks in classical image generation, the development of its quantum versions has been actively conducted. However, existing implementations on quantum computers often face significant challenges, such as scalability and training convergence issues. To address these issues, we propose LatentQGAN, a novel quantum model that uses a hybrid quantum-classical GAN coupled with an autoencoder. Although it was initially designed for image generation, the LatentQGAN approach holds potential for broader application across various practical data generation tasks. Experimental outcomes on both classical simulators and noisy intermediate scale quantum computers have demonstrated significant performance enhancements over existing quantum methods, alongside a significant reduction in quantum resources overhead.
翻訳日:2024-11-06 21:45:58 公開日:2024-10-25
# LatentQGAN: 古典的な畳み込みオートエンコーダを備えたハイブリッドQGAN

LatentQGAN: A Hybrid QGAN with Classical Convolutional Autoencoder ( http://arxiv.org/abs/2409.14622v2 )

ライセンス: Link先を確認
Alexis Vieloszynski, Soumaya Cherkaoui, Jean-Frédéric Laprade, Oliver Nahman-Lévesque, Abdallah Aaraba, Shengrui Wang, (参考訳) 量子機械学習は、古典的なデータを生成するために量子計算を利用する。 量子機械学習の潜在的な応用は、古典的なデータを生成するために量子コンピュータのパワーを利用することである。 古典的画像生成におけるジェネレーティブ・アドバイサル・ネットワークの成功を踏まえ、その量子バージョンの開発が活発に行われている。 しかしながら、量子コンピュータ上の既存の実装は、スケーラビリティやトレーニング収束問題といった重大な課題に直面していることが多い。 これらの問題に対処するために、オートエンコーダと結合したハイブリッド量子古典的GANを用いた新しい量子モデルであるLatntQGANを提案する。 当初、画像生成のために設計されたが、LatentQGANアプローチは、様々な実用的なデータ生成タスクにまたがる幅広い応用の可能性を秘めている。 古典的シミュレータとノイズの多い中間スケールの量子コンピュータの実験結果は、量子資源のオーバーヘッドを大幅に削減すると共に、既存の量子法よりも大幅に性能が向上したことを示している。

Quantum machine learning consists in taking advantage of quantum computations to generate classical data. A potential application of quantum machine learning is to harness the power of quantum computers for generating classical data, a process essential to a multitude of applications such as enriching training datasets, anomaly detection, and risk management in finance. Given the success of Generative Adversarial Networks in classical image generation, the development of its quantum versions has been actively conducted. However, existing implementations on quantum computers often face significant challenges, such as scalability and training convergence issues. To address these issues, we propose LatentQGAN, a novel quantum model that uses a hybrid quantum-classical GAN coupled with an autoencoder. Although it was initially designed for image generation, the LatentQGAN approach holds potential for broader application across various practical data generation tasks. Experimental outcomes on both classical simulators and noisy intermediate scale quantum computers have demonstrated significant performance enhancements over existing quantum methods, alongside a significant reduction in quantum resources overhead.
翻訳日:2024-11-06 21:45:58 公開日:2024-10-25
# LatentQGAN: 古典的な畳み込みオートエンコーダを備えたハイブリッドQGAN

LatentQGAN: A Hybrid QGAN with Classical Convolutional Autoencoder ( http://arxiv.org/abs/2409.14622v3 )

ライセンス: Link先を確認
Alexis Vieloszynski, Soumaya Cherkaoui, Jean-Frédéric Laprade, Oliver Nahman-Lévesque, Abdallah Aaraba, Shengrui Wang, (参考訳) 量子機械学習は、古典的なデータを生成するために量子計算を利用する。 量子機械学習の潜在的な応用は、古典的なデータを生成するために量子コンピュータのパワーを利用することである。 古典的画像生成におけるジェネレーティブ・アドバイサル・ネットワークの成功を踏まえ、その量子バージョンの開発が活発に行われている。 しかしながら、量子コンピュータ上の既存の実装は、スケーラビリティやトレーニング収束問題といった重大な課題に直面していることが多い。 これらの問題に対処するために、オートエンコーダと結合したハイブリッド量子古典的GANを用いた新しい量子モデルであるLatntQGANを提案する。 当初、画像生成のために設計されたが、LatentQGANアプローチは、様々な実用的なデータ生成タスクにまたがる幅広い応用の可能性を秘めている。 古典的シミュレータとノイズの多い中間スケールの量子コンピュータの実験結果は、量子資源のオーバーヘッドを大幅に削減すると共に、既存の量子法よりも大幅に性能が向上したことを示している。

Quantum machine learning consists in taking advantage of quantum computations to generate classical data. A potential application of quantum machine learning is to harness the power of quantum computers for generating classical data, a process essential to a multitude of applications such as enriching training datasets, anomaly detection, and risk management in finance. Given the success of Generative Adversarial Networks in classical image generation, the development of its quantum versions has been actively conducted. However, existing implementations on quantum computers often face significant challenges, such as scalability and training convergence issues. To address these issues, we propose LatentQGAN, a novel quantum model that uses a hybrid quantum-classical GAN coupled with an autoencoder. Although it was initially designed for image generation, the LatentQGAN approach holds potential for broader application across various practical data generation tasks. Experimental outcomes on both classical simulators and noisy intermediate scale quantum computers have demonstrated significant performance enhancements over existing quantum methods, alongside a significant reduction in quantum resources overhead.
翻訳日:2024-11-06 21:45:58 公開日:2024-10-25
# DepthART: Autoregressive Refinement Taskとしての単眼深度推定

DepthART: Monocular Depth Estimation as Autoregressive Refinement Task ( http://arxiv.org/abs/2409.15010v2 )

ライセンス: Link先を確認
Bulat Gabdullin, Nina Konovalova, Nikolay Patakin, Dmitry Senushkin, Anton Konushin, (参考訳) 最近の単眼深度推定における差別的アプローチの成功にもかかわらず、その品質はトレーニングデータセットによって制限されている。 生成的アプローチは、インターネットスケールのデータセットのトレーニングから派生した強力な事前情報を活用することで、この問題を軽減する。 近年の研究では、小さな深度データセットで微調整した場合、大きなテキスト・画像拡散モデルにより、最先端の深度推定結果が得られることが示されている。 同時に、Visual Auto Regressive Modeling~(VAR)のような自己回帰生成アプローチは、条件付き画像合成において有望な結果を示している。 視覚自己回帰モデリングのパラダイムに従い、視覚自己回帰変換器に基づく最初の自己回帰深度推定モデルを導入する。 私たちの主な貢献は、Depth Autoregressive Refinement Taskという新しいトレーニング手法であるDepthARTです。 静的目標を用いた従来のVAR訓練とは違って,本手法では,モデル自己調整が可能で,トレーニング中にマルチモーダルガイダンスを組み込む動的目標定式化を利用する。 具体的には、トレーニング中に地上の真理トークンマップの代わりにモデル予測を入力として使用し、目標を残留最小化としてフレーミングする。 実験により,提案手法は,奥行き推定タスクにおいて,次のスケールの予測によって視覚自己回帰モデルを大幅に上回ることを示した。 The Visual Autoregressive Transformer training with our approach on Hypersim is achieved superior results on a set of unseen benchmarks than other generative and discriminative baselines。

Despite recent success in discriminative approaches in monocular depth estimation its quality remains limited by training datasets. Generative approaches mitigate this issue by leveraging strong priors derived from training on internet-scale datasets. Recent studies have demonstrated that large text-to-image diffusion models achieve state-of-the-art results in depth estimation when fine-tuned on small depth datasets. Concurrently, autoregressive generative approaches, such as the Visual AutoRegressive modeling~(VAR), have shown promising results in conditioned image synthesis. Following the visual autoregressive modeling paradigm, we introduce the first autoregressive depth estimation model based on the visual autoregressive transformer. Our primary contribution is DepthART -- a novel training method formulated as Depth Autoregressive Refinement Task. Unlike the original VAR training procedure, which employs static targets, our method utilizes a dynamic target formulation that enables model self-refinement and incorporates multi-modal guidance during training. Specifically, we use model predictions as inputs instead of ground truth token maps during training, framing the objective as residual minimization. Our experiments demonstrate that the proposed training approach significantly outperforms visual autoregressive modeling via next-scale prediction in the depth estimation task. The Visual Autoregressive Transformer trained with our approach on Hypersim achieves superior results on a set of unseen benchmarks compared to other generative and discriminative baselines.
翻訳日:2024-11-06 20:39:08 公開日:2024-10-25
# 正しい理由を追求する: 推論に敏感な人工モラルエージェントの創出

Acting for the Right Reasons: Creating Reason-Sensitive Artificial Moral Agents ( http://arxiv.org/abs/2409.15014v2 )

ライセンス: Link先を確認
Kevin Baum, Lisa Dargasz, Felix Jahn, Timo P. Gros, Verena Wolf, (参考訳) 規範的理由に基づく強化学習エージェントの道徳的意思決定を可能にする強化学習アーキテクチャの拡張を提案する。 このアプローチの中心は、認識された規範的理由に適合するアクションにエージェントをバインドする道徳的シールドを生成する理由に基づくシールドジェネレータであり、我々の全体的なアーキテクチャは、エージェントを道徳的に(内在的に)正当化されたアクションに制限する。 さらに,道徳的判断からのケースベースフィードバックを通じて,理性に基づくシールド生成を反復的に改善するアルゴリズムについて述べる。

We propose an extension of the reinforcement learning architecture that enables moral decision-making of reinforcement learning agents based on normative reasons. Central to this approach is a reason-based shield generator yielding a moral shield that binds the agent to actions that conform with recognized normative reasons so that our overall architecture restricts the agent to actions that are (internally) morally justified. In addition, we describe an algorithm that allows to iteratively improve the reason-based shield generator through case-based feedback from a moral judge.
翻訳日:2024-11-06 20:27:58 公開日:2024-10-25
# 適応的等角推論についての一考察

Nothing Conformal about Adaptive Conformal Inference ( http://arxiv.org/abs/2409.15548v2 )

ライセンス: Link先を確認
Johan Hallberg Szabadváry, (参考訳) コンフォーマル予測は、分散のない不確実性定量化のための広く使われているフレームワークであり、ユーザ定義の重要度レベルで有効な予測セットを生成する。 しかし、このフレームワークはデータ生成分布が交換可能であるという仮定に依存しており、これは時系列やその他の構造化データに頻繁に違反する条件である。 このような場合、共形予測の妥当性は低下する。 適応共形推論 (Adaptive conformal inference, ACI) は、重要度を動的に調整し、限界被覆誤差率の少なくとも有限サンプル保証を維持することで、非交換データに対する解として提案されている。 本稿は, ACI の名称にもかかわらず, 厳密には共形予測器の使用を必要としないことを示す。 代わりに、より一般的な信頼性予測器の概念で効果的に動作する。 重要な要件は、より大きな意味レベルがより小さな予測セット、すなわちネスト予測セットと呼ばれる性質に対応することである。 合成および実世界のデータに関する実験を通じて、共形予測器を用いたACIが信頼予測器よりも有利であるかどうかを検討する。 以上の結果から,信頼度予測器は共形予測器と同等に機能し,時には共形予測器より優れていることが示唆された。

Conformal prediction is a widely-used framework for distribution-free uncertainty quantification, which generates valid prediction sets at a user-defined significance level. However, this framework relies on the assumption that the data-generating distribution is exchangeable, a condition that is frequently violated in time-series and other structured data. In such cases, the validity guarantees of conformal prediction break down. Adaptive conformal inference (ACI) has been proposed as a solution for non-exchangeable data by dynamically adjusting the significance level to retain at least finite sample guarantees on the marginal coverage error rate. This paper demonstrates that, despite its name, ACI does not strictly require the use of conformal predictors. Instead, it can operate effectively with the more general concept of a confidence predictor, which is often computationally simpler. The key requirement is that larger significance levels correspond to smaller prediction sets, a property known as nested prediction sets. Through experiments on synthetic and real-world data, we investigate whether ACI with conformal predictors offers advantages over confidence predictors. Our results indicate that confidence predictors can perform just as well, and sometimes better than conformal predictors in some cases, although further empirical studies are needed to determine when one approach may be preferable.
翻訳日:2024-11-06 19:32:29 公開日:2024-10-25
# コンフォーマル予測を超える: 信頼予測を用いた適応的コンフォーマル推論

Beyond Conformal Predictors: Adaptive Conformal Inference with Confidence Predictors ( http://arxiv.org/abs/2409.15548v3 )

ライセンス: Link先を確認
Johan Hallberg Szabadváry, (参考訳) コンフォーマル予測(CP)は、分散のない不確実性定量化のための堅牢なフレームワークであるが、ユーザ指定の重要度レベルで有効な予測セットを保証するために交換可能なデータを必要とする。 この仮定に違反した場合、時系列や他の構造化データのように、CPの妥当性はもはや保持されない。 適応共形推論 (Adaptive conformal inference, ACI) は、この制限に対応するために重要度を動的に調整し、交換不能なデータに対しても有限サンプルカバレッジを保証する。 本稿では、ACIが共形予測器を必要とせず、より一般的な信頼性予測器で実装可能であることを示す。 合成および実世界のデータに関する実験を通じて、信頼性予測器は、特に計算効率の点で、共形予測器と相容れない、あるいはそれ以上に優れた性能を発揮できることを示した。 これらの結果から,信頼度予測器は非交換不能なデータ設定における共形予測器の代替手段として有効かつ効率的なものであることが示唆された。

Conformal prediction (CP) is a robust framework for distribution-free uncertainty quantification, but it requires exchangeable data to ensure valid prediction sets at a user-specified significance level. When this assumption is violated, as in time-series or other structured data, the validity guarantees of CP no longer hold. Adaptive conformal inference (ACI) was introduced to address this limitation by adjusting the significance level dynamically, ensuring finite-sample coverage guarantees even for non-exchangeable data. In this paper, we show that ACI does not require the use of conformal predictors; instead, it can be implemented with the more general confidence predictors, which are computationally simpler and still maintain the crucial property of nested prediction sets. Through experiments on synthetic and real-world data, we demonstrate that confidence predictors can perform comparably to, or even better than, conformal predictors, particularly in terms of computational efficiency. These findings suggest that confidence predictors represent a viable and efficient alternative to conformal predictors in non-exchangeable data settings, although further studies are needed to identify when one method is superior.
翻訳日:2024-11-06 19:32:29 公開日:2024-10-25
# 非マルコフ開量子系の動的写像の抽出

Extracting Dynamical Maps of Non-Markovian Open Quantum Systems ( http://arxiv.org/abs/2409.17051v2 )

ライセンス: Link先を確認
David J. Strachan, Archak Purkayastha, Stephen R. Clark, (参考訳) 量子進化の最も一般的な記述は、動的写像 $\hat{\Lambda}(\tau)$ として知られる完全に正のトレース保存写像である。 ここでは、システムと1つ以上の熱浴を、弱くも強くもない強度で突然結合することから生じる$\hat{\Lambda}(\tau)$を考える。 特性系/バス時間スケールの明確な分離がなければ、$\hat{\Lambda}(\tau)$ は一般的には非マルコフ的であると予想されるが、続く力学は、浴槽が有限メモリ時間 $\tau_{\rm m}$ を持つことを意味する一意の定常状態を持つと仮定する。 テンソルネットワークフレームワーク内でいくつかのテクニックを組み合わせることで、無限の非相互作用フェルミ浴に結合した少数の相互作用するフェルミオンモードに対して$\hat{\Lambda}(\tau)$を直接的かつ正確に抽出する。 我々は、Choi-Jamiolkowski同型を用いるので、$\hat{\Lambda}(\tau)$はシステム、バスおよびそれらのレプリカ補助モードの単項状態の計算から、時間$\tau$まで完全に再構成できる。 $\hat{\Lambda}(\tau)$から、時間ローカルプロパゲータ $\hat{\mathcal{L}}(\tau)$も計算します。 これらのオブジェクトの瞬間的固定点の$\tau$で収束を調べることで、それぞれのメモリ時間$\tau^{\Lambda}_{\rm m}$と$\tau^{\mathcal{L}}_{\rm m}$を確立する。 これらの時間を超えて、プロパゲータ $\hat{\mathcal{L}}(\tau)$ および動的写像 $\hat{\Lambda}(\tau)$ は、その後の長期緩和ダイナミクスを定常まで正確に記述する。 スピンレスフェルミ連鎖と単一不純物アンダーソンモデルとの相互作用の数値的な例は、我々のアプローチが長時間の極限を直接シミュレートするよりも、定常状態を決定する上で重要なスピードアップを提供できる状態を示す。

The most general description of quantum evolution up to a time $\tau$ is a completely positive tracing preserving map known as a dynamical map $\hat{\Lambda}(\tau)$. Here we consider $\hat{\Lambda}(\tau)$ arising from suddenly coupling a system to one or more thermal baths with a strength that is neither weak nor strong. Given no clear separation of characteristic system/bath time scales $\hat{\Lambda}(\tau)$ is generically expected to be non-Markovian, however we do assume the ensuing dynamics has a unique steady state implying the baths possess a finite memory time $\tau_{\rm m}$. By combining several techniques within a tensor network framework we directly and accurately extract $\hat{\Lambda}(\tau)$ for a small number of interacting fermionic modes coupled to infinite non-interacting Fermi baths. We employ the Choi-Jamiolkowski isomorphism so that $\hat{\Lambda}(\tau)$ can be fully reconstructed from a single pure state calculation of the unitary dynamics of the system, bath and their replica auxillary modes up to time $\tau$. From $\hat{\Lambda}(\tau)$ we also compute the time local propagator $\hat{\mathcal{L}}(\tau)$. By examining the convergence with $\tau$ of the instantaneous fixed points of these objects we establish their respective memory times $\tau^{\Lambda}_{\rm m}$ and $\tau^{\mathcal{L}}_{\rm m}$. Beyond these times, the propagator $\hat{\mathcal{L}}(\tau)$ and dynamical map $\hat{\Lambda}(\tau)$ accurately describe all the subsequent long-time relaxation dynamics up to stationarity. Our numerical examples of interacting spinless Fermi chains and the single impurity Anderson model demonstrate regimes where our approach can offer a significant speedup in determining the stationary state compared to directly simulating the long-time limit.
翻訳日:2024-11-06 17:00:06 公開日:2024-10-25
# 動的テンプレート制約大言語モデルを用いた肺癌検診における施設間構造X線検査

Cross-Institutional Structured Radiology Reporting for Lung Cancer Screening Using a Dynamic Template-Constrained Large Language Model ( http://arxiv.org/abs/2409.18319v1 )

ライセンス: Link先を確認
Chuang Niu, Parisa Kaviani, Qing Lyu, Mannudeep K. Kalra, Christopher T. Whitlow, Ge Wang, (参考訳) 構造的放射線学報告は、臨床ワークフローの最適化と患者の結果に有利である。 構造化レポートの作成における現在のLCMは、外部サーバにアップロードされた際のエラー、コンテンツ幻覚、プライバシー漏洩といった問題に直面している。 我々は,自由文記述から構造化および標準化されたLCSレポートを作成するための拡張されたオープンソースLCMを開発することを目的とする。 機関のIRB承認後、2つの機関のLCSレポート5,442件を振り返って分析した。 この2つの機関から500件の報告書をランダムに選別し、手動で評価した。 2施設の放射線技師2人は、肺結節の報告に29の特徴を含む標準化されたテンプレートを開発した。 LLAMA, Qwen, Mistral など,最先端のオープンソース LLM を実現するためのテンプレート制約付き復号法を提案する。 LLMの性能はF1スコア,信頼区間,マクネマール試験,z-testで広く評価された。 大規模データセットから作成した構造化レポートに基づいて,ノードレベルの検索システムを試作し,自動統計解析を行った。 当社のソフトウェアであるvLLM-structureは,LLMを拡張したローカルデプロイメント用に公開されている。 テンプレート制約付き復号化手法は,フォーマットエラーやコンテンツ幻覚を伴わず,多施設データセット上でのLLM性能を一貫して向上させる。 LLAMA-3.1 405Bを最大10.42%改善し, GPT-4oを17.19%向上させた。 拡張LDM技術を用いた大規模マルチモーダルデータベース上で,新しい結節検索システムを試作し,実演した。 自動抽出された統計的分布は,結節型,位置,サイズ,ステータス,肺-RADSの順に一致していた。

Structured radiology reporting is advantageous for optimizing clinical workflows and patient outcomes. Current LLMs in creating structured reports face the challenges of formatting errors, content hallucinations, and privacy leakage concerns when uploaded to external servers. We aim to develop an enhanced open-source LLM for creating structured and standardized LCS reports from free-text descriptions. After institutional IRB approvals, 5,442 de-identified LCS reports from two institutions were retrospectively analyzed. 500 reports were randomly selected from the two institutions evenly and then manually labeled for evaluation. Two radiologists from the two institutions developed a standardized template including 29 features for lung nodule reporting. We proposed template-constrained decoding to enhance state-of-the-art open-source LLMs, including LLAMA, Qwen, and Mistral. The LLM performance was extensively evaluated in terms of F1 score, confidence interval, McNemar test, and z-test. Based on the structured reports created from the large-scale dataset, a nodule-level retrieval system was prototyped and an automatic statistical analysis was performed. Our software, vLLM-structure, is publicly available for local deployment with enhanced LLMs. Our template-constrained decoding approach consistently enhanced the LLM performance on multi-institutional datasets, with neither formatting errors nor content hallucinations. Our method improved the best open-source LLAMA-3.1 405B by up to 10.42%, and outperformed GPT-4o by 17.19%. A novel nodule retrieval system was successfully prototyped and demonstrated on a large-scale multimodal database using our enhanced LLM technologies. The automatically derived statistical distributions were closely consistent with the prior findings in terms of nodule type, location, size, status, and Lung-RADS.
翻訳日:2024-11-06 07:00:37 公開日:2024-10-25
# 動的テンプレート制約付き大言語モデルの開発と評価

Development and Validation of a Dynamic-Template-Constrained Large Language Model for Generating Fully-Structured Radiology Reports ( http://arxiv.org/abs/2409.18319v2 )

ライセンス: Link先を確認
Chuang Niu, Parisa Kaviani, Qing Lyu, Mannudeep K. Kalra, Christopher T. Whitlow, Ge Wang, (参考訳) 完全構造化されたレポートを作成するための現在のLCMは、外部サーバにデータをアップロードする際のエラー、コンテンツ幻覚、プライバシー漏洩といった問題に直面している。我々は、機関ごとの様々な自由テキストレポートから完全に構造化された標準化されたLCSレポートを作成するための、オープンソースで正確なLSMを開発し、自動統計分析や個々の肺結節検索においてその有用性を実証することを目指している。 IRBの承認により,2施設のLDCT LCSラジオグラフィー報告は5,442件であった。 我々は,2021年1月から2023年12月までに,500対のフリーテキストおよび完全構造化ラジオグラフィーレポートと大規模連続データセットをラベル付けして2つの評価データセットを構築した。 2人の放射線学者が、LCSで27個の肺結節の特徴を記録するための標準化されたテンプレートを作成しました。 我々は、自由テキストラジオグラフィーレポートから完全に構造化されたレポートを作成するために、既存のLCMを強化するために動的テンプレート制約付き復号法を設計した。 連続的な構造化レポートを用いて,記述的統計分析と結節検索のプロトタイプを自動生成する。 完全に構造化されたレポートを作成するのに最適なLCMは、F1スコアが約97%で、フォーマットエラーやコンテンツ幻覚を伴わない、クロスインスティカルなデータセット上で高いパフォーマンスを実現しました。 提案手法は,優れたオープンソース LLM を最大10.42% 改善し,GPT-4o を17.19% 向上させた。 自動抽出された統計分布は, 減衰, 位置, サイズ, 安定性, およびLung-RADSに関する先行的な知見と一致した。 構造化されたレポートを用いた検索システムは、柔軟な結節レベルの探索と複雑な統計解析を可能にした。 私たちの開発したソフトウェアは、ローカルデプロイメントとさらなる研究のために公開されています。

Current LLMs for creating fully-structured reports face the challenges of formatting errors, content hallucinations, and privacy leakage issues when uploading data to external servers.We aim to develop an open-source, accurate LLM for creating fully-structured and standardized LCS reports from varying free-text reports across institutions and demonstrate its utility in automatic statistical analysis and individual lung nodule retrieval. With IRB approvals, our retrospective study included 5,442 de-identified LDCT LCS radiology reports from two institutions. We constructed two evaluation datasets by labeling 500 pairs of free-text and fully-structured radiology reports and one large-scale consecutive dataset from January 2021 to December 2023. Two radiologists created a standardized template for recording 27 lung nodule features on LCS. We designed a dynamic-template-constrained decoding method to enhance existing LLMs for creating fully-structured reports from free-text radiology reports. Using consecutive structured reports, we automated descriptive statistical analyses and a nodule retrieval prototype. Our best LLM for creating fully-structured reports achieved high performance on cross-institutional datasets with an F1 score of about 97%, with neither formatting errors nor content hallucinations. Our method consistently improved the best open-source LLMs by up to 10.42%, and outperformed GPT-4o by 17.19%. The automatically derived statistical distributions were consistent with prior findings regarding attenuation, location, size, stability, and Lung-RADS. The retrieval system with structured reports allowed flexible nodule-level search and complex statistical analysis. Our developed software is publicly available for local deployment and further research.
翻訳日:2024-11-06 07:00:37 公開日:2024-10-25
# Flipped Classroom:一般カテゴリー発見における教師の意識調整

Flipped Classroom: Aligning Teacher Attention with Student in Generalized Category Discovery ( http://arxiv.org/abs/2409.19659v1 )

ライセンス: Link先を確認
Haonan Lin, Wenbin An, Jiahao Wang, Yan Chen, Feng Tian, Mengmeng Wang, Guang Dai, Qianying Wang, Jingdong Wang, (参考訳) 近年の進歩は、一般カテゴリー発見(Generalized Category Discovery, GCD)の課題に、従来の半教師付き学習戦略を適用することを約束している。 典型的には、明示的なラベルがなくても、教師が生徒に知識を与えてカテゴリーを分類する、教師教育の枠組みである。 にもかかわらず、GCDは、特に新しい授業の事前の欠如に固有の課題を示しており、これは教師が生徒と非同期学習をし、最適でない結果をもたらすことになる。 本稿では,従来の教師学生デザインが,閉世界半教師学習の成功と比較して,オープンワールドの一般化されたカテゴリー発見に影響を及ぼす理由を考察する。 注意層間の不整合パターン学習をこの問題の要点として認識し,静的な教師参照を維持するのではなく,教師の注意に合わせるように動的に更新するFlipClassを導入する。 教師が注目するアライメント戦略は、エネルギー的視点から学生のフィードバックに基づいて、教師の焦点を洗練させ、一貫したパターン認識と新旧クラス間の同期学習を促進する。 FlipClassは現在のGCD法を大幅に超え、この分野の新たな標準を確立している。

Recent advancements have shown promise in applying traditional Semi-Supervised Learning strategies to the task of Generalized Category Discovery (GCD). Typically, this involves a teacher-student framework in which the teacher imparts knowledge to the student to classify categories, even in the absence of explicit labels. Nevertheless, GCD presents unique challenges, particularly the absence of priors for new classes, which can lead to the teacher's misguidance and unsynchronized learning with the student, culminating in suboptimal outcomes. In our work, we delve into why traditional teacher-student designs falter in open-world generalized category discovery as compared to their success in closed-world semi-supervised learning. We identify inconsistent pattern learning across attention layers as the crux of this issue and introduce FlipClass, a method that dynamically updates the teacher to align with the student's attention, instead of maintaining a static teacher reference. Our teacher-student attention alignment strategy refines the teacher's focus based on student feedback from an energy perspective, promoting consistent pattern recognition and synchronized learning across old and new classes. Extensive experiments on a spectrum of benchmarks affirm that FlipClass significantly surpasses contemporary GCD methods, establishing new standards for the field.
翻訳日:2024-11-05 21:58:59 公開日:2024-10-25
# Flipped Classroom:一般カテゴリー発見における教師の意識調整

Flipped Classroom: Aligning Teacher Attention with Student in Generalized Category Discovery ( http://arxiv.org/abs/2409.19659v2 )

ライセンス: Link先を確認
Haonan Lin, Wenbin An, Jiahao Wang, Yan Chen, Feng Tian, Mengmeng Wang, Guang Dai, Qianying Wang, Jingdong Wang, (参考訳) 近年の進歩は、一般カテゴリー発見(Generalized Category Discovery, GCD)の課題に、従来の半教師付き学習戦略を適用することを約束している。 典型的には、明示的なラベルがなくても、教師が生徒に知識を与えてカテゴリーを分類する、教師教育の枠組みである。 にもかかわらず、GCDは、特に新しい授業の事前の欠如に固有の課題を示しており、これは教師が生徒と非同期学習をし、最適でない結果をもたらすことになる。 本稿では,従来の教師学生デザインが,閉世界半教師学習の成功と比較して,オープンワールドの一般化されたカテゴリー発見に影響を及ぼす理由を考察する。 注意層間の不整合パターン学習をこの問題の要点として認識し,静的な教師参照を維持するのではなく,教師の注意に合わせるように動的に更新するFlipClassを導入する。 教師が注目するアライメント戦略は、エネルギー的視点から学生のフィードバックに基づいて、教師の焦点を洗練させ、一貫したパターン認識と新旧クラス間の同期学習を促進する。 FlipClassは現在のGCD法を大幅に超え、この分野の新たな標準を確立している。

Recent advancements have shown promise in applying traditional Semi-Supervised Learning strategies to the task of Generalized Category Discovery (GCD). Typically, this involves a teacher-student framework in which the teacher imparts knowledge to the student to classify categories, even in the absence of explicit labels. Nevertheless, GCD presents unique challenges, particularly the absence of priors for new classes, which can lead to the teacher's misguidance and unsynchronized learning with the student, culminating in suboptimal outcomes. In our work, we delve into why traditional teacher-student designs falter in open-world generalized category discovery as compared to their success in closed-world semi-supervised learning. We identify inconsistent pattern learning across attention layers as the crux of this issue and introduce FlipClass, a method that dynamically updates the teacher to align with the student's attention, instead of maintaining a static teacher reference. Our teacher-student attention alignment strategy refines the teacher's focus based on student feedback from an energy perspective, promoting consistent pattern recognition and synchronized learning across old and new classes. Extensive experiments on a spectrum of benchmarks affirm that FlipClass significantly surpasses contemporary GCD methods, establishing new standards for the field.
翻訳日:2024-11-05 21:58:59 公開日:2024-10-25
# RAD:ロボットによるリアルタイム異常検出のためのデータセットとベンチマーク

RAD: A Dataset and Benchmark for Real-Life Anomaly Detection with Robotic Observations ( http://arxiv.org/abs/2410.00713v1 )

ライセンス: Link先を確認
Kaichen Zhou, Yang Cao, Teawhan Kim, Hao Zhao, Hao Dong, Kai Ming Ting, Ye Zhu, (参考訳) 産業の異常検出の最近の進歩は、現実の条件を正確に表現する現実的なデータセットの欠如によって妨げられている。 既存のアルゴリズムは理想化されたデータセットを用いて開発・評価され、環境騒音や変動する照明条件、可変オブジェクトポーズ、不安定なカメラ位置などのデータ破損を特徴とする現実のシナリオから大きく逸脱する。 このギャップに対処するために、実ロボットアームを用いて特別に収集された、最初のマルチビューRGBベースの異常検出データセットであるRealistic Anomaly Detection (RAD)データセットを導入し、ユニークで現実的なデータシナリオを提供する。 RADは、13のカテゴリにわたる4765の画像と、50以上の視点から収集された4つの欠陥タイプで構成され、総合的で現実的なベンチマークを提供する。 この多視点設定は、あらゆる視点から異常を検出できない実世界の条件を反映する。 さらに,様々なビューをサンプリングすることにより,様々な視点でアルゴリズムの性能を総合的に評価することができる。 このアプローチは性能評価の徹底性を高め、アルゴリズムの堅牢性を改善するのに役立つ。 また、3次元多視点再構成アルゴリズムをサポートするために、ポーズ推定の精度を改善し、3次元点雲の再構成を容易にするデータ拡張手法を提案する。 我々は、RADを用いて最先端のRGBベースおよびポイントクラウドベースモデルを体系的に評価し、限界と今後の研究方向性を明らかにする。 コードとデータセットはhttps://github.com/kaichen-z/RADで確認できる。

Recent advancements in industrial anomaly detection have been hindered by the lack of realistic datasets that accurately represent real-world conditions. Existing algorithms are often developed and evaluated using idealized datasets, which deviate significantly from real-life scenarios characterized by environmental noise and data corruption such as fluctuating lighting conditions, variable object poses, and unstable camera positions. To address this gap, we introduce the Realistic Anomaly Detection (RAD) dataset, the first multi-view RGB-based anomaly detection dataset specifically collected using a real robot arm, providing unique and realistic data scenarios. RAD comprises 4765 images across 13 categories and 4 defect types, collected from more than 50 viewpoints, providing a comprehensive and realistic benchmark. This multi-viewpoint setup mirrors real-world conditions where anomalies may not be detectable from every perspective. Moreover, by sampling varying numbers of views, the algorithm's performance can be comprehensively evaluated across different viewpoints. This approach enhances the thoroughness of performance assessment and helps improve the algorithm's robustness. Besides, to support 3D multi-view reconstruction algorithms, we propose a data augmentation method to improve the accuracy of pose estimation and facilitate the reconstruction of 3D point clouds. We systematically evaluate state-of-the-art RGB-based and point cloud-based models using RAD, identifying limitations and future research directions. The code and dataset could found at https://github.com/kaichen-z/RAD
翻訳日:2024-11-05 04:15:24 公開日:2024-10-25
# RAD:ロボットによるリアルタイム異常検出のためのデータセットとベンチマーク

RAD: A Dataset and Benchmark for Real-Life Anomaly Detection with Robotic Observations ( http://arxiv.org/abs/2410.00713v2 )

ライセンス: Link先を確認
Kaichen Zhou, Yang Cao, Taewhan Kim, Hao Zhao, Hao Dong, Kai Ming Ting, Ye Zhu, (参考訳) 産業の異常検出の最近の進歩は、現実の条件を正確に表現する現実的なデータセットの欠如によって妨げられている。 既存のアルゴリズムは理想化されたデータセットを用いて開発・評価され、環境騒音や変動する照明条件、可変オブジェクトポーズ、不安定なカメラ位置などのデータ破損を特徴とする現実のシナリオから大きく逸脱する。 このギャップに対処するために、実ロボットアームを用いて特別に収集された、最初のマルチビューRGBベースの異常検出データセットであるRealistic Anomaly Detection (RAD)データセットを導入し、ユニークで現実的なデータシナリオを提供する。 RADは、13のカテゴリにわたる4765の画像と、50以上の視点から収集された4つの欠陥タイプで構成され、総合的で現実的なベンチマークを提供する。 この多視点設定は、あらゆる視点から異常を検出できない実世界の条件を反映する。 さらに,様々なビューをサンプリングすることにより,様々な視点でアルゴリズムの性能を総合的に評価することができる。 このアプローチは性能評価の徹底性を高め、アルゴリズムの堅牢性を改善するのに役立つ。 また、3次元多視点再構成アルゴリズムをサポートするために、ポーズ推定の精度を改善し、3次元点雲の再構成を容易にするデータ拡張手法を提案する。 我々は、RADを用いて最先端のRGBベースおよびポイントクラウドベースモデルを体系的に評価し、限界と今後の研究方向性を明らかにする。 コードとデータセットはhttps://github.com/kaichen-z/RADで確認できる。

Recent advancements in industrial anomaly detection have been hindered by the lack of realistic datasets that accurately represent real-world conditions. Existing algorithms are often developed and evaluated using idealized datasets, which deviate significantly from real-life scenarios characterized by environmental noise and data corruption such as fluctuating lighting conditions, variable object poses, and unstable camera positions. To address this gap, we introduce the Realistic Anomaly Detection (RAD) dataset, the first multi-view RGB-based anomaly detection dataset specifically collected using a real robot arm, providing unique and realistic data scenarios. RAD comprises 4765 images across 13 categories and 4 defect types, collected from more than 50 viewpoints, providing a comprehensive and realistic benchmark. This multi-viewpoint setup mirrors real-world conditions where anomalies may not be detectable from every perspective. Moreover, by sampling varying numbers of views, the algorithm's performance can be comprehensively evaluated across different viewpoints. This approach enhances the thoroughness of performance assessment and helps improve the algorithm's robustness. Besides, to support 3D multi-view reconstruction algorithms, we propose a data augmentation method to improve the accuracy of pose estimation and facilitate the reconstruction of 3D point clouds. We systematically evaluate state-of-the-art RGB-based and point cloud-based models using RAD, identifying limitations and future research directions. The code and dataset could found at https://github.com/kaichen-z/RAD
翻訳日:2024-11-05 04:15:24 公開日:2024-10-25
# 拡散モデルのためのエッジ保存ノイズ

Edge-preserving noise for diffusion models ( http://arxiv.org/abs/2410.01540v1 )

ライセンス: Link先を確認
Jente Vandersanden, Sascha Holl, Xingchang Huang, Gurprit Singh, (参考訳) 古典的生成拡散モデルは等方的ガウス分解過程を学習し、すべての空間領域を均一に扱い、データ中の潜在的に価値のある構造情報を無視する。 画像処理における異方性拡散に関する長年にわたる研究から着想を得て,拡散確率モデル(DDPM)の一般化であるエッジ保存拡散モデルを提案する。 特に、エッジ保存と等方性ガウスノイズの間で異なるエッジ対応ノイズスケジューラを導入する。 モデルの生成過程はより高速に収束し, 対象の分布とより密に一致していることを示す。 形状や構造情報の表現において重要な役割を果たすデータセット内の低中間周波数をよりよく学習する能力を示す。 我々のエッジ保存拡散プロセスは、非条件画像生成における最先端のベースラインを一貫して上回る。 また、ストローク・ツー・イメージ・ジェネレーション(英語版)のような形状に基づく先行課題によって導かれる生成タスクに対しても、より堅牢である。 両タスクで最大30%の一貫性のある改善(FIDスコア)を示す定性的,定量的な結果を示す。

Classical generative diffusion models learn an isotropic Gaussian denoising process, treating all spatial regions uniformly, thus neglecting potentially valuable structural information in the data. Inspired by the long-established work on anisotropic diffusion in image processing, we present a novel edge-preserving diffusion model that is a generalization of denoising diffusion probablistic models (DDPM). In particular, we introduce an edge-aware noise scheduler that varies between edge-preserving and isotropic Gaussian noise. We show that our model's generative process converges faster to results that more closely match the target distribution. We demonstrate its capability to better learn the low-to-mid frequencies within the dataset, which plays a crucial role in representing shapes and structural information. Our edge-preserving diffusion process consistently outperforms state-of-the-art baselines in unconditional image generation. It is also more robust for generative tasks guided by a shape-based prior, such as stroke-to-image generation. We present qualitative and quantitative results showing consistent improvements (FID score) of up to 30% for both tasks.
翻訳日:2024-11-04 17:14:45 公開日:2024-10-25
# 拡散モデルのためのエッジ保存ノイズ

Edge-preserving noise for diffusion models ( http://arxiv.org/abs/2410.01540v2 )

ライセンス: Link先を確認
Jente Vandersanden, Sascha Holl, Xingchang Huang, Gurprit Singh, (参考訳) 古典的生成拡散モデルは等方的ガウス分解過程を学習し、すべての空間領域を均一に扱い、データ中の潜在的に価値のある構造情報を無視する。 画像処理における異方性拡散に関する長年にわたる研究から着想を得て,拡散確率モデル(DDPM)の一般化であるエッジ保存拡散モデルを提案する。 特に、エッジ保存と等方性ガウスノイズの間で異なるエッジ対応ノイズスケジューラを導入する。 モデルの生成過程はより高速に収束し, 対象の分布とより密に一致していることを示す。 形状や構造情報の表現において重要な役割を果たすデータセット内の低中間周波数をよりよく学習する能力を示す。 我々のエッジ保存拡散プロセスは、非条件画像生成における最先端のベースラインを一貫して上回る。 また、ストローク・ツー・イメージ・ジェネレーション(英語版)のような形状に基づく先行課題によって導かれる生成タスクに対しても、より堅牢である。 両タスクで最大30%の一貫性のある改善(FIDスコア)を示す定性的,定量的な結果を示す。 我々は、パブリックドメインのエッジ保存-diffusion.mpi-inf.mpg.deを通じてソースコードと補足コンテンツを提供する。

Classical generative diffusion models learn an isotropic Gaussian denoising process, treating all spatial regions uniformly, thus neglecting potentially valuable structural information in the data. Inspired by the long-established work on anisotropic diffusion in image processing, we present a novel edge-preserving diffusion model that is a generalization of denoising diffusion probablistic models (DDPM). In particular, we introduce an edge-aware noise scheduler that varies between edge-preserving and isotropic Gaussian noise. We show that our model's generative process converges faster to results that more closely match the target distribution. We demonstrate its capability to better learn the low-to-mid frequencies within the dataset, which plays a crucial role in representing shapes and structural information. Our edge-preserving diffusion process consistently outperforms state-of-the-art baselines in unconditional image generation. It is also more robust for generative tasks guided by a shape-based prior, such as stroke-to-image generation. We present qualitative and quantitative results showing consistent improvements (FID score) of up to 30% for both tasks. We provide source code and supplementary content via the public domain edge-preserving-diffusion.mpi-inf.mpg.de .
翻訳日:2024-11-04 17:04:38 公開日:2024-10-25
# 中性子の$β$崩壊から生じるニュートリノは、異なる質量固有状態のコヒーレントな重ね合わせには含まれない

Neutrinos produced from $β$ decays of neutrons cannot be in coherent superpositions of different mass eigenstates ( http://arxiv.org/abs/2410.03133v1 )

ライセンス: Link先を確認
Shi-Biao Zheng, (参考訳) 中性子の$\beta$崩壊によって生じる反ニュートリノ-陽電子系の波動関数全体を解析する。 反ニュートリノは、中性子の初期運動量分布に関係なく、異なる質量固有状態のコヒーレントな重ね合わせには収まらないことが証明されている。

The entire wavefunction of the antineutrino-proton-electron system, produced by the $\beta$ decay of a neutron is analyzed. It is proven that the antineutrino cannot be in coherent superpositions of different mass eigenstates, irrespective of the initial momentum distribution of the neutron.
翻訳日:2024-11-03 03:36:45 公開日:2024-10-25
# 中性子の$β$崩壊から生じる反ニュートリノは、異なる質量固有状態のコヒーレントな重ね合わせには含まれない

Antineutrinos produced from $β$ decays of neutrons cannot be in coherent superpositions of different mass eigenstates ( http://arxiv.org/abs/2410.03133v2 )

ライセンス: Link先を確認
Shi-Biao Zheng, (参考訳) 中性子の$\beta$崩壊によって生じる反ニュートリノ-陽電子系の波動関数全体を解析する。 反ニュートリノは、中性子の初期運動量分布に関係なく、異なる質量固有状態のコヒーレントな重ね合わせには収まらないことが証明されている。

The entire wavefunction of the antineutrino-proton-electron system, produced by the $\beta$ decay of a neutron is analyzed. It is proven that the antineutrino cannot be in coherent superpositions of different mass eigenstates, irrespective of the initial momentum distribution of the neutron.
翻訳日:2024-11-03 03:36:45 公開日:2024-10-25
# ニューラルインプシット表現を用いた教師なし異常検出のための選択的テスト時間適応

Selective Test-Time Adaptation for Unsupervised Anomaly Detection using Neural Implicit Representations ( http://arxiv.org/abs/2410.03306v1 )

ライセンス: Link先を確認
Sameer Ambekar, Julia A. Schnabel, Cosmin Bereca, (参考訳) 医用画像における深層学習モデルは、トレーニング中に見えない新しい臨床環境に適応する場合、しばしば困難に直面する。 テスト時適応は、これらの未確認領域のモデルを最適化するための有望なアプローチを提供するが、その異常検出(AD)への応用は、ほとんど未検討のままである。 ADは、規範的な分布から逸脱を効率的に識別することを目的としているが、病理的な変化を含む完全な適応は、検出しようとする異常を不注意に学習する可能性がある。 本稿では, 未確認領域からの任意のテスト画像に対して, ゼロショット方式で, 深度事前学習特徴の固有特性を利用する, テスト時間適応という新しい概念を導入する。 このアプローチでは、モデルに依存しない軽量な多層パーセプトロンをニューラルネットワークの暗黙表現に適用し、ソース学習モデルを変更することなく、任意の再構成ベースのAD手法からの出力の適応を可能にする。 脳ADの厳密な検証は、複数の条件と異なる目標分布に対する検出精度を大幅に向上させることを実証した。 具体的には,拡張心室では最大78 %,浮腫では24 %と検出率を向上する。

Deep learning models in medical imaging often encounter challenges when adapting to new clinical settings unseen during training. Test-time adaptation offers a promising approach to optimize models for these unseen domains, yet its application in anomaly detection (AD) remains largely unexplored. AD aims to efficiently identify deviations from normative distributions; however, full adaptation, including pathological shifts, may inadvertently learn the anomalies it intends to detect. We introduce a novel concept of \emph{selective} test-time adaptation that utilizes the inherent characteristics of deep pre-trained features to adapt \emph{selectively} in a zero-shot manner to any test image from an unseen domain. This approach employs a model-agnostic, lightweight multi-layer perceptron for neural implicit representations, enabling the adaptation of outputs from any reconstruction-based AD method without altering the source-trained model. Rigorous validation in brain AD demonstrated that our strategy substantially enhances detection accuracy for multiple conditions and different target distributions. Specifically, our method improves the detection rates by up to 78\% for enlarged ventricles and 24\% for edemas.
翻訳日:2024-11-02 23:08:51 公開日:2024-10-25
# ニューラルインプシット表現を用いた教師なし異常検出のための選択的テスト時間適応

Selective Test-Time Adaptation for Unsupervised Anomaly Detection using Neural Implicit Representations ( http://arxiv.org/abs/2410.03306v2 )

ライセンス: Link先を確認
Sameer Ambekar, Julia A. Schnabel, Cosmin I. Bercea, (参考訳) 医用画像における深層学習モデルは、トレーニング中に見えない新しい臨床環境に適応する場合、しばしば困難に直面する。 テスト時適応は、これらの未確認領域のモデルを最適化するための有望なアプローチを提供するが、その異常検出(AD)への応用は、ほとんど未調査のままである。 ADは、規範的な分布から逸脱を効率的に識別することを目的としているが、病理的な変化を含む完全な適応は、検出しようとする異常を不注意に学習する可能性がある。 本稿では、未確認領域からの任意のテスト画像に対してゼロショット方式で選択的に適応するために、深層事前学習特徴の特性を利用する選択テスト時間適応という新しい概念を提案する。 このアプローチでは、モデルに依存しない軽量な多層パーセプトロンをニューラルネットワークの暗黙表現に適用し、ソース学習モデルを変更することなく、任意の再構成ベースのAD手法からの出力の適応を可能にする。 脳ADの厳密な検証は、複数の条件と異なる目標分布に対する検出精度を大幅に向上させることを実証した。 具体的には,拡張心室では最大78%,浮腫では24%の検出率で改善した。

Deep learning models in medical imaging often encounter challenges when adapting to new clinical settings unseen during training. Test-time adaptation offers a promising approach to optimize models for these unseen domains, yet its application in anomaly detection (AD) remains largely unexplored. AD aims to efficiently identify deviations from normative distributions; however, full adaptation, including pathological shifts, may inadvertently learn the anomalies it intends to detect. We introduce a novel concept of selective test-time adaptation that utilizes the inherent characteristics of deep pre-trained features to adapt selectively in a zero-shot manner to any test image from an unseen domain. This approach employs a model-agnostic, lightweight multi-layer perceptron for neural implicit representations, enabling the adaptation of outputs from any reconstruction-based AD method without altering the source-trained model. Rigorous validation in brain AD demonstrated that our strategy substantially enhances detection accuracy for multiple conditions and different target distributions. Specifically, our method improves the detection rates by up to 78% for enlarged ventricles and 24% for edemas.
翻訳日:2024-11-02 23:08:51 公開日:2024-10-25
# 人工知能がフリーフォーム光学設計にインスピレーションを与える: レビュー

Artificial intelligence inspired freeform optics design: a review ( http://arxiv.org/abs/2410.03554v1 )

ライセンス: Link先を確認
Lei Feng, Jingxing Liao, Jingna Yang, (参考訳) 機械学習やディープラーニングといった人工知能(AI)技術を自由形式光学設計に統合することは、設計効率を大幅に向上させ、設計空間を拡大し、革新的なソリューションへと導いた。 この記事では、この分野におけるAIアプリケーションの最新動向をレビューし、初期設計生成、最適化、パフォーマンス予測における彼らの役割を強調します。 また、データ要件、モデル解釈可能性、計算複雑性といった課題とともに、精度とパフォーマンスの改善など、AIのメリットにも対処する。 これらの課題にもかかわらず、フリーフォーム光学設計におけるAIの未来は、ハイブリッドデザイン手法、解釈可能なAI、AI駆動製造、特定のアプリケーションを対象とした研究の潜在的な進歩とともに、有望に思われる。 研究者、エンジニア、デザイナ間のコラボレーションは、AIの可能性を完全に活用し、光学におけるイノベーションを促進するために不可欠である。

Integrating artificial intelligence (AI) techniques such as machine learning and deep learning into freeform optics design has significantly enhanced design efficiency, expanded the design space, and led to innovative solutions. This article reviews the latest developments in AI applications within this field, highlighting their roles in initial design generation, optimization, and performance prediction. It also addresses the benefits of AI, such as improved accuracy and performance, alongside challenges like data requirements, model interpretability, and computational complexity. Despite these challenges, the future of AI in freeform optics design looks promising, with potential advancements in hybrid design methods, interpretable AI, AI-driven manufacturing, and targeted research for specific applications. Collaboration among researchers, engineers, and designers is essential to fully harness AI's potential and drive innovation in optics.
翻訳日:2024-11-02 21:29:56 公開日:2024-10-25
# 人工知能がフリーフォーム光学設計にインスピレーションを与える: レビュー

Artificial intelligence inspired freeform optics design: a review ( http://arxiv.org/abs/2410.03554v2 )

ライセンス: Link先を確認
Lei Feng, Jingxing Liao, Jingna Yang, (参考訳) 機械学習やディープラーニングといった人工知能(AI)技術を自由形式光学設計に統合することは、設計効率を大幅に向上させ、設計空間を拡大し、革新的なソリューションへと導いた。 この記事では、この分野におけるAIアプリケーションの最新動向をレビューし、初期設計生成、最適化、パフォーマンス予測における彼らの役割を強調します。 また、データ要件、モデル解釈可能性、計算複雑性といった課題とともに、精度とパフォーマンスの改善など、AIのメリットにも対処する。 これらの課題にもかかわらず、フリーフォーム光学設計におけるAIの未来は、ハイブリッドデザイン手法、解釈可能なAI、AI駆動製造、特定のアプリケーションを対象とした研究の潜在的な進歩とともに、有望に思われる。 研究者、エンジニア、デザイナ間のコラボレーションは、AIの可能性を完全に活用し、光学におけるイノベーションを促進するために不可欠である。

Integrating artificial intelligence (AI) techniques such as machine learning and deep learning into freeform optics design has significantly enhanced design efficiency, expanded the design space, and led to innovative solutions. This article reviews the latest developments in AI applications within this field, highlighting their roles in initial design generation, optimization, and performance prediction. It also addresses the benefits of AI, such as improved accuracy and performance, alongside challenges like data requirements, model interpretability, and computational complexity. Despite these challenges, the future of AI in freeform optics design looks promising, with potential advancements in hybrid design methods, interpretable AI, AI-driven manufacturing, and targeted research for specific applications. Collaboration among researchers, engineers, and designers is essential to fully harness AI's potential and drive innovation in optics.
翻訳日:2024-11-02 21:29:56 公開日:2024-10-25
# FutureFill: 畳み込みシーケンスモデルから高速な生成

FutureFill: Fast Generation from Convolutional Sequence Models ( http://arxiv.org/abs/2410.03766v1 )

ライセンス: Link先を確認
Naman Agarwal, Xinyi Chen, Evan Dogariu, Vlad Feinberg, Daniel Suo, Peter Bartlett, Elad Hazan, (参考訳) 本稿では、畳み込み演算子に基づく任意のシーケンス予測アルゴリズムに適用可能な高速な生成法であるFutureFillを導入することで、シーケンス予測モデルにおける効率的な自己回帰生成の課題に対処する。 提案手法では, 生成時間要件を文脈長に対して線形から正方形に短縮する。 さらにFutureFillでは、標準の畳み込みとアテンションベースのモデルのキャッシュ要件よりも小さく、生成されるトークンの数だけの大きさのプリフィルキャッシュを必要とする。 本研究は, 合成生成タスクにおける正当性と効率性向上を示す実験的証拠を用いて, 理論的知見を検証した。

We address the challenge of efficient auto-regressive generation in sequence prediction models by introducing FutureFill: a method for fast generation that applies to any sequence prediction algorithm based on convolutional operators. Our approach reduces the generation time requirement from linear to square root relative to the context length. Additionally, FutureFill requires a prefill cache sized only by the number of tokens generated, which is smaller than the cache requirements for standard convolutional and attention-based models. We validate our theoretical findings with experimental evidence demonstrating correctness and efficiency gains in a synthetic generation task.
翻訳日:2024-11-02 16:30:33 公開日:2024-10-25
# FutureFill: 畳み込みシーケンスモデルから高速な生成

FutureFill: Fast Generation from Convolutional Sequence Models ( http://arxiv.org/abs/2410.03766v2 )

ライセンス: Link先を確認
Naman Agarwal, Xinyi Chen, Evan Dogariu, Vlad Feinberg, Daniel Suo, Peter Bartlett, Elad Hazan, (参考訳) 本稿では、畳み込み演算子に基づく任意のシーケンス予測アルゴリズムに適用可能な高速な生成法であるFutureFillを導入することにより、シーケンス予測モデルにおける効率的な自己回帰生成の課題に対処する。 提案手法は, 文脈長に対して, 生成時間を2次から4次へと短縮する。 さらにFutureFillでは、標準の畳み込みとアテンションベースのモデルのキャッシュ要件よりも小さく、生成されるトークンの数だけの大きさのプリフィルキャッシュを必要とする。 本研究は, 合成生成タスクにおける正当性と効率性向上を示す実験的証拠を用いて, 理論的知見を検証した。

We address the challenge of efficient auto-regressive generation in sequence prediction models by introducing FutureFill - a method for fast generation that applies to any sequence prediction algorithm based on convolutional operators. Our approach reduces the generation time requirement from quadratic to quasilinear relative to the context length. Additionally, FutureFill requires a prefill cache sized only by the number of tokens generated, which is smaller than the cache requirements for standard convolutional and attention-based models. We validate our theoretical findings with experimental evidence demonstrating correctness and efficiency gains in a synthetic generation task.
翻訳日:2024-11-02 16:30:33 公開日:2024-10-25
# ファインチューニングと同じくらい簡単な:双方向負のフィードバック損失によるLCMアライメント

As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss ( http://arxiv.org/abs/2410.04834v1 )

ライセンス: Link先を確認
Xin Mao, Feng-Lin Li, Huimin Xu, Wei Zhang, Wang Chen, Anh Tuan Luu, (参考訳) 直接選好最適化(DPO)は、PPOによる人間フィードバックからの強化学習(RLHF)の代替として、報酬モデルやオンラインサンプリングの必要性を排除し、より効率的な方法として登場した。 これらの利点にもかかわらず、DPOとその変種はハイパーパラメータに敏感であり、不安定になりがちである。 これらの問題は、ログ類似損失関数に固有の一方向の電位微分負のフィードバックから生じるものであると論じる。 そこで本研究では, 安定な双方向負のフィードバック(BNF)を最適化中に確立する新たなLCMアライメント損失を提案する。 提案したBNF損失は、相互に対照的な損失を排除し、調整可能なハイパーパラメータやペアの選好データを必要としないため、アライメントパイプラインの合理化は教師付き微調整と同じくらい簡単である。 我々は、2つの挑戦的なQAベンチマークと4つの推論ベンチマークにまたがる広範な実験を行っている。 実験の結果,BNFはQAベンチマークのベストメソッドに匹敵する性能を示したが,4つの推論ベンチマークのパフォーマンス低下はベストメソッドに比べて著しく低下し,値アライメントと推論能力のバランスが良くなった。 さらに、非ペアワイズデータセット上でのBNFの性能をさらに検証し、異なる選好最適化手法におけるログやロジットシフトの詳細な分析を行う。

Direct Preference Optimization (DPO) has emerged as a more computationally efficient alternative to Reinforcement Learning from Human Feedback (RLHF) with Proximal Policy Optimization (PPO), eliminating the need for reward models and online sampling. Despite these benefits, DPO and its variants remain sensitive to hyper-parameters and prone to instability, particularly on mathematical datasets. We argue that these issues arise from the unidirectional likelihood-derivative negative feedback inherent in the log-likelihood loss function. To address this, we propose a novel LLM alignment loss that establishes a stable Bidirectional Negative Feedback (BNF) during optimization. Our proposed BNF loss eliminates the need for pairwise contrastive losses and does not require any extra tunable hyper-parameters or pairwise preference data, streamlining the alignment pipeline to be as simple as supervised fine-tuning. We conduct extensive experiments across two challenging QA benchmarks and four reasoning benchmarks. The experimental results show that BNF achieves comparable performance to the best methods on QA benchmarks, while its performance decrease on the four reasoning benchmarks is significantly lower compared to the best methods, thus striking a better balance between value alignment and reasoning ability. In addition, we further validate the performance of BNF on non-pairwise datasets, and conduct in-depth analysis of log-likelihood and logit shifts across different preference optimization methods.
翻訳日:2024-11-02 01:38:08 公開日:2024-10-25
# ファインチューニングと同じくらい簡単な:双方向負のフィードバック損失によるLCMアライメント

As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss ( http://arxiv.org/abs/2410.04834v2 )

ライセンス: Link先を確認
Xin Mao, Feng-Lin Li, Huimin Xu, Wei Zhang, Wang Chen, Anh Tuan Luu, (参考訳) 直接選好最適化(DPO)は、PPOによる人間フィードバックからの強化学習(RLHF)の代替として、報酬モデルやオンラインサンプリングの必要性を排除し、より効率的な方法として登場した。 これらの利点にもかかわらず、DPOとその変種はハイパーパラメータに敏感であり、不安定になりがちである。 これらの問題は、ログ類似損失関数に固有の一方向の電位微分負のフィードバックから生じるものであると論じる。 そこで本研究では, 安定な双方向負のフィードバック(BNF)を最適化中に確立する新たなLCMアライメント損失を提案する。 提案したBNF損失は、相互に対照的な損失を排除し、調整可能なハイパーパラメータやペアの選好データを必要としないため、アライメントパイプラインの合理化は教師付き微調整と同じくらい簡単である。 我々は、2つの挑戦的なQAベンチマークと4つの推論ベンチマークにまたがる広範な実験を行っている。 実験の結果,BNFはQAベンチマークのベストメソッドに匹敵する性能を示したが,4つの推論ベンチマークのパフォーマンス低下はベストメソッドに比べて著しく低下し,値アライメントと推論能力のバランスが良くなった。 さらに、非ペアワイズデータセット上でのBNFの性能をさらに検証し、異なる選好最適化手法におけるログやロジットシフトの詳細な分析を行う。

Direct Preference Optimization (DPO) has emerged as a more computationally efficient alternative to Reinforcement Learning from Human Feedback (RLHF) with Proximal Policy Optimization (PPO), eliminating the need for reward models and online sampling. Despite these benefits, DPO and its variants remain sensitive to hyper-parameters and prone to instability, particularly on mathematical datasets. We argue that these issues arise from the unidirectional likelihood-derivative negative feedback inherent in the log-likelihood loss function. To address this, we propose a novel LLM alignment loss that establishes a stable Bidirectional Negative Feedback (BNF) during optimization. Our proposed BNF loss eliminates the need for pairwise contrastive losses and does not require any extra tunable hyper-parameters or pairwise preference data, streamlining the alignment pipeline to be as simple as supervised fine-tuning. We conduct extensive experiments across two challenging QA benchmarks and four reasoning benchmarks. The experimental results show that BNF achieves comparable performance to the best methods on QA benchmarks, while its performance decrease on the four reasoning benchmarks is significantly lower compared to the best methods, thus striking a better balance between value alignment and reasoning ability. In addition, we further validate the performance of BNF on non-pairwise datasets, and conduct in-depth analysis of log-likelihood and logit shifts across different preference optimization methods.
翻訳日:2024-11-02 01:38:08 公開日:2024-10-25
# Rationale-Aware Answer Verification by Pairwise Self-Evaluation

Rationale-Aware Answer Verification by Pairwise Self-Evaluation ( http://arxiv.org/abs/2410.04838v1 )

ライセンス: Link先を確認
Akira Kawabata, Saku Sugawara, (参考訳) 回答検証は、大規模言語モデル(LLM)によって生成される候補間の正しい解を特定する。 現在のアプローチでは、最終的な答えが金の答えと一致するかどうかのみに基づいて、ソリューションを正しいか不正確なものとしてラベル付けすることで検証モデルを訓練する。 しかし、このアプローチは正しい答えをもたらす解の欠点のある理性を無視し、検証者の音と欠陥のある理性を区別する能力を損なう。 我々は、StrategyQA において、正しい答えを持つ LLM 生成解の 19% が妥当な有理性を持つことを実証的に示す。 さらに,有効有理数に対する検証器の訓練により,有理数と欠陥有理数の区別能力が著しく向上することが実証された。 人間の監督を余分に必要とせずに、より優れた検証を行うために、REPS(Rationale Enhancement through Pairwise Selection)を導入し、ソリューションを生成する同じLLMを用いて、ペアワイズ自己評価を反復的に適用することで、候補から有効理性を選択する方法を提案する。 REPSによって選択されたソリューションに基づいてトレーニングされた検証者は、3つの推論ベンチマーク(ARC-Challenge、DROP、StrategyQA)で従来のトレーニング手法でトレーニングされたソリューションよりも優れていた。 以上の結果から, 信頼性検証器の訓練には, 解答の正しさに加えて, 有理性の確保が必要であることが示唆された。

Answer verification identifies correct solutions among candidates generated by large language models (LLMs). Current approaches typically train verifier models by labeling solutions as correct or incorrect based solely on whether the final answer matches the gold answer. However, this approach neglects any flawed rationale in the solution yielding the correct answer, undermining the verifier's ability to distinguish between sound and flawed rationales. We empirically show that in StrategyQA, only 19% of LLM-generated solutions with correct answers have valid rationales, thus leading to an unreliable verifier. Furthermore, we demonstrate that training a verifier on valid rationales significantly improves its ability to distinguish valid and flawed rationale. To make a better verifier without extra human supervision, we introduce REPS (Rationale Enhancement through Pairwise Selection), a method for selecting valid rationales from candidates by iteratively applying pairwise self-evaluation using the same LLM that generates the solutions. Verifiers trained on solutions selected by REPS outperform those trained using conventional training methods on three reasoning benchmarks (ARC-Challenge, DROP, and StrategyQA). Our results suggest that training reliable verifiers requires ensuring the validity of rationales in addition to the correctness of the final answers, which would be critical for models assisting humans in solving complex reasoning tasks.
翻訳日:2024-11-02 01:38:08 公開日:2024-10-25
# Rationale-Aware Answer Verification by Pairwise Self-Evaluation

Rationale-Aware Answer Verification by Pairwise Self-Evaluation ( http://arxiv.org/abs/2410.04838v2 )

ライセンス: Link先を確認
Akira Kawabata, Saku Sugawara, (参考訳) 回答検証は、大規模言語モデル(LLM)によって生成される候補間の正しい解を特定する。 現在のアプローチでは、最終的な答えが金の答えと一致するかどうかのみに基づいて、ソリューションを正しいか不正確なものとしてラベル付けすることで検証モデルを訓練する。 しかし、このアプローチは正しい答えをもたらす解の欠点のある理性を無視し、検証者の音と欠陥のある理性を区別する能力を損なう。 我々は、StrategyQA において、正しい答えを持つ LLM 生成解の 19% が妥当な有理性を持つことを実証的に示す。 さらに,有効有理数に対する検証器の訓練により,有理数と欠陥有理数の区別能力が著しく向上することが実証された。 人間の監督を余分に必要とせずに、より優れた検証を行うために、REPS(Rationale Enhancement through Pairwise Selection)を導入し、ソリューションを生成する同じLLMを用いて、ペアワイズ自己評価を反復的に適用することで、候補から有効理性を選択する方法を提案する。 REPSによって選択されたソリューションに基づいてトレーニングされた検証者は、3つの推論ベンチマーク(ARC-Challenge、DROP、StrategyQA)で従来のトレーニング手法でトレーニングされたソリューションよりも優れていた。 以上の結果から, 信頼性検証器の訓練には, 解答の正しさに加えて, 有理性の確保が必要であることが示唆された。

Answer verification identifies correct solutions among candidates generated by large language models (LLMs). Current approaches typically train verifier models by labeling solutions as correct or incorrect based solely on whether the final answer matches the gold answer. However, this approach neglects any flawed rationale in the solution yielding the correct answer, undermining the verifier's ability to distinguish between sound and flawed rationales. We empirically show that in StrategyQA, only 19% of LLM-generated solutions with correct answers have valid rationales, thus leading to an unreliable verifier. Furthermore, we demonstrate that training a verifier on valid rationales significantly improves its ability to distinguish valid and flawed rationale. To make a better verifier without extra human supervision, we introduce REPS (Rationale Enhancement through Pairwise Selection), a method for selecting valid rationales from candidates by iteratively applying pairwise self-evaluation using the same LLM that generates the solutions. Verifiers trained on solutions selected by REPS outperform those trained using conventional training methods on three reasoning benchmarks (ARC-Challenge, DROP, and StrategyQA). Our results suggest that training reliable verifiers requires ensuring the validity of rationales in addition to the correctness of the final answers, which would be critical for models assisting humans in solving complex reasoning tasks.
翻訳日:2024-11-02 01:38:08 公開日:2024-10-25
# MC-QDSNN:生理学的信号を用いたストレス検出のための多次元比較ニューロンを用いた量子化深部進化SNN

MC-QDSNN: Quantized Deep evolutionary SNN with Multi-Dendritic Compartment Neurons for Stress Detection using Physiological Signals ( http://arxiv.org/abs/2410.04992v1 )

ライセンス: Link先を確認
Ajay B. S., Phani Pavan K, Madhav Rao, (参考訳) 長期記憶(LSTM)は時系列データを解析・推論するための決定的なネットワークとして登場した。 LSTMは、スペクトル特徴と時間的特徴の混合を抽出する能力を持つ。 この利点により、時系列データを対象としたスパイキング手法として、同様の特徴抽出法が検討されている。 LSTMはそのスパイク形式では良好に機能するが、計算と電力集約性が高い傾向にある。 本研究は,時系列データの効率的な処理の代替手段として,MCLeaky(Multi-Compartment Leaky)ニューロンを提案する。 Leaky Integrate and Fire(LIF)ニューロンモデルに由来するMCLeakyニューロンは、結合された複数の分裂シナプスを含み、記憶成分を形成し、ヒト脳の海馬領域をエミュレートする。 提案したMCLeakyニューロンをベースとしたスパイキングニューラルネットワークモデルとその量子化モデルは、人間のストレス検出を行うための最先端(SOTA)スパイキングLSTMに対してベンチマークされた。 その結果、MCLeaky活性化ニューロンを持つネットワークは、平均で20%少ないパラメータを使用しながら、電気活動(EDA)信号に基づいてストレスを検出するのに98.8%の精度を達成した。 MCLeakyニューロンは、EDA WristやChest、温度、心電図、それらの組み合わせなどの様々な信号に対しても試験された。 量子MCLeakyモデルも導出され、ハードウェアアーキテクチャの性能を予測するために検証され、その結果91.84%の精度が得られた。 ニューロンはストレス検出のための複数のデータに対して評価され、その結果エネルギーは25.12xから39.20x、EDPは52.37xから81.9xとなり、他のSOTA実装と比較して98.8%の精度が得られた。

Long short-term memory (LSTM) has emerged as a definitive network for analyzing and inferring time series data. LSTM has the capability to extract spectral features and a mixture of temporal features. Due to this benefit, a similar feature extraction method is explored for the spiking counterparts targeting time-series data. Though LSTMs perform well in their spiking form, they tend to be compute and power intensive. Addressing this issue, this work proposes Multi-Compartment Leaky (MCLeaky) neuron as a viable alternative for efficient processing of time series data. The MCLeaky neuron, derived from the Leaky Integrate and Fire (LIF) neuron model, contains multiple memristive synapses interlinked to form a memory component, which emulates the human brain's Hippocampus region. The proposed MCLeaky neuron based Spiking Neural Network model and its quantized variant were benchmarked against state-of-the-art (SOTA) Spiking LSTMs to perform human stress detection, by comparing compute requirements, latency and real-world performances on unseen data with models derived through Neural Architecture Search (NAS). Results show that networks with MCLeaky activation neuron managed a superior accuracy of 98.8% to detect stress based on Electrodermal Activity (EDA) signals, better than any other investigated models, while using 20% less parameters on average. MCLeaky neuron was also tested for various signals including EDA Wrist and Chest, Temperature, ECG, and combinations of them. Quantized MCLeaky model was also derived and validated to forecast their performance on hardware architectures, which resulted in 91.84% accuracy. The neurons were evaluated for multiple modalities of data towards stress detection, which resulted in energy savings of 25.12x to 39.20x and EDP gains of 52.37x to 81.9x over ANNs, while offering a best accuracy of 98.8% when compared with the rest of the SOTA implementations.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-25
# MC-QDSNN:生理学的信号を用いたストレス検出のための多次元比較ニューロンを用いた量子化深部進化SNN

MC-QDSNN: Quantized Deep evolutionary SNN with Multi-Dendritic Compartment Neurons for Stress Detection using Physiological Signals ( http://arxiv.org/abs/2410.04992v2 )

ライセンス: Link先を確認
Ajay B S, Phani Pavan K, Madhav Rao, (参考訳) 長期記憶(LSTM)は時系列データを解析・推論するための決定的なネットワークとして登場した。 LSTMは、スペクトル特徴と時間的特徴の混合を抽出する能力を持つ。 この利点により、時系列データを対象としたスパイキング手法として、同様の特徴抽出法が検討されている。 LSTMはそのスパイク形式では良好に機能するが、計算と電力集約性が高い傾向にある。 本研究は,時系列データの効率的な処理の代替手段として,MCLeaky(Multi-Compartment Leaky)ニューロンを提案する。 Leaky Integrate and Fire(LIF)ニューロンモデルに由来するMCLeakyニューロンは、結合された複数の分裂シナプスを含み、記憶成分を形成し、ヒト脳の海馬領域をエミュレートする。 提案したMCLeakyニューロンをベースとしたスパイキングニューラルネットワークモデルとその量子化モデルは、人間のストレス検出を行うための最先端(SOTA)スパイキングLSTMに対してベンチマークされた。 その結果、MCLeaky活性化ニューロンを持つネットワークは、平均で20%少ないパラメータを使用しながら、電気活動(EDA)信号に基づいてストレスを検出するのに98.8%の精度を達成した。 MCLeakyニューロンは、EDA WristやChest、温度、心電図、それらの組み合わせなどの様々な信号に対しても試験された。 量子MCLeakyモデルも導出され、ハードウェアアーキテクチャの性能を予測するために検証され、その結果91.84%の精度が得られた。 ニューロンはストレス検出のための複数のデータに対して評価され、その結果エネルギーは25.12xから39.20x、EDPは52.37xから81.9xとなり、他のSOTA実装と比較して98.8%の精度が得られた。

Long short-term memory (LSTM) has emerged as a definitive network for analyzing and inferring time series data. LSTM has the capability to extract spectral features and a mixture of temporal features. Due to this benefit, a similar feature extraction method is explored for the spiking counterparts targeting time-series data. Though LSTMs perform well in their spiking form, they tend to be compute and power intensive. Addressing this issue, this work proposes Multi-Compartment Leaky (MCLeaky) neuron as a viable alternative for efficient processing of time series data. The MCLeaky neuron, derived from the Leaky Integrate and Fire (LIF) neuron model, contains multiple memristive synapses interlinked to form a memory component, which emulates the human brain's Hippocampus region. The proposed MCLeaky neuron based Spiking Neural Network model and its quantized variant were benchmarked against state-of-the-art (SOTA) Spiking LSTMs to perform human stress detection, by comparing compute requirements, latency and real-world performances on unseen data with models derived through Neural Architecture Search (NAS). Results show that networks with MCLeaky activation neuron managed a superior accuracy of 98.8% to detect stress based on Electrodermal Activity (EDA) signals, better than any other investigated models, while using 20% less parameters on average. MCLeaky neuron was also tested for various signals including EDA Wrist and Chest, Temperature, ECG, and combinations of them. Quantized MCLeaky model was also derived and validated to forecast their performance on hardware architectures, which resulted in 91.84% accuracy. The neurons were evaluated for multiple modalities of data towards stress detection, which resulted in energy savings of 25.12x to 39.20x and EDP gains of 52.37x to 81.9x over ANNs, while offering a best accuracy of 98.8% when compared with the rest of the SOTA implementations.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-25
# MC-QDSNN:生理学的信号を用いたストレス検出のための多次元比較ニューロンを用いた量子化深部進化SNN

MC-QDSNN: Quantized Deep evolutionary SNN with Multi-Dendritic Compartment Neurons for Stress Detection using Physiological Signals ( http://arxiv.org/abs/2410.04992v3 )

ライセンス: Link先を確認
Ajay B S, Phani Pavan K, Madhav Rao, (参考訳) 長期記憶(LSTM)は時系列データを解析・推論するための決定的なネットワークとして登場した。 LSTMは、スペクトル特徴と時間的特徴の混合を抽出する能力を持つ。 この利点により、時系列データを対象としたスパイキング手法として、同様の特徴抽出法が検討されている。 LSTMはそのスパイク形式では良好に機能するが、計算と電力集約性が高い傾向にある。 本研究は,時系列データの効率的な処理の代替手段として,MCLeaky(Multi-Compartment Leaky)ニューロンを提案する。 Leaky Integrate and Fire(LIF)ニューロンモデルに由来するMCLeakyニューロンは、結合された複数の分裂シナプスを含み、記憶成分を形成し、ヒト脳の海馬領域をエミュレートする。 提案したMCLeakyニューロンをベースとしたスパイキングニューラルネットワークモデルとその量子化モデルは、人間のストレス検出を行うための最先端(SOTA)スパイキングLSTMに対してベンチマークされた。 その結果、MCLeaky活性化ニューロンを持つネットワークは、平均で20%少ないパラメータを使用しながら、電気活動(EDA)信号に基づいてストレスを検出するのに98.8%の精度を達成した。 MCLeakyニューロンは、EDA WristやChest、温度、心電図、それらの組み合わせなどの様々な信号に対しても試験された。 量子MCLeakyモデルも導出され、ハードウェアアーキテクチャの性能を予測するために検証され、その結果91.84%の精度が得られた。 ニューロンはストレス検出のための複数のデータに対して評価され、その結果エネルギーは25.12xから39.20x、EDPは52.37xから81.9xとなり、他のSOTA実装と比較して98.8%の精度が得られた。

Long short-term memory (LSTM) has emerged as a definitive network for analyzing and inferring time series data. LSTM has the capability to extract spectral features and a mixture of temporal features. Due to this benefit, a similar feature extraction method is explored for the spiking counterparts targeting time-series data. Though LSTMs perform well in their spiking form, they tend to be compute and power intensive. Addressing this issue, this work proposes Multi-Compartment Leaky (MCLeaky) neuron as a viable alternative for efficient processing of time series data. The MCLeaky neuron, derived from the Leaky Integrate and Fire (LIF) neuron model, contains multiple memristive synapses interlinked to form a memory component, which emulates the human brain's Hippocampus region. The proposed MCLeaky neuron based Spiking Neural Network model and its quantized variant were benchmarked against state-of-the-art (SOTA) Spiking LSTMs to perform human stress detection, by comparing compute requirements, latency and real-world performances on unseen data with models derived through Neural Architecture Search (NAS). Results show that networks with MCLeaky activation neuron managed a superior accuracy of 98.8% to detect stress based on Electrodermal Activity (EDA) signals, better than any other investigated models, while using 20% less parameters on average. MCLeaky neuron was also tested for various signals including EDA Wrist and Chest, Temperature, ECG, and combinations of them. Quantized MCLeaky model was also derived and validated to forecast their performance on hardware architectures, which resulted in 91.84% accuracy. The neurons were evaluated for multiple modalities of data towards stress detection, which resulted in energy savings of 25.12x to 39.20x and EDP gains of 52.37x to 81.9x over ANNs, while offering a best accuracy of 98.8% when compared with the rest of the SOTA implementations.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-25
# 局所言語コントラスト学習による物体検出の改善

Improving Object Detection via Local-global Contrastive Learning ( http://arxiv.org/abs/2410.05058v1 )

ライセンス: Link先を確認
Danai Triantafyllidou, Sarah Parisot, Ales Leonardis, Steven McDonagh, (参考訳) 視覚的なドメインギャップは、しばしばオブジェクト検出のパフォーマンスに影響を与えます。 画像から画像への変換はこの効果を緩和し、対照的なアプローチにより、教師なしの体制下で画像から画像へのマッピングを学習することができる。 しかし、既存のメソッドは複数のオブジェクトインスタンスでコンテンツリッチなシーンを扱うことができず、不満足な検出性能を示す。 このようなインスタンスレベルのコンテンツに対する感度は通常、オブジェクトアノテーションによってのみ得られる。 そこで本研究では,ドメイン間のオブジェクト検出を対象とする画像から画像への変換手法を提案する。 我々は,物体の出現を空間的注意マスクを通して最適化し,対象物体のインスタンスや背景非対象領域に関連付けられた前景領域に暗黙的に配置する,誘導的先行学習フレームワークとして,我々のアプローチを定式化した。 翻訳中にオブジェクトのインスタンスを明示的に説明するためにオブジェクトアノテーションに頼る代わりに、我々のアプローチは、ローカル・グローバルな情報を対比してオブジェクトを表現することを学ぶ。 これにより、オブジェクトアノテーションやディテクターモデルの微調整に頼ることなく、ドメインシフトの下でパフォーマンス検出を得るという、未調査の課題の調査が可能になる。 我々は3つの挑戦的なベンチマークにまたがって複数のクロスドメインオブジェクト検出設定を実験し、最先端のパフォーマンスを報告する。 プロジェクトページ: https://local-global-detection.github.io

Visual domain gaps often impact object detection performance. Image-to-image translation can mitigate this effect, where contrastive approaches enable learning of the image-to-image mapping under unsupervised regimes. However, existing methods often fail to handle content-rich scenes with multiple object instances, which manifests in unsatisfactory detection performance. Sensitivity to such instance-level content is typically only gained through object annotations, which can be expensive to obtain. Towards addressing this issue, we present a novel image-to-image translation method that specifically targets cross-domain object detection. We formulate our approach as a contrastive learning framework with an inductive prior that optimises the appearance of object instances through spatial attention masks, implicitly delineating the scene into foreground regions associated with the target object instances and background non-object regions. Instead of relying on object annotations to explicitly account for object instances during translation, our approach learns to represent objects by contrasting local-global information. This affords investigation of an under-explored challenge: obtaining performant detection, under domain shifts, without relying on object annotations nor detector model fine-tuning. We experiment with multiple cross-domain object detection settings across three challenging benchmarks and report state-of-the-art performance. Project page: https://local-global-detection.github.io
翻訳日:2024-11-02 00:38:19 公開日:2024-10-25
# 局所言語コントラスト学習による物体検出の改善

Improving Object Detection via Local-global Contrastive Learning ( http://arxiv.org/abs/2410.05058v2 )

ライセンス: Link先を確認
Danai Triantafyllidou, Sarah Parisot, Ales Leonardis, Steven McDonagh, (参考訳) 視覚的なドメインギャップは、しばしばオブジェクト検出のパフォーマンスに影響を与えます。 画像から画像への変換はこの効果を緩和し、対照的なアプローチにより、教師なしの体制下で画像から画像へのマッピングを学習することができる。 しかし、既存のメソッドは複数のオブジェクトインスタンスでコンテンツリッチなシーンを扱うことができず、不満足な検出性能を示す。 このようなインスタンスレベルのコンテンツに対する感度は通常、オブジェクトアノテーションによってのみ得られる。 そこで本研究では,ドメイン間のオブジェクト検出を対象とする画像から画像への変換手法を提案する。 我々は,物体の出現を空間的注意マスクを通して最適化し,対象物体のインスタンスや背景非対象領域に関連付けられた前景領域に暗黙的に配置する,誘導的先行学習フレームワークとして,我々のアプローチを定式化した。 翻訳中にオブジェクトのインスタンスを明示的に説明するためにオブジェクトアノテーションに頼る代わりに、我々のアプローチは、ローカル・グローバルな情報を対比してオブジェクトを表現することを学ぶ。 これにより、オブジェクトアノテーションやディテクターモデルの微調整に頼ることなく、ドメインシフトの下でパフォーマンス検出を得るという、未調査の課題の調査が可能になる。 我々は3つの挑戦的なベンチマークにまたがって複数のクロスドメインオブジェクト検出設定を実験し、最先端のパフォーマンスを報告する。 プロジェクトページ: https://local-global-detection.github.io

Visual domain gaps often impact object detection performance. Image-to-image translation can mitigate this effect, where contrastive approaches enable learning of the image-to-image mapping under unsupervised regimes. However, existing methods often fail to handle content-rich scenes with multiple object instances, which manifests in unsatisfactory detection performance. Sensitivity to such instance-level content is typically only gained through object annotations, which can be expensive to obtain. Towards addressing this issue, we present a novel image-to-image translation method that specifically targets cross-domain object detection. We formulate our approach as a contrastive learning framework with an inductive prior that optimises the appearance of object instances through spatial attention masks, implicitly delineating the scene into foreground regions associated with the target object instances and background non-object regions. Instead of relying on object annotations to explicitly account for object instances during translation, our approach learns to represent objects by contrasting local-global information. This affords investigation of an under-explored challenge: obtaining performant detection, under domain shifts, without relying on object annotations nor detector model fine-tuning. We experiment with multiple cross-domain object detection settings across three challenging benchmarks and report state-of-the-art performance. Project page: https://local-global-detection.github.io
翻訳日:2024-11-02 00:28:18 公開日:2024-10-25
# 広帯域野生生物再同定のための適応高周波変圧器

Adaptive High-Frequency Transformer for Diverse Wildlife Re-Identification ( http://arxiv.org/abs/2410.06977v1 )

ライセンス: Link先を確認
Chenyue Li, Shuoyi Chen, Mang Ye, (参考訳) 野生生物ReIDは、視覚技術を利用して異なるシナリオで野生動物の特定の個人を特定することを含み、野生生物の保護、生態研究、環境モニタリングにおいて重要な役割を担っている。 現存する野生生物のReID法は、主に特定の種に適合し、限定的な適用性を示す。 広く研究されているReID技術を活用するアプローチもあるが、野生生物がもたらす固有の課題に対処するのに苦労している。 そこで本稿では,野生生物ReIDのための統合された多種共通フレームワークを提案する。 高周波情報は多種多様な特徴を一貫した表現であり,輪郭や毛皮のテクスチャなどの細部を識別する上で重要な役割を担っていることを考慮し,高周波情報学習の促進を目的とした適応型高周波トランスフォーマーモデルを提案する。 荒野環境における必然的な高周波干渉を軽減するため,我々は,より価値のある高周波成分を適応的に捉えるために,オブジェクト対応の高周波選択戦略を導入する。 特に、ReIDのための複数の野生生物データセットの実験的設定を統一し、最先端のReID手法よりも優れた性能を実現する。 ドメイン一般化のシナリオでは、未知種への堅牢な一般化を示す。

Wildlife ReID involves utilizing visual technology to identify specific individuals of wild animals in different scenarios, holding significant importance for wildlife conservation, ecological research, and environmental monitoring. Existing wildlife ReID methods are predominantly tailored to specific species, exhibiting limited applicability. Although some approaches leverage extensively studied person ReID techniques, they struggle to address the unique challenges posed by wildlife. Therefore, in this paper, we present a unified, multi-species general framework for wildlife ReID. Given that high-frequency information is a consistent representation of unique features in various species, significantly aiding in identifying contours and details such as fur textures, we propose the Adaptive High-Frequency Transformer model with the goal of enhancing high-frequency information learning. To mitigate the inevitable high-frequency interference in the wilderness environment, we introduce an object-aware high-frequency selection strategy to adaptively capture more valuable high-frequency components. Notably, we unify the experimental settings of multiple wildlife datasets for ReID, achieving superior performance over state-of-the-art ReID methods. In domain generalization scenarios, our approach demonstrates robust generalization to unknown species.
翻訳日:2024-10-31 23:17:37 公開日:2024-10-25
# 広帯域野生生物再同定のための適応高周波変圧器

Adaptive High-Frequency Transformer for Diverse Wildlife Re-Identification ( http://arxiv.org/abs/2410.06977v2 )

ライセンス: Link先を確認
Chenyue Li, Shuoyi Chen, Mang Ye, (参考訳) 野生生物ReIDは、視覚技術を利用して異なるシナリオで野生動物の特定の個人を特定することを含み、野生生物の保護、生態研究、環境モニタリングにおいて重要な役割を担っている。 現存する野生生物のReID法は、主に特定の種に適合し、限定的な適用性を示す。 広く研究されているReID技術を活用するアプローチもあるが、野生生物がもたらす固有の課題に対処するのに苦労している。 そこで本稿では,野生生物ReIDのための統合された多種共通フレームワークを提案する。 高周波情報は多種多様な特徴を一貫した表現であり,輪郭や毛皮のテクスチャなどの細部を識別する上で重要な役割を担っていることを考慮し,高周波情報学習の促進を目的とした適応型高周波トランスフォーマーモデルを提案する。 荒野環境における必然的な高周波干渉を軽減するため,我々は,より価値のある高周波成分を適応的に捉えるために,オブジェクト対応の高周波選択戦略を導入する。 特に、ReIDのための複数の野生生物データセットの実験的設定を統一し、最先端のReID手法よりも優れた性能を実現する。 ドメイン一般化のシナリオでは、未知種への堅牢な一般化を示す。

Wildlife ReID involves utilizing visual technology to identify specific individuals of wild animals in different scenarios, holding significant importance for wildlife conservation, ecological research, and environmental monitoring. Existing wildlife ReID methods are predominantly tailored to specific species, exhibiting limited applicability. Although some approaches leverage extensively studied person ReID techniques, they struggle to address the unique challenges posed by wildlife. Therefore, in this paper, we present a unified, multi-species general framework for wildlife ReID. Given that high-frequency information is a consistent representation of unique features in various species, significantly aiding in identifying contours and details such as fur textures, we propose the Adaptive High-Frequency Transformer model with the goal of enhancing high-frequency information learning. To mitigate the inevitable high-frequency interference in the wilderness environment, we introduce an object-aware high-frequency selection strategy to adaptively capture more valuable high-frequency components. Notably, we unify the experimental settings of multiple wildlife datasets for ReID, achieving superior performance over state-of-the-art ReID methods. In domain generalization scenarios, our approach demonstrates robust generalization to unknown species.
翻訳日:2024-10-31 23:17:37 公開日:2024-10-25
# TinyEmo: メトリック投影による感情的推論のスケールアップ

TinyEmo: Scaling down Emotional Reasoning via Metric Projection ( http://arxiv.org/abs/2410.07062v1 )

ライセンス: Link先を確認
Cristian Gutierrez, (参考訳) 本稿では、感情的推論と分類のための小さなマルチモーダル言語モデルであるTinyEmoを紹介する。 提案手法は,(1)事前学習と微調整の両方のための合成感情指導データセット,(2)より効率的な学習と推論が可能な言語モデルから分類を委譲するメトリックプロジェクタ,(3)感情的推論のためのマルチモーダルな大規模言語モデル(MM-LLM),(4)偏見検出のための半自動フレームワークである。 TinyEmoは感情の分類と感情の推論を行うことができる。 この効率により、より多様な感情的データセットを自由に組み込むことができ、最小のモデル(700Mパラメータ)が7Bパラメータ以上の汎用MM-LLMに基づいて、より大きな最先端モデルよりも優れています。 さらに、Metric Projectorは、追加のトレーニングなしで大規模モデルの解釈可能性と間接バイアス検出を可能にし、AIシステムを理解し改善するためのアプローチを提供する。 https://github.com/ggcr/TinyEmoでコード、モデル、データセットをリリースします。

This paper introduces TinyEmo, a family of small multi-modal language models for emotional reasoning and classification. Our approach features: (1) a synthetic emotional instruct dataset for both pre-training and fine-tuning stages, (2) a Metric Projector that delegates classification from the language model allowing for more efficient training and inference, (3) a multi-modal large language model (MM-LLM) for emotional reasoning, and (4) a semi-automated framework for bias detection. TinyEmo is able to perform emotion classification and emotional reasoning, all while using substantially fewer parameters than comparable models. This efficiency allows us to freely incorporate more diverse emotional datasets, enabling strong performance on classification tasks, with our smallest model (700M parameters) outperforming larger state-of-the-art models based on general-purpose MM-LLMs with over 7B parameters. Additionally, the Metric Projector allows for interpretability and indirect bias detection in large models without additional training, offering an approach to understand and improve AI systems. We release code, models, and dataset at https://github.com/ggcr/TinyEmo
翻訳日:2024-10-31 22:47:07 公開日:2024-10-25
# TinyEmo: メトリック投影による感情的推論のスケールアップ

TinyEmo: Scaling down Emotional Reasoning via Metric Projection ( http://arxiv.org/abs/2410.07062v2 )

ライセンス: Link先を確認
Cristian Gutierrez, (参考訳) 本稿では、感情的推論と分類のための小さなマルチモーダル言語モデルであるTinyEmoを紹介する。 提案手法は,(1)事前学習と微調整の両方のための合成感情指導データセット,(2)より効率的な学習と推論が可能な言語モデルから分類を委譲するメトリックプロジェクタ,(3)感情的推論のためのマルチモーダルな大規模言語モデル(MM-LLM),(4)偏見検出のための半自動フレームワークである。 TinyEmoは感情の分類と感情の推論を行うことができる。 この効率により、より多様な感情的データセットを自由に組み込むことができ、最小のモデル(700Mパラメータ)が7Bパラメータ以上の汎用MM-LLMに基づいて、より大きな最先端モデルよりも優れています。 さらに、Metric Projectorは、追加のトレーニングなしで大規模モデルの解釈可能性と間接バイアス検出を可能にし、AIシステムを理解し改善するためのアプローチを提供する。 https://github.com/ggcr/TinyEmoでコード、モデル、データセットをリリースします。

This paper introduces TinyEmo, a family of small multi-modal language models for emotional reasoning and classification. Our approach features: (1) a synthetic emotional instruct dataset for both pre-training and fine-tuning stages, (2) a Metric Projector that delegates classification from the language model allowing for more efficient training and inference, (3) a multi-modal large language model (MM-LLM) for emotional reasoning, and (4) a semi-automated framework for bias detection. TinyEmo is able to perform emotion classification and emotional reasoning, all while using substantially fewer parameters than comparable models. This efficiency allows us to freely incorporate more diverse emotional datasets, enabling strong performance on classification tasks, with our smallest model (700M parameters) outperforming larger state-of-the-art models based on general-purpose MM-LLMs with over 7B parameters. Additionally, the Metric Projector allows for interpretability and indirect bias detection in large models without additional training, offering an approach to understand and improve AI systems. We release code, models, and dataset at https://github.com/ggcr/TinyEmo
翻訳日:2024-10-31 22:47:07 公開日:2024-10-25
# OpenAIのo1-previewモデルにおけるシステム2思考:数学試験におけるほぼ完璧な性能

System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam ( http://arxiv.org/abs/2410.07114v1 )

ライセンス: Link先を確認
Joost de Winter, Dimitra Dodou, Yke Bauke Eisma, (参考訳) 人間の認知の根底にあるプロセスは、しばしば2つのシステムに分けられる: システム1は、速く直感的な思考を伴い、システム2は、ゆっくりと、意図的な推論を行う。 以前は、システム2のより深く、より分析的な能力が欠如しているとして、大きな言語モデルが批判されていた。 2024年9月、OpenAIはシステム2のような推論を扱うために特別に設計されたO1モデルシリーズを導入した。 OpenAIのベンチマークは有望だが、独立した検証が必要である。 本研究では,オランダの'Mathematics B'最終試験において,O1-previewモデルを2回試験した。 76点中76点、73点に近かった。 オランダの学生16,414人中24人が完璧に得点した。 一方、GPT-4oはオランダ平均の40.63点を大きく上回る76点中66点と61点を記録した。 O1-プレビューモデルは10分で試験を完了し、GPT-4oは3分で、どちらのモデルも試験結果にアクセスできなかった。 O1-previewは完璧なスコアを達成する能力を持っていたが、その性能は、繰り返しのプロンプトで時折間違いを犯したため、若干のばらつきを示した。 これは、コンセンサス出力が選択された自己整合性手法が精度を向上させることを示唆している。 OpenAIの新しいモデルシリーズは大きな可能性を秘めているが、あるリスクを考慮する必要があると結論付けている。

The processes underlying human cognition are often divided into two systems: System 1, which involves fast, intuitive thinking, and System 2, which involves slow, deliberate reasoning. Previously, large language models were criticized for lacking the deeper, more analytical capabilities of System 2. In September 2024, OpenAI introduced the O1 model series, specifically designed to handle System 2-like reasoning. While OpenAI's benchmarks are promising, independent validation is still needed. In this study, we tested the O1-preview model twice on the Dutch 'Mathematics B' final exam. It scored a near-perfect 76 and 73 out of 76 points. For context, only 24 out of 16,414 students in the Netherlands achieved a perfect score. By comparison, the GPT-4o model scored 66 and 61 out of 76, well above the Dutch average of 40.63 points. The O1-preview model completed the exam in around 10 minutes, while GPT-4o took 3 minutes, and neither model had access to the exam figures. Although O1-preview had the ability to achieve a perfect score, its performance showed some variability, as it made occasional mistakes with repeated prompting. This suggests that the self-consistency method, where the consensus output is selected, could improve accuracy. We conclude that while OpenAI's new model series holds great potential, certain risks must be considered.
翻訳日:2024-10-31 22:17:22 公開日:2024-10-25
# OpenAIのo1-previewモデルにおけるシステム2思考:数学試験におけるほぼ完璧な性能

System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam ( http://arxiv.org/abs/2410.07114v2 )

ライセンス: Link先を確認
Joost de Winter, Dimitra Dodou, Yke Bauke Eisma, (参考訳) 人間の認知の基礎となるプロセスは、しばしば、高速で直感的な思考を含むシステム1と、ゆっくりで意図的な推論を含むシステム2に分けられる。 以前は、システム2のより深く、より分析的な能力が欠如しているとして、大きな言語モデルが批判されていた。 2024年9月、OpenAIはシステム2のような推論を扱うために設計されたo1モデルシリーズを導入した。 OpenAIのベンチマークは有望だが、独立した検証が必要である。 本研究では,オランダの'数学B'最終試験において,o1-previewモデルを2回試験した。 76点中76点、74点に近かった。 オランダの学生16,414人中24人が完璧に得点した。 一方、GPT-4oはオランダ平均の40.63点を大きく上回る76点中66点と62点を記録した。 どちらのモデルも試験結果にアクセスできなかった。 モデル汚染のリスク (o1-preview と GPT-4o の知識遮断はオンライン公開後に発生した) のため, カットオフ日後に発表された新しい数学 B 試験でこの手順を繰り返した。 結果は再び、o1-previewが強く(97.8パーセント)、汚染は要因ではないことを示している。 また、o1-previewの出力にばらつきがあることが示され、これは時々'luck'(答えが正しい)や'bad luck'(出力が正しくないものに分岐した)が存在することを意味する。 繰り返しプロンプトが与えられ、最も一般的な解答が選択される自己整合アプローチが、正しい解答を特定する上で有用な戦略であることを実証する。 OpenAIの新しいモデルシリーズは大きな可能性を秘めているが、あるリスクを考慮する必要があると結論付けている。

The processes underlying human cognition are often divided into System 1, which involves fast, intuitive thinking, and System 2, which involves slow, deliberate reasoning. Previously, large language models were criticized for lacking the deeper, more analytical capabilities of System 2. In September 2024, OpenAI introduced the o1 model series, designed to handle System 2-like reasoning. While OpenAI's benchmarks are promising, independent validation is still needed. In this study, we tested the o1-preview model twice on the Dutch 'Mathematics B' final exam. It scored a near-perfect 76 and 74 out of 76 points. For context, only 24 out of 16,414 students in the Netherlands achieved a perfect score. By comparison, the GPT-4o model scored 66 and 62 out of 76, well above the Dutch average of 40.63 points. Neither model had access to the exam figures. Since there was a risk of model contamination (i.e., the knowledge cutoff of o1-preview and GPT-4o was after the exam was published online), we repeated the procedure with a new Mathematics B exam that was published after the cutoff date. The results again indicated that o1-preview performed strongly (97.8th percentile), which suggests that contamination was not a factor. We also show that there is some variability in the output of o1-preview, which means that sometimes there is 'luck' (the answer is correct) or 'bad luck' (the output has diverged into something that is incorrect). We demonstrate that a self-consistency approach, where repeated prompts are given and the most common answer is selected, is a useful strategy for identifying the correct answer. It is concluded that while OpenAI's new model series holds great potential, certain risks must be considered.
翻訳日:2024-10-31 22:17:22 公開日:2024-10-25
# OpenAIのo1-previewモデルにおけるシステム2思考:数学試験におけるほぼ完璧な性能

System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam ( http://arxiv.org/abs/2410.07114v3 )

ライセンス: Link先を確認
Joost de Winter, Dimitra Dodou, Yke Bauke Eisma, (参考訳) 人間の認知の基礎となるプロセスは、しばしば、高速で直感的な思考を含むシステム1と、ゆっくりで意図的な推論を含むシステム2に分けられる。 以前は、システム2のより深く、より分析的な能力が欠如しているとして、大きな言語モデルが批判されていた。 2024年9月、OpenAIはシステム2のような推論を扱うために設計されたo1モデルシリーズを導入した。 OpenAIのベンチマークは有望だが、独立した検証が必要である。 本研究では,オランダの'数学B'最終試験において,o1-previewモデルを2回試験した。 76点中76点、74点に近かった。 オランダの学生16,414人中24人が完璧に得点した。 一方、GPT-4oはオランダ平均の40.63点を大きく上回る76点中66点と62点を記録した。 どちらのモデルも試験結果にアクセスできなかった。 モデル汚染のリスク (o1-preview と GPT-4o の知識遮断はオンライン公開後に発生した) のため, カットオフ日後に発表された新しい数学 B 試験でこの手順を繰り返した。 結果は再び、o1-previewが強く(97.8パーセント)、汚染は要因ではないことを示している。 また、o1-previewの出力にばらつきがあることが示され、これは時々'luck'(答えが正しい)や'bad luck'(出力が正しくないものに分岐した)が存在することを意味する。 繰り返しプロンプトが与えられ、最も一般的な解答が選択される自己整合アプローチが、正しい解答を特定する上で有用な戦略であることを実証する。 OpenAIの新しいモデルシリーズは大きな可能性を秘めているが、あるリスクを考慮する必要があると結論付けている。

The processes underlying human cognition are often divided into System 1, which involves fast, intuitive thinking, and System 2, which involves slow, deliberate reasoning. Previously, large language models were criticized for lacking the deeper, more analytical capabilities of System 2. In September 2024, OpenAI introduced the o1 model series, designed to handle System 2-like reasoning. While OpenAI's benchmarks are promising, independent validation is still needed. In this study, we tested the o1-preview model twice on the Dutch 'Mathematics B' final exam. It scored a near-perfect 76 and 74 out of 76 points. For context, only 24 out of 16,414 students in the Netherlands achieved a perfect score. By comparison, the GPT-4o model scored 66 and 62 out of 76, well above the Dutch average of 40.63 points. Neither model had access to the exam figures. Since there was a risk of model contamination (i.e., the knowledge cutoff of o1-preview and GPT-4o was after the exam was published online), we repeated the procedure with a new Mathematics B exam that was published after the cutoff date. The results again indicated that o1-preview performed strongly (97.8th percentile), which suggests that contamination was not a factor. We also show that there is some variability in the output of o1-preview, which means that sometimes there is 'luck' (the answer is correct) or 'bad luck' (the output has diverged into something that is incorrect). We demonstrate that a self-consistency approach, where repeated prompts are given and the most common answer is selected, is a useful strategy for identifying the correct answer. It is concluded that while OpenAI's new model series holds great potential, certain risks must be considered.
翻訳日:2024-10-31 22:17:22 公開日:2024-10-25
# OpenAIのo1-previewモデルにおけるシステム2思考:数学試験におけるほぼ完璧な性能

System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam ( http://arxiv.org/abs/2410.07114v4 )

ライセンス: Link先を確認
Joost de Winter, Dimitra Dodou, Yke Bauke Eisma, (参考訳) 人間の認知の基礎となるプロセスは、しばしば、高速で直感的な思考を含むシステム1と、ゆっくりで意図的な推論を含むシステム2に分けられる。 以前は、システム2のより深く、より分析的な能力が欠如しているとして、大きな言語モデルが批判されていた。 2024年9月、OpenAIはシステム2のような推論を扱うために設計されたo1モデルシリーズを導入した。 OpenAIのベンチマークは有望だが、独立した検証が必要である。 本研究では,オランダの'数学B'最終試験において,o1-previewモデルを2回試験した。 76点中76点、74点に近かった。 オランダの学生16,414人中24人が完璧に得点した。 一方、GPT-4oモデルは76点中66点と62点を記録し、オランダの学生の平均40.63点を大きく上回った。 どちらのモデルも試験結果にアクセスできなかった。 模擬コンタミネーション(o1-preview と GPT-4o の知識遮断はオンライン公開後に行われた)のリスクがあるため,カットオフ日後に発表された新しい数学 B 試験で手順を繰り返した。 結果は再び、o1-previewが強く(97.8パーセント)、汚染は要因ではないことを示している。 また、o1-previewの出力にばらつきがあることが示され、これは時々'luck'(答えが正しい)や'bad luck'(出力が正しくないものに分岐した)が存在することを意味する。 繰り返しプロンプトが与えられ,最も一般的な解答が選択される自己整合性アプローチが,正しい解答を特定する上で有用な戦略であることを実証する。 OpenAIの新しいモデルシリーズは大きな可能性を秘めているが、あるリスクを考慮する必要があると結論付けている。

The processes underlying human cognition are often divided into System 1, which involves fast, intuitive thinking, and System 2, which involves slow, deliberate reasoning. Previously, large language models were criticized for lacking the deeper, more analytical capabilities of System 2. In September 2024, OpenAI introduced the o1 model series, designed to handle System 2-like reasoning. While OpenAI's benchmarks are promising, independent validation is still needed. In this study, we tested the o1-preview model twice on the Dutch 'Mathematics B' final exam. It scored a near-perfect 76 and 74 out of 76 points. For context, only 24 out of 16,414 students in the Netherlands achieved a perfect score. By comparison, the GPT-4o model scored 66 and 62 out of 76, well above the Dutch students' average of 40.63 points. Neither model had access to the exam figures. Since there was a risk of model contami-nation (i.e., the knowledge cutoff for o1-preview and GPT-4o was after the exam was published online), we repeated the procedure with a new Mathematics B exam that was published after the cutoff date. The results again indicated that o1-preview performed strongly (97.8th percentile), which suggests that contamination was not a factor. We also show that there is some variability in the output of o1-preview, which means that sometimes there is 'luck' (the answer is correct) or 'bad luck' (the output has diverged into something that is incorrect). We demonstrate that the self-consistency approach, where repeated prompts are given and the most common answer is selected, is a useful strategy for identifying the correct answer. It is concluded that while OpenAI's new model series holds great potential, certain risks must be considered.
翻訳日:2024-10-31 22:17:22 公開日:2024-10-25
# OpenAIのo1-previewモデルにおけるシステム2思考:数学試験におけるほぼ完璧な性能

System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam ( http://arxiv.org/abs/2410.07114v5 )

ライセンス: Link先を確認
Joost de Winter, Dimitra Dodou, Yke Bauke Eisma, (参考訳) 人間の認知の基礎となるプロセスは、しばしば、高速で直感的な思考を含むシステム1と、ゆっくりで意図的な推論を含むシステム2に分けられる。 以前は、システム2のより深く、より分析的な能力が欠如しているとして、大きな言語モデルが批判されていた。 2024年9月、OpenAIはシステム2のような推論を扱うために設計されたo1モデルシリーズを導入した。 OpenAIのベンチマークは有望だが、独立した検証が必要である。 本研究では,オランダの'数学B'最終試験において,o1-previewモデルを2回試験した。 76点中76点、74点に近かった。 オランダの学生16,414人中24人が完璧に得点した。 一方、GPT-4oモデルは76点中66点と62点を記録し、オランダの学生の平均40.63点を大きく上回った。 どちらのモデルも試験結果にアクセスできなかった。 模擬コンタミネーション(o1-preview と GPT-4o の知識遮断はオンライン公開後に行われた)のリスクがあるため,カットオフ日後に発表された新しい数学 B 試験で手順を繰り返した。 結果は再び、o1-previewが強く(97.8パーセント)、汚染は要因ではないことを示している。 また、o1-previewの出力にばらつきがあることが示され、これは時々'luck'(答えが正しい)や'bad luck'(出力が正しくないものに分岐した)が存在することを意味する。 繰り返しプロンプトが与えられ,最も一般的な解答が選択される自己整合性アプローチが,正しい解答を特定する上で有用な戦略であることを実証する。 OpenAIの新しいモデルシリーズは大きな可能性を秘めているが、あるリスクを考慮する必要があると結論付けている。

The processes underlying human cognition are often divided into System 1, which involves fast, intuitive thinking, and System 2, which involves slow, deliberate reasoning. Previously, large language models were criticized for lacking the deeper, more analytical capabilities of System 2. In September 2024, OpenAI introduced the o1 model series, designed to handle System 2-like reasoning. While OpenAI's benchmarks are promising, independent validation is still needed. In this study, we tested the o1-preview model twice on the Dutch 'Mathematics B' final exam. It scored a near-perfect 76 and 74 out of 76 points. For context, only 24 out of 16,414 students in the Netherlands achieved a perfect score. By comparison, the GPT-4o model scored 66 and 62 out of 76, well above the Dutch students' average of 40.63 points. Neither model had access to the exam figures. Since there was a risk of model contami-nation (i.e., the knowledge cutoff for o1-preview and GPT-4o was after the exam was published online), we repeated the procedure with a new Mathematics B exam that was published after the cutoff date. The results again indicated that o1-preview performed strongly (97.8th percentile), which suggests that contamination was not a factor. We also show that there is some variability in the output of o1-preview, which means that sometimes there is 'luck' (the answer is correct) or 'bad luck' (the output has diverged into something that is incorrect). We demonstrate that the self-consistency approach, where repeated prompts are given and the most common answer is selected, is a useful strategy for identifying the correct answer. It is concluded that while OpenAI's new model series holds great potential, certain risks must be considered.
翻訳日:2024-10-31 22:17:22 公開日:2024-10-25
# OneRef: マスク参照モデリングによる一対一表現接地とセグメンテーション

OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling ( http://arxiv.org/abs/2410.08021v1 )

ライセンス: Link先を確認
Linhui Xiao, Xiaoshan Yang, Fang Peng, Yaowei Wang, Changsheng Xu, (参考訳) 視覚と言語を区別した符号化によって制約され、既存の接地と参照セグメンテーションは、バルクトランスフォーマーベースの融合エン/デコーダと様々な初期段階の相互作用技術に大きく依存している。 同時に、現在のマスク視覚言語モデリング(MVLM)は、参照タスクにおける画像テキスト間のニュアンスな参照関係を捉えない。 本稿では,視覚的特徴空間と言語的特徴空間を統一するモダリティ共有型ワントワー変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。 参照型マスク画像モデリングと参照型マスク言語モデリングの両方を含む新しいMVLMパラダイムであるMask Referring Modeling(MRefM)を導入する。 どちらのモジュールもモダリティ関連コンテンツだけでなく、クロスモーダル参照コンテンツも再構成する。 MRefM内では、固定比や一般的なランダムマスキング方式に頼るのではなく、参照型動的マスキング方式を提案する。 統合された視覚言語の特徴空間を活用し,MRefMの参照関係をモデル化する能力を取り入れることで,様々な複雑な手法を使わずに参照結果の直接回帰を可能にする。 提案手法は,既存の手法を一貫して超越し,基礎およびセグメンテーションタスクにおけるSoTA性能を実現し,今後の研究に有用な知見を提供する。 私たちのコードとモデルはhttps://github.com/linhuixiao/OneRef.comで公開されています。

Constrained by the separate encoding of vision and language, existing grounding and referring segmentation works heavily rely on bulky Transformer-based fusion en-/decoders and a variety of early-stage interaction technologies. Simultaneously, the current mask visual language modeling (MVLM) fails to capture the nuanced referential relationship between image-text in referring tasks. In this paper, we propose OneRef, a minimalist referring framework built on the modality-shared one-tower transformer that unifies the visual and linguistic feature spaces. To modeling the referential relationship, we introduce a novel MVLM paradigm called Mask Referring Modeling (MRefM), which encompasses both referring-aware mask image modeling and referring-aware mask language modeling. Both modules not only reconstruct modality-related content but also cross-modal referring content. Within MRefM, we propose a referring-aware dynamic image masking strategy that is aware of the referred region rather than relying on fixed ratios or generic random masking schemes. By leveraging the unified visual language feature space and incorporating MRefM's ability to model the referential relations, our approach enables direct regression of the referring results without resorting to various complex techniques. Our method consistently surpasses existing approaches and achieves SoTA performance on both grounding and segmentation tasks, providing valuable insights for future research. Our code and models are available at https://github.com/linhuixiao/OneRef.
翻訳日:2024-10-31 05:55:13 公開日:2024-10-25
# OneRef: マスク参照モデリングによる一対一表現接地とセグメンテーション

OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling ( http://arxiv.org/abs/2410.08021v2 )

ライセンス: Link先を確認
Linhui Xiao, Xiaoshan Yang, Fang Peng, Yaowei Wang, Changsheng Xu, (参考訳) 視覚と言語を区別した符号化によって制約され、既存の接地と参照セグメンテーションは、バルクトランスフォーマーベースの融合エン/デコーダと様々な初期段階の相互作用技術に大きく依存している。 同時に、現在のマスク視覚言語モデリング(MVLM)は、参照タスクにおける画像テキスト間のニュアンスな参照関係を捉えない。 本稿では,視覚的特徴空間と言語的特徴空間を統一するモダリティ共有型ワントワー変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。 参照型マスク画像モデリングと参照型マスク言語モデリングの両方を含む新しいMVLMパラダイムであるMask Referring Modeling(MRefM)を導入する。 どちらのモジュールもモダリティ関連コンテンツだけでなく、クロスモーダル参照コンテンツも再構成する。 MRefM内では、固定比や一般的なランダムマスキング方式に頼るのではなく、参照型動的マスキング方式を提案する。 統合された視覚言語の特徴空間を活用し,MRefMの参照関係をモデル化する能力を取り入れることで,様々な複雑な手法を使わずに参照結果の直接回帰を可能にする。 提案手法は,既存の手法を一貫して超越し,基礎およびセグメンテーションタスクにおけるSoTA性能を実現し,今後の研究に有用な知見を提供する。 私たちのコードとモデルはhttps://github.com/linhuixiao/OneRef.comで公開されています。

Constrained by the separate encoding of vision and language, existing grounding and referring segmentation works heavily rely on bulky Transformer-based fusion en-/decoders and a variety of early-stage interaction technologies. Simultaneously, the current mask visual language modeling (MVLM) fails to capture the nuanced referential relationship between image-text in referring tasks. In this paper, we propose OneRef, a minimalist referring framework built on the modality-shared one-tower transformer that unifies the visual and linguistic feature spaces. To modeling the referential relationship, we introduce a novel MVLM paradigm called Mask Referring Modeling (MRefM), which encompasses both referring-aware mask image modeling and referring-aware mask language modeling. Both modules not only reconstruct modality-related content but also cross-modal referring content. Within MRefM, we propose a referring-aware dynamic image masking strategy that is aware of the referred region rather than relying on fixed ratios or generic random masking schemes. By leveraging the unified visual language feature space and incorporating MRefM's ability to model the referential relations, our approach enables direct regression of the referring results without resorting to various complex techniques. Our method consistently surpasses existing approaches and achieves SoTA performance on both grounding and segmentation tasks, providing valuable insights for future research. Our code and models are available at https://github.com/linhuixiao/OneRef.
翻訳日:2024-10-31 05:55:13 公開日:2024-10-25
# 表型データに対する分布的ロバストな自己教師付き学習

Distributionally robust self-supervised learning for tabular data ( http://arxiv.org/abs/2410.08511v1 )

ライセンス: Link先を確認
Shantanu Ghosh, Tiankang Xie, Mikhail Kuznetsov, (参考訳) 経験的リスク最小化(ERM)を使用してトレーニングされた機械学習(ML)モデルは、しばしばエラースライスとして知られる表データの特定のサブポピュレーションに関する体系的なエラーを示す。 エラースライスの存在下での堅牢な表現の学習は、特に、高濃度の特徴とエラーセットの構築の複雑さのために、特徴再構成フェーズにおける自己教師付き設定において困難である。 従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点を合わせており、表データに適したアプローチのギャップを残している。 このギャップに対処するために、自己教師付き事前学習中の表形式のデータの堅牢な表現を学習するフレームワークを開発する。 提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。 本稿では,表データの事前学習フェーズにおいて Just Train Twice (JTT) と Deep Feature Reweighting (DFR) 法を適用した。 これらの手法は、エラーが発生しやすいサンプルをアップウェイトしたり、特定のカテゴリの特徴のためのバランスの取れたデータセットを作成することで、ERM事前訓練モデルを微調整する。 この結果、各機能に特化したモデルが作成され、その後、下流の分類性能を高めるためにアンサンブルアプローチで使用される。 この手法によりスライス間の堅牢性が向上し、全体的な一般化性能が向上する。 様々なデータセットにわたる大規模な実験は、我々のアプローチの有効性を実証する。

Machine learning (ML) models trained using Empirical Risk Minimization (ERM) often exhibit systematic errors on specific subpopulations of tabular data, known as error slices. Learning robust representation in presence of error slices is challenging, especially in self-supervised settings during the feature reconstruction phase, due to high cardinality features and the complexity of constructing error sets. Traditional robust representation learning methods are largely focused on improving worst group performance in supervised setting in computer vision, leaving a gap in approaches tailored for tabular data. We address this gap by developing a framework to learn robust representation in tabular data during self-supervised pre-training. Our approach utilizes an encoder-decoder model trained with Masked Language Modeling (MLM) loss to learn robust latent representations. This paper applies the Just Train Twice (JTT) and Deep Feature Reweighting (DFR) methods during the pre-training phase for tabular data. These methods fine-tune the ERM pre-trained model by up-weighting error-prone samples or creating balanced datasets for specific categorical features. This results in specialized models for each feature, which are then used in an ensemble approach to enhance downstream classification performance. This methodology improves robustness across slices, thus enhancing overall generalization performance. Extensive experiments across various datasets demonstrate the efficacy of our approach.
翻訳日:2024-10-30 23:34:54 公開日:2024-10-25
# 表型データに対する分布的ロバストな自己教師付き学習

Distributionally robust self-supervised learning for tabular data ( http://arxiv.org/abs/2410.08511v2 )

ライセンス: Link先を確認
Shantanu Ghosh, Tiankang Xie, Mikhail Kuznetsov, (参考訳) 経験的リスク最小化(ERM)を使用してトレーニングされた機械学習(ML)モデルは、しばしばエラースライスとして知られる表データの特定のサブポピュレーションに関する体系的なエラーを示す。 エラースライスの存在下での堅牢な表現の学習は、特に、高濃度の特徴とエラーセットの構築の複雑さのために、特徴再構成フェーズにおける自己教師付き設定において困難である。 従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点を合わせており、表データに適したアプローチのギャップを残している。 このギャップに対処するために、自己教師付き事前学習中の表形式のデータの堅牢な表現を学習するフレームワークを開発する。 提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。 本稿では,表データの事前学習フェーズにおいて Just Train Twice (JTT) と Deep Feature Reweighting (DFR) 法を適用した。 これらの手法は、エラーが発生しやすいサンプルをアップウェイトしたり、特定のカテゴリの特徴のためのバランスの取れたデータセットを作成することで、ERM事前訓練モデルを微調整する。 この結果、各機能に特化したモデルが作成され、その後、下流の分類性能を高めるためにアンサンブルアプローチで使用される。 この手法によりスライス間の堅牢性が向上し、全体的な一般化性能が向上する。 様々なデータセットにわたる大規模な実験は、我々のアプローチの有効性を実証する。 コードは以下の通りである。 \url{https://github.com/amazon-science/distributionally-robust-self-supervised-learning-for-tabular-data}。

Machine learning (ML) models trained using Empirical Risk Minimization (ERM) often exhibit systematic errors on specific subpopulations of tabular data, known as error slices. Learning robust representation in presence of error slices is challenging, especially in self-supervised settings during the feature reconstruction phase, due to high cardinality features and the complexity of constructing error sets. Traditional robust representation learning methods are largely focused on improving worst group performance in supervised setting in computer vision, leaving a gap in approaches tailored for tabular data. We address this gap by developing a framework to learn robust representation in tabular data during self-supervised pre-training. Our approach utilizes an encoder-decoder model trained with Masked Language Modeling (MLM) loss to learn robust latent representations. This paper applies the Just Train Twice (JTT) and Deep Feature Reweighting (DFR) methods during the pre-training phase for tabular data. These methods fine-tune the ERM pre-trained model by up-weighting error-prone samples or creating balanced datasets for specific categorical features. This results in specialized models for each feature, which are then used in an ensemble approach to enhance downstream classification performance. This methodology improves robustness across slices, thus enhancing overall generalization performance. Extensive experiments across various datasets demonstrate the efficacy of our approach. The code is available: \url{https://github.com/amazon-science/distributionally-robust-self-supervised-learning-for-tabular-data}.
翻訳日:2024-10-30 23:24:45 公開日:2024-10-25
# StructRAG:推論時ハイブリッド情報構造化によるLLMの知識集中推論

StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization ( http://arxiv.org/abs/2410.08815v1 )

ライセンス: Link先を確認
Zhuoqun Li, Xuanang Chen, Haiyang Yu, Hongyu Lin, Yaojie Lu, Qiaoyu Tang, Fei Huang, Xianpei Han, Le Sun, Yongbin Li, (参考訳) Retrieval-augmented Generation (RAG)は、多くの知識に基づくタスクにおいて、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。 しかし,既存のRAG手法は知識集約的推論タスクに苦慮している。 この特徴により、既存のRAG法では、キー情報を正確に識別し、そのようなノイズの増大を伴う大域的推論を行うのが困難になる。 本稿では,人間が知識集約的推論に取り組む際に,生情報を様々な構造化知識に変換するという認知理論を動機として,手作業に最適な構造タイプを識別し,元の文書をこの構造化形式に再構成し,得られた構造に基づいて回答を推測する新しい枠組みであるStructRAGを提案する。 様々な知識集約的なタスクにわたる大規模な実験により、StructRAGは最先端のパフォーマンス、特に挑戦的なシナリオに優れており、複雑な現実世界のアプリケーションにおいてLLMを強化する効果的なソリューションとしての可能性を示している。

Retrieval-augmented generation (RAG) is a key means to effectively enhance large language models (LLMs) in many knowledge-based tasks. However, existing RAG methods struggle with knowledge-intensive reasoning tasks, because useful information required to these tasks are badly scattered. This characteristic makes it difficult for existing RAG methods to accurately identify key information and perform global reasoning with such noisy augmentation. In this paper, motivated by the cognitive theories that humans convert raw information into various structured knowledge when tackling knowledge-intensive reasoning, we proposes a new framework, StructRAG, which can identify the optimal structure type for the task at hand, reconstruct original documents into this structured format, and infer answers based on the resulting structure. Extensive experiments across various knowledge-intensive tasks show that StructRAG achieves state-of-the-art performance, particularly excelling in challenging scenarios, demonstrating its potential as an effective solution for enhancing LLMs in complex real-world applications.
翻訳日:2024-10-30 21:55:57 公開日:2024-10-25
# StructRAG:推論時ハイブリッド情報構造化によるLLMの知識集中推論

StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization ( http://arxiv.org/abs/2410.08815v2 )

ライセンス: Link先を確認
Zhuoqun Li, Xuanang Chen, Haiyang Yu, Hongyu Lin, Yaojie Lu, Qiaoyu Tang, Fei Huang, Xianpei Han, Le Sun, Yongbin Li, (参考訳) Retrieval-augmented Generation (RAG)は、多くの知識に基づくタスクにおいて、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。 しかし,既存のRAG手法は知識集約的推論タスクに苦慮している。 この特徴により、既存のRAG法では、キー情報を正確に識別し、そのようなノイズの増大を伴う大域的推論を行うのが困難になる。 本稿では,人間が知識集約的推論に取り組む際に,生情報を様々な構造化知識に変換するという認知理論を動機として,手作業に最適な構造タイプを識別し,元の文書をこの構造化形式に再構成し,得られた構造に基づいて回答を推測する新しい枠組みであるStructRAGを提案する。 様々な知識集約的なタスクにわたる大規模な実験により、StructRAGは最先端のパフォーマンス、特に挑戦的なシナリオに優れており、複雑な現実世界のアプリケーションにおいてLLMを強化する効果的なソリューションとしての可能性を示している。

Retrieval-augmented generation (RAG) is a key means to effectively enhance large language models (LLMs) in many knowledge-based tasks. However, existing RAG methods struggle with knowledge-intensive reasoning tasks, because useful information required to these tasks are badly scattered. This characteristic makes it difficult for existing RAG methods to accurately identify key information and perform global reasoning with such noisy augmentation. In this paper, motivated by the cognitive theories that humans convert raw information into various structured knowledge when tackling knowledge-intensive reasoning, we proposes a new framework, StructRAG, which can identify the optimal structure type for the task at hand, reconstruct original documents into this structured format, and infer answers based on the resulting structure. Extensive experiments across various knowledge-intensive tasks show that StructRAG achieves state-of-the-art performance, particularly excelling in challenging scenarios, demonstrating its potential as an effective solution for enhancing LLMs in complex real-world applications.
翻訳日:2024-10-30 21:55:57 公開日:2024-10-25
# LLM生成プログレッシブ関数によるリワードの自動生成

Automated Rewards via LLM-Generated Progress Functions ( http://arxiv.org/abs/2410.09187v1 )

ライセンス: Link先を確認
Vishnu Sarukkai, Brennan Shacklett, Zander Majercik, Kush Bhatia, Christopher Ré, Kayvon Fatahalian, (参考訳) 大きな言語モデル(LLM)は、様々なタスクにまたがる広いドメイン知識を活用することで、報酬工学を自動化する可能性がある。 しかし、効果的な報酬関数を生成するために、しばしば試行錯誤の繰り返しが必要である。 このプロセスは、サンプリングされたすべての報酬関数を評価するには、各関数の完全なポリシー最適化プロセスを完成させる必要があるため、コストがかかる。 本稿では,従来の最先端技術よりも,By-DexHandsベンチマークであるtextbf{with 20$\times$ less reward function sample}に対して,最先端のポリシーを作成可能なLCM駆動報酬生成フレームワークを提案する。 我々の重要な洞察は、タスク固有の報酬を生成する問題を減らすことである。 我々の2段階のソリューションは、タスクドメインの知識とLLMのコード合成能力を活用して、与えられた状態からタスクの進捗を推定する著者 \emph{progress function} を作ります。 そして、この進歩の概念を用いて状態を離散化し、低次元状態空間を用いてカウントベースの固有報酬を生成する。 LLM生成進行関数とカウントベース固有報酬の組み合わせはパフォーマンス向上に不可欠であり,ジェネリックハッシュベースのカウントや直接報酬関数としてプログレスを利用する代替手段は不足している。

Large Language Models (LLMs) have the potential to automate reward engineering by leveraging their broad domain knowledge across various tasks. However, they often need many iterations of trial-and-error to generate effective reward functions. This process is costly because evaluating every sampled reward function requires completing the full policy optimization process for each function. In this paper, we introduce an LLM-driven reward generation framework that is able to produce state-of-the-art policies on the challenging Bi-DexHands benchmark \textbf{with 20$\times$ fewer reward function samples} than the prior state-of-the-art work. Our key insight is that we reduce the problem of generating task-specific rewards to the problem of coarsely estimating \emph{task progress}. Our two-step solution leverages the task domain knowledge and the code synthesis abilities of LLMs to author \emph{progress functions} that estimate task progress from a given state. Then, we use this notion of progress to discretize states, and generate count-based intrinsic rewards using the low-dimensional state space. We show that the combination of LLM-generated progress functions and count-based intrinsic rewards is essential for our performance gains, while alternatives such as generic hash-based counts or using progress directly as a reward function fall short.
翻訳日:2024-10-30 15:53:25 公開日:2024-10-25
# LLM生成プログレッシブ関数によるリワードの自動生成

Automated Rewards via LLM-Generated Progress Functions ( http://arxiv.org/abs/2410.09187v2 )

ライセンス: Link先を確認
Vishnu Sarukkai, Brennan Shacklett, Zander Majercik, Kush Bhatia, Christopher Ré, Kayvon Fatahalian, (参考訳) 大きな言語モデル(LLM)は、様々なタスクにまたがる広いドメイン知識を活用することで、報酬工学を自動化する可能性がある。 しかし、効果的な報酬関数を生成するために、しばしば試行錯誤の繰り返しが必要である。 このプロセスは、サンプリングされたすべての報酬関数を評価するには、各関数の完全なポリシー最適化プロセスを完成させる必要があるため、コストがかかる。 本稿では、従来の最先端技術よりも20倍少ない報酬関数サンプルを用いて、挑戦的Bi-DexHandsベンチマークの最先端ポリシーを作成可能なLLM駆動報酬生成フレームワークを提案する。 我々の重要な洞察は、タスクの進捗を粗末に見積もる問題に対して、タスク固有の報酬を生成する問題を減らすことである。 我々の2段階のソリューションは、タスクドメインの知識とLLMのコード合成能力を利用して、与えられた状態からタスクの進捗を推定するプログレス関数を作成できる。 そして、この進歩の概念を用いて状態を離散化し、低次元状態空間を用いてカウントベースの固有報酬を生成する。 LLM生成進行関数とカウントベース固有報酬の組み合わせはパフォーマンス向上に不可欠であり,ジェネリックハッシュベースのカウントや直接報酬関数としてプログレスを利用する代替手段は不足している。

Large Language Models (LLMs) have the potential to automate reward engineering by leveraging their broad domain knowledge across various tasks. However, they often need many iterations of trial-and-error to generate effective reward functions. This process is costly because evaluating every sampled reward function requires completing the full policy optimization process for each function. In this paper, we introduce an LLM-driven reward generation framework that is able to produce state-of-the-art policies on the challenging Bi-DexHands benchmark with 20x fewer reward function samples than the prior state-of-the-art work. Our key insight is that we reduce the problem of generating task-specific rewards to the problem of coarsely estimating task progress. Our two-step solution leverages the task domain knowledge and the code synthesis abilities of LLMs to author progress functions that estimate task progress from a given state. Then, we use this notion of progress to discretize states, and generate count-based intrinsic rewards using the low-dimensional state space. We show that the combination of LLM-generated progress functions and count-based intrinsic rewards is essential for our performance gains, while alternatives such as generic hash-based counts or using progress directly as a reward function fall short.
翻訳日:2024-10-30 15:53:25 公開日:2024-10-25
# ドメイン認識選択適応による先進的な一般医用画像分割

Few Exemplar-Based General Medical Image Segmentation via Domain-Aware Selective Adaptation ( http://arxiv.org/abs/2410.09254v1 )

ライセンス: Link先を確認
Chen Xu, Qiming Huang, Yuqi Hou, Jiangxing Wu, Fan Zhang, Hyung Jin Chang, Jianbo Jiao, (参考訳) 医療画像のセグメンテーションは、特に低所得国や中所得国(LMIC)において、ドメインのギャップ、データモダリティの変化、ドメインの知識や専門家への依存による課題を引き起こす。 人間には、いくつかの例(ラベル付き)があるが、拡張型ドメイン固有の臨床訓練をすることなく、異なる医療画像を分割することができる。 さらに、現在のSAMベースの医療セグメンテーションモデルでは、手動で注釈付けされたターゲットセグメンテーションマスクから生成される境界矩形など、テストフェーズ中にバウンディングボックス(bbox)プロンプトとして、きめ細かい視覚プロンプトを使用する。 しかし、実際の臨床シナリオでは、そのような正確な事前知識は得られない。 また, 実験結果から, 従来のモデルでは, 粗いbboxのプロンプトの予測に失敗しそうにないことが明らかとなった。 本稿では、これらの課題を踏まえ、自然画像で訓練された大規模モデルから学習した一般知識を対応する医療領域・モダリティに適応させるための、ドメイン対応選択的適応アプローチを提案する。 本手法は, 上記の制限を緩和し, LMICsに親しみやすいソリューションを提供する。 本手法の有効性を概説し, 医療診断の進歩と LMIC の臨床応用について検討した。

Medical image segmentation poses challenges due to domain gaps, data modality variations, and dependency on domain knowledge or experts, especially for low- and middle-income countries (LMICs). Whereas for humans, given a few exemplars (with corresponding labels), we are able to segment different medical images even without exten-sive domain-specific clinical training. In addition, current SAM-based medical segmentation models use fine-grained visual prompts, such as the bounding rectangle generated from manually annotated target segmentation mask, as the bounding box (bbox) prompt during the testing phase. However, in actual clinical scenarios, no such precise prior knowledge is available. Our experimental results also reveal that previous models nearly fail to predict when given coarser bbox prompts. Considering these issues, in this paper, we introduce a domain-aware selective adaptation approach to adapt the general knowledge learned from a large model trained with natural images to the corresponding medical domains/modalities, with access to only a few (e.g. less than 5) exemplars. Our method mitigates the aforementioned limitations, providing an efficient and LMICs-friendly solution. Extensive experimental analysis showcases the effectiveness of our approach, offering potential advancements in healthcare diagnostics and clinical applications in LMICs.
翻訳日:2024-10-30 15:33:30 公開日:2024-10-25
# ドメイン認識選択適応による先進的な一般医用画像分割

Few Exemplar-Based General Medical Image Segmentation via Domain-Aware Selective Adaptation ( http://arxiv.org/abs/2410.09254v2 )

ライセンス: Link先を確認
Chen Xu, Qiming Huang, Yuqi Hou, Jiangxing Wu, Fan Zhang, Hyung Jin Chang, Jianbo Jiao, (参考訳) 医療画像のセグメンテーションは、特に低所得国や中所得国(LMIC)において、ドメインのギャップ、データモダリティの変化、ドメインの知識や専門家への依存による課題を引き起こす。 人間には、いくつかの例(ラベル付き)があるが、拡張型ドメイン固有の臨床訓練をすることなく、異なる医療画像を分割することができる。 さらに、現在のSAMベースの医療セグメンテーションモデルでは、手動で注釈付けされたターゲットセグメンテーションマスクから生成される境界矩形など、テストフェーズ中にバウンディングボックス(bbox)プロンプトとして、きめ細かい視覚プロンプトを使用する。 しかし、実際の臨床シナリオでは、そのような正確な事前知識は得られない。 また, 実験結果から, 従来のモデルでは, 粗いbboxのプロンプトの予測に失敗しそうにないことが明らかとなった。 本稿では、これらの課題を踏まえ、自然画像で訓練された大規模モデルから学習した一般知識を対応する医療領域・モダリティに適応させるための、ドメイン対応選択的適応アプローチを提案する。 本手法は, 上記の制限を緩和し, LMICsに親しみやすいソリューションを提供する。 本手法の有効性を概説し, 医療診断の進歩と LMIC の臨床応用について検討した。

Medical image segmentation poses challenges due to domain gaps, data modality variations, and dependency on domain knowledge or experts, especially for low- and middle-income countries (LMICs). Whereas for humans, given a few exemplars (with corresponding labels), we are able to segment different medical images even without exten-sive domain-specific clinical training. In addition, current SAM-based medical segmentation models use fine-grained visual prompts, such as the bounding rectangle generated from manually annotated target segmentation mask, as the bounding box (bbox) prompt during the testing phase. However, in actual clinical scenarios, no such precise prior knowledge is available. Our experimental results also reveal that previous models nearly fail to predict when given coarser bbox prompts. Considering these issues, in this paper, we introduce a domain-aware selective adaptation approach to adapt the general knowledge learned from a large model trained with natural images to the corresponding medical domains/modalities, with access to only a few (e.g. less than 5) exemplars. Our method mitigates the aforementioned limitations, providing an efficient and LMICs-friendly solution. Extensive experimental analysis showcases the effectiveness of our approach, offering potential advancements in healthcare diagnostics and clinical applications in LMICs.
翻訳日:2024-10-30 15:33:30 公開日:2024-10-25
# ReLUの復活: 正規化自由大言語モデルにおけるエントロピー過負荷について

ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models ( http://arxiv.org/abs/2410.09637v1 )

ライセンス: Link先を確認
Nandan Kumar Jha, Brandon Reagen, (参考訳) LayerNormは、トレーニングの安定化とスムーズな最適化を保証するため、現代の大規模言語モデル(LLM)において重要なコンポーネントである。 しかし、機械的解釈可能性、外乱特性抑制、忠実な信号伝達、およびプライベート推論の計算と通信の複雑さにおいて大きな課題が持ち込まれている。 本研究は、正規化自由デコーダのみのLLMにおける望ましいアクティベーション関数について検討する。 変換器モデルにおけるGELUの従来の嗜好とは対照的に、我々の実証的な結果は、ReLUがレイヤーノームフリーモデルにおいてGELUを著しく上回っていることを示す。 GELUでは,初期層がエントロピックオーバーロードを経験し,アテンションヘッドの表現能力の過小評価に繋がる重要な問題を発見した。 これは、GELUのようなスムーズなアクティベーションがLayerNormのないアーキテクチャに不適であるのに対して、ReLUの幾何学的性質(入力空間の特殊化とクラス内選択性)がLayerNormがない場合の学習ダイナミクスの改善と情報保持の改善につながっていることを強調している。 この研究は、LayerNormが大きな課題をもたらすトランスフォーマーアーキテクチャを最適化するための重要な洞察を提供する。

LayerNorm is a critical component in modern large language models (LLMs) for stabilizing training and ensuring smooth optimization. However, it introduces significant challenges in mechanistic interpretability, outlier feature suppression, faithful signal propagation, and computational and communication complexity of private inference. This work explores desirable activation functions in normalization-free decoder-only LLMs. Contrary to the conventional preference for the GELU in transformer-based models, our empirical findings demonstrate an {\em opposite trend} -- ReLU significantly outperforms GELU in LayerNorm-free models, leading to an {\bf 8.2\%} perplexity improvement. We discover a key issue with GELU, where early layers experience entropic overload, leading to the under-utilization of the representational capacity of attention heads. This highlights that smoother activations like GELU are {\em ill-suited} for LayerNorm-free architectures, whereas ReLU's geometrical properties -- specialization in input space and intra-class selectivity -- lead to improved learning dynamics and better information retention in the absence of LayerNorm. This study offers key insights for optimizing transformer architectures where LayerNorm introduces significant challenges.
翻訳日:2024-10-30 09:06:07 公開日:2024-10-25
# ReLUの復活: 正規化自由大言語モデルにおけるエントロピー過負荷について

ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models ( http://arxiv.org/abs/2410.09637v2 )

ライセンス: Link先を確認
Nandan Kumar Jha, Brandon Reagen, (参考訳) LayerNormは、トレーニングの安定化とスムーズな最適化を保証するため、現代の大規模言語モデル(LLM)において重要なコンポーネントである。 しかし、機械的解釈可能性、外乱特性抑制、忠実な信号伝達、およびプライベート推論の計算と通信の複雑さにおいて大きな課題が持ち込まれている。 本研究は、正規化自由デコーダのみのLLMにおける望ましいアクティベーション関数について検討する。 変換器モデルにおけるGELUの従来の嗜好とは対照的に、我々の実証的な結果は、ReLUがレイヤーノームフリーモデルにおいてGELUを著しく上回っていることを示す。 GELUでは,初期層がエントロピックオーバーロードを経験し,アテンションヘッドの表現能力の過小評価に繋がる重要な問題を発見した。 これは、GELUのようなスムーズなアクティベーションがLayerNormのないアーキテクチャに不適であるのに対して、ReLUの幾何学的性質(入力空間の特殊化とクラス内選択性)がLayerNormがない場合の学習ダイナミクスの改善と情報保持の改善につながっていることを強調している。 この研究は、LayerNormが大きな課題をもたらすトランスフォーマーアーキテクチャを最適化するための重要な洞察を提供する。

LayerNorm is a critical component in modern large language models (LLMs) for stabilizing training and ensuring smooth optimization. However, it introduces significant challenges in mechanistic interpretability, outlier feature suppression, faithful signal propagation, and computational and communication complexity of private inference. This work explores desirable activation functions in normalization-free decoder-only LLMs. Contrary to the conventional preference for the GELU in transformer-based models, our empirical findings demonstrate an {\em opposite trend} -- ReLU significantly outperforms GELU in LayerNorm-free models, leading to an {\bf 8.2\%} perplexity improvement. We discover a key issue with GELU, where early layers experience entropic overload, leading to the under-utilization of the representational capacity of attention heads. This highlights that smoother activations like GELU are {\em ill-suited} for LayerNorm-free architectures, whereas ReLU's geometrical properties -- specialization in input space and intra-class selectivity -- lead to improved learning dynamics and better information retention in the absence of LayerNorm. This study offers key insights for optimizing transformer architectures where LayerNorm introduces significant challenges.
翻訳日:2024-10-30 09:06:07 公開日:2024-10-25
# LoLCATs: 大規模言語モデルの低ランク線形化について

LoLCATs: On Low-Rank Linearizing of Large Language Models ( http://arxiv.org/abs/2410.10254v1 )

ライセンス: Link先を確認
Michael Zhang, Simran Arora, Rahul Chalamala, Alan Wu, Benjamin Spector, Aaryan Singhal, Krithik Ramesh, Christopher Ré, (参考訳) 最近の研究は、大きな言語モデル(LLM)を線形化できることを示している -- 人気のあるTransformerベースのLLMの二次的注意を、線形注意のような二次的アナログに置き換えることで、高価な事前学習コストを回避している。 しかし、LLMの線形化はモデルの品質を著しく低下させ、何十億ものトークンのトレーニングが必要であり、まだ1.3Bから7B LLMに制限されている。 そこで本研究では,LLMの線形化品質をメモリと計算の桁違いで向上する2段階法であるLoLCAT(Lo-rank Linear Conversion via Attention Transfer)を提案する。 これらのステップは2つの発見に基づいています。 まず,LLMのソフトマックスアテンションを線形アテンションと密接に近似することで,そのソフトマックスアテンションと出力MSEロス(アテンション転送)とを一致させるために線形アテンションをトレーニングする。 これにより、近似誤差の調整とLLM品質の回復を、ローランク適応(LoRA)で行うことができる。 LoLCATsは、線形化品質、トレーニング効率、スケーラビリティを大幅に改善する。 我々は,Llama 3 8B と Mistral 7B v0.1 から線形化品質ギャップを著しく減らし,最先端のサブクアッドラティック LLM を作製し,5ショット MMLU を 20 ポイント以上改善した。 さらに、LoLCATsは過去のメソッドのモデルパラメータの0.2%とトレーニングトークンの0.4%しかサポートしていない。 最後に,最初の線形化70Bおよび405B LLM(前処理より50倍大きい)を作成するために LoLCATs を適用した。 同じ計算予算の下で以前のアプローチと比較すると、LOLCATは線形化品質を著しく改善し、線形化されたLlama 3.1 70Bと405B LLMのギャップを5ショットMMLUで77.8%、78.1%削減した。

Recent works show we can linearize large language models (LLMs) -- swapping the quadratic attentions of popular Transformer-based LLMs with subquadratic analogs, such as linear attention -- avoiding the expensive pretraining costs. However, linearizing LLMs often significantly degrades model quality, still requires training over billions of tokens, and remains limited to smaller 1.3B to 7B LLMs. We thus propose Low-rank Linear Conversion via Attention Transfer (LoLCATs), a simple two-step method that improves LLM linearizing quality with orders of magnitudes less memory and compute. We base these steps on two findings. First, we can replace an LLM's softmax attentions with closely-approximating linear attentions, simply by training the linear attentions to match their softmax counterparts with an output MSE loss ("attention transfer"). Then, this enables adjusting for approximation errors and recovering LLM quality simply with low-rank adaptation (LoRA). LoLCATs significantly improves linearizing quality, training efficiency, and scalability. We significantly reduce the linearizing quality gap and produce state-of-the-art subquadratic LLMs from Llama 3 8B and Mistral 7B v0.1, leading to 20+ points of improvement on 5-shot MMLU. Furthermore, LoLCATs does so with only 0.2% of past methods' model parameters and 0.4% of their training tokens. Finally, we apply LoLCATs to create the first linearized 70B and 405B LLMs (50x larger than prior work). When compared with prior approaches under the same compute budgets, LoLCATs significantly improves linearizing quality, closing the gap between linearized and original Llama 3.1 70B and 405B LLMs by 77.8% and 78.1% on 5-shot MMLU.
翻訳日:2024-10-30 02:05:09 公開日:2024-10-25
# LoLCATs: 大規模言語モデルの低ランク線形化について

LoLCATs: On Low-Rank Linearizing of Large Language Models ( http://arxiv.org/abs/2410.10254v2 )

ライセンス: Link先を確認
Michael Zhang, Simran Arora, Rahul Chalamala, Alan Wu, Benjamin Spector, Aaryan Singhal, Krithik Ramesh, Christopher Ré, (参考訳) 最近の研究は、大きな言語モデル(LLM)を線形化できることを示している -- 人気のあるTransformerベースのLLMの二次的注意を、線形注意のような二次的アナログに置き換えることで、高価な事前学習コストを回避している。 しかし、LLMの線形化はモデルの品質を著しく低下させ、何十億ものトークンのトレーニングが必要であり、まだ1.3Bから7B LLMに制限されている。 そこで本研究では,LLMの線形化品質をメモリと計算の桁違いで向上する2段階法であるLoLCAT(Lo-rank Linear Conversion via Attention Transfer)を提案する。 これらのステップは2つの発見に基づいています。 まず,LLMのソフトマックスアテンションを線形アテンションと密接に近似することで,そのソフトマックスアテンションと出力MSEロス(アテンション転送)とを一致させるために線形アテンションをトレーニングする。 これにより、近似誤差の調整とLLM品質の回復を、ローランク適応(LoRA)で行うことができる。 LoLCATsは、線形化品質、トレーニング効率、スケーラビリティを大幅に改善する。 我々は,Llama 3 8B と Mistral 7B v0.1 から線形化品質ギャップを著しく減らし,最先端のサブクアッドラティック LLM を作製し,5ショット MMLU を 20 ポイント以上改善した。 さらに、LoLCATsは過去のメソッドのモデルパラメータの0.2%とトレーニングトークンの0.4%しかサポートしていない。 最後に,最初の線形化70Bおよび405B LLM(前処理より50倍大きい)を作成するために LoLCATs を適用した。 同じ計算予算の下で以前のアプローチと比較すると、LOLCATは線形化品質を著しく改善し、線形化されたLlama 3.1 70Bと405B LLMのギャップを5ショットMMLUで77.8%、78.1%削減した。

Recent works show we can linearize large language models (LLMs) -- swapping the quadratic attentions of popular Transformer-based LLMs with subquadratic analogs, such as linear attention -- avoiding the expensive pretraining costs. However, linearizing LLMs often significantly degrades model quality, still requires training over billions of tokens, and remains limited to smaller 1.3B to 7B LLMs. We thus propose Low-rank Linear Conversion via Attention Transfer (LoLCATs), a simple two-step method that improves LLM linearizing quality with orders of magnitudes less memory and compute. We base these steps on two findings. First, we can replace an LLM's softmax attentions with closely-approximating linear attentions, simply by training the linear attentions to match their softmax counterparts with an output MSE loss ("attention transfer"). Then, this enables adjusting for approximation errors and recovering LLM quality simply with low-rank adaptation (LoRA). LoLCATs significantly improves linearizing quality, training efficiency, and scalability. We significantly reduce the linearizing quality gap and produce state-of-the-art subquadratic LLMs from Llama 3 8B and Mistral 7B v0.1, leading to 20+ points of improvement on 5-shot MMLU. Furthermore, LoLCATs does so with only 0.2% of past methods' model parameters and 0.4% of their training tokens. Finally, we apply LoLCATs to create the first linearized 70B and 405B LLMs (50x larger than prior work). When compared with prior approaches under the same compute budgets, LoLCATs significantly improves linearizing quality, closing the gap between linearized and original Llama 3.1 70B and 405B LLMs by 77.8% and 78.1% on 5-shot MMLU.
翻訳日:2024-10-30 02:05:09 公開日:2024-10-25
# Tex4D:ビデオ拡散モデルによるゼロショット4Dシーンテクスチャ

Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models ( http://arxiv.org/abs/2410.10821v1 )

ライセンス: Link先を確認
Jingzhi Bao, Xueting Li, Ming-Hsuan Yang, (参考訳) 3Dメッシュはアニメーションや最小限のメモリ使用のためにコンピュータビジョンやグラフィックスで広く使われており、映画、ゲーム、AR、VRにおいて重要な役割を担っている。 しかし、メッシュシーケンスの時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。 一方、動画拡散モデルはテキスト駆動ビデオ生成において優れているが、3次元幾何学的認識が欠如し、3次元メッシュのマルチビュー一貫したテクスチャの達成に苦慮することが多い。 本研究では,メッシュ配列から固有の3次元幾何学的知識と映像拡散モデルの表現性を統合するゼロショットアプローチであるTex4Dを提案し,多視点・時間的に整合した4次元テクスチャを生成する。 入力として非テクスチャメッシュシーケンスとテキストプロンプトが与えられた場合、UV空間の潜在集約を通じて異なるビュー間で拡散過程を同期させることにより、マルチビューの一貫性を向上させる。 時間的一貫性を確保するために,テクスチャ合成のための条件付きビデオ生成モデルから事前知識を活用する。 しかし,ビデオ拡散モデルと紫外線テクスチャアグリゲーションを直接組み合わせることで,ぼやけた結果が得られる。 本研究の目的は,DDIMサンプリングプロセスの簡易かつ効果的な修正を提案し,その課題に対処することにある。 さらに,認知過程におけるフレーム間の相関を強化するために,参照潜在テクスチャを導入する。 我々の知る限り、Tex4Dは4Dシーンのテクスチャに特化して設計された最初の方法である。 拡張実験は、無テクスチャメッシュシーケンスに基づくマルチビューおよびマルチフレーム一貫したビデオの生成において、その優位性を実証している。

3D meshes are widely used in computer vision and graphics for their efficiency in animation and minimal memory use, playing a crucial role in movies, games, AR, and VR. However, creating temporally consistent and realistic textures for mesh sequences remains labor-intensive for professional artists. On the other hand, while video diffusion models excel at text-driven video generation, they often lack 3D geometry awareness and struggle with achieving multi-view consistent texturing for 3D meshes. In this work, we present Tex4D, a zero-shot approach that integrates inherent 3D geometry knowledge from mesh sequences with the expressiveness of video diffusion models to produce multi-view and temporally consistent 4D textures. Given an untextured mesh sequence and a text prompt as inputs, our method enhances multi-view consistency by synchronizing the diffusion process across different views through latent aggregation in the UV space. To ensure temporal consistency, we leverage prior knowledge from a conditional video generation model for texture synthesis. However, straightforwardly combining the video diffusion model and the UV texture aggregation leads to blurry results. We analyze the underlying causes and propose a simple yet effective modification to the DDIM sampling process to address this issue. Additionally, we introduce a reference latent texture to strengthen the correlation between frames during the denoising process. To the best of our knowledge, Tex4D is the first method specifically designed for 4D scene texturing. Extensive experiments demonstrate its superiority in producing multi-view and multi-frame consistent videos based on untextured mesh sequences.
翻訳日:2024-10-29 19:24:58 公開日:2024-10-25
# Tex4D:ビデオ拡散モデルによるゼロショット4Dシーンテクスチャ

Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models ( http://arxiv.org/abs/2410.10821v2 )

ライセンス: Link先を確認
Jingzhi Bao, Xueting Li, Ming-Hsuan Yang, (参考訳) 3Dメッシュはアニメーションや最小限のメモリ使用のためにコンピュータビジョンやグラフィックスで広く使われており、映画、ゲーム、AR、VRにおいて重要な役割を担っている。 しかし、メッシュシーケンスの時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。 一方、動画拡散モデルはテキスト駆動ビデオ生成において優れているが、3次元幾何学的認識が欠如し、3次元メッシュのマルチビュー一貫したテクスチャの達成に苦慮することが多い。 本研究では,メッシュ配列から固有の3次元幾何学的知識と映像拡散モデルの表現性を統合するゼロショットアプローチであるTex4Dを提案し,多視点・時間的に整合した4次元テクスチャを生成する。 入力として非テクスチャメッシュシーケンスとテキストプロンプトが与えられた場合、UV空間の潜在集約を通じて異なるビュー間で拡散過程を同期させることにより、マルチビューの一貫性を向上させる。 時間的一貫性を確保するために,テクスチャ合成のための条件付きビデオ生成モデルから事前知識を活用する。 しかし,ビデオ拡散モデルと紫外線テクスチャアグリゲーションを直接組み合わせることで,ぼやけた結果が得られる。 本研究の目的は,DDIMサンプリングプロセスの簡易かつ効果的な修正を提案し,その課題に対処することにある。 さらに,認知過程におけるフレーム間の相関を強化するために,参照潜在テクスチャを導入する。 我々の知る限り、Tex4Dは4Dシーンのテクスチャに特化して設計された最初の方法である。 拡張実験は、無テクスチャメッシュシーケンスに基づくマルチビューおよびマルチフレーム一貫したビデオの生成において、その優位性を実証している。

3D meshes are widely used in computer vision and graphics for their efficiency in animation and minimal memory use, playing a crucial role in movies, games, AR, and VR. However, creating temporally consistent and realistic textures for mesh sequences remains labor-intensive for professional artists. On the other hand, while video diffusion models excel at text-driven video generation, they often lack 3D geometry awareness and struggle with achieving multi-view consistent texturing for 3D meshes. In this work, we present Tex4D, a zero-shot approach that integrates inherent 3D geometry knowledge from mesh sequences with the expressiveness of video diffusion models to produce multi-view and temporally consistent 4D textures. Given an untextured mesh sequence and a text prompt as inputs, our method enhances multi-view consistency by synchronizing the diffusion process across different views through latent aggregation in the UV space. To ensure temporal consistency, we leverage prior knowledge from a conditional video generation model for texture synthesis. However, straightforwardly combining the video diffusion model and the UV texture aggregation leads to blurry results. We analyze the underlying causes and propose a simple yet effective modification to the DDIM sampling process to address this issue. Additionally, we introduce a reference latent texture to strengthen the correlation between frames during the denoising process. To the best of our knowledge, Tex4D is the first method specifically designed for 4D scene texturing. Extensive experiments demonstrate its superiority in producing multi-view and multi-frame consistent videos based on untextured mesh sequences.
翻訳日:2024-10-29 19:24:58 公開日:2024-10-25