このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241031となっている論文です。

PDF登録状況(公開日: 20241031)

TitleAuthorsAbstract論文公表日・翻訳日
# 事前学習型言語モデルの基盤能力に及ぼすアーキテクチャの影響 : FFN-WiderとMoE変換器を事例として

How does Architecture Influence the Base Capabilities of Pre-trained Language Models? A Case Study Based on FFN-Wider and MoE Transformers ( http://arxiv.org/abs/2403.02436v2 )

ライセンス: Link先を確認
Xin Lu, Yanyan Zhao, Bing Qin, Liangyu Huo, Qing Yang, Dongliang Xu, (参考訳) 事前学習された言語モデルは、分散言語モデリングに優れるだけでなく、アウト・オブ・ディストリビューション言語モデリング、トランスファーラーニング、および少数ショット学習において強力な能力を示す強力な基盤能力を有することが証明されている。 基本能力に対するスケールの影響に焦点を当てた既存の作業とは異なり、アーキテクチャの影響について検討する。 アーキテクチャは、事前訓練された言語モデルのベース機能にどのように影響しますか? 本研究では,FFN-Wider変換器のアーキテクチャによる基本能力の低下を説明・逆転し,いくつかの洞察を求めている。 分析の結果,多面的注意(組み合わせ関数)と事前学習言語モデリングの寄与比が基本能力に影響を及ぼす重要な要因であることが判明した。 FFN-Wider変換器は、この組み合わせ関数の寄与比を減少させ、基礎能力の低下を招いた。 実験によりこれを確認し,これらのモデルの基本能力の低下に対処する統合拡張アーキテクチャ(CEA)を提案した。 重要なことに、私たちは説明とCEAをMixture of Experts (MoE) Transformersに拡張しました。 また,14BパラメータMOEモデルによる基礎能力の大幅な向上を実現し,本研究の実用的価値を実証した。 このことは、アーキテクチャ分析、アーキテクチャ改善、アーキテクチャ設計において、我々の分析が一定の重要性を持っていることを示している。

Pre-trained language models have been proven to possess strong base capabilities, which not only excel in in-distribution language modeling but also show powerful abilities in out-of-distribution language modeling, transfer learning and few-shot learning. Unlike existing work focusing on the influence of scale on base capabilities, our work examines the influence of architecture on those. Specifically, our concern is: How does architecture influence the base capabilities of pre-trained language models? In this work, we attempt to explain and reverse the decline in base capabilities caused by the architecture of FFN-Wider Transformers, seeking to provide some insights. Through analysis, we found the contribution ratio of Multi-Head Attention (a combination function) to pre-trained language modeling is a key factor affecting base capabilities. FFN-Wider Transformers reduce the contribution ratio of this combination function, leading to a decline in base capabilities. We confirmed this by experiments and proposed Combination Enhanced Architecture (CEA) to address the decline in base capabilities of such models. Significantly, we extended our explanation and CEA to Mixture of Experts (MoE) Transformers. We successfully achieved significant improvements in base capabilities on a 14B parameter MoE model, demonstrating the practical application value of our work. This also indicates that our analysis has a certain guiding significance for architecture analysis, architecture improvement and architecture design.
翻訳日:2024-11-09 04:21:34 公開日:2024-10-31
# 複数制約構成による複合命令のベンチマーク

Benchmarking Complex Instruction-Following with Multiple Constraints Composition ( http://arxiv.org/abs/2407.03978v3 )

ライセンス: Link先を確認
Bosi Wen, Pei Ke, Xiaotao Gu, Lindong Wu, Hao Huang, Jinfeng Zhou, Wenchuang Li, Binxin Hu, Wendy Gao, Jiaxin Xu, Yiming Liu, Jie Tang, Hongning Wang, Minlie Huang, (参考訳) 以下の命令は、大規模言語モデル(LLM)の基本機能のひとつです。 LLMの能力は常に改善されているため、現実のシナリオにおいて複雑なヒューマンインストラクションを扱うためにますます応用されている。 そのため,LLMの複雑な指示追従能力の評価方法が重要な研究課題となっている。 既存のベンチマークは主に、複雑な命令において必須の構成要素である異なる制約の構成を無視しながら、人間の命令で異なるタイプの制約をモデル化することに焦点を当てている。 この目的のために,複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するベンチマークである ComplexBench を提案する。 本研究では,4つの制約型,19個の制約次元,4つの構成型を含む複雑な命令に対する階層的な分類法を提案し,それに従って高品質なデータセットを手作業で収集する。 評価を信頼性のあるものにするため、LLMに基づく評価器をルールで強化し、生成されたテキストがそれぞれの制約や構成を満たすことができるかどうかを効果的に検証する。 さらに,異なる構成型によって決定される依存性構造に基づいて,最終的な評価スコアを得る。 ComplexBenchは、複数の制約構成を持つ複雑な命令を扱う際に、既存のLLMの重大な欠陥を特定する。

Instruction following is one of the fundamental capabilities of large language models (LLMs). As the ability of LLMs is constantly improving, they have been increasingly applied to deal with complex human instructions in real-world scenarios. Therefore, how to evaluate the ability of complex instruction-following of LLMs has become a critical research problem. Existing benchmarks mainly focus on modeling different types of constraints in human instructions while neglecting the composition of different constraints, which is an indispensable constituent in complex instructions. To this end, we propose ComplexBench, a benchmark for comprehensively evaluating the ability of LLMs to follow complex instructions composed of multiple constraints. We propose a hierarchical taxonomy for complex instructions, including 4 constraint types, 19 constraint dimensions, and 4 composition types, and manually collect a high-quality dataset accordingly. To make the evaluation reliable, we augment LLM-based evaluators with rules to effectively verify whether generated texts can satisfy each constraint and composition. Furthermore, we obtain the final evaluation score based on the dependency structure determined by different composition types. ComplexBench identifies significant deficiencies in existing LLMs when dealing with complex instructions with multiple constraints composition.
翻訳日:2024-11-08 23:57:53 公開日:2024-10-31
# デフォルトによる改善: タブラルデータ上での強い事前調整されたMLPとブーストツリー

Better by Default: Strong Pre-Tuned MLPs and Boosted Trees on Tabular Data ( http://arxiv.org/abs/2407.04491v2 )

ライセンス: Link先を確認
David Holzmüller, Léo Grinsztajn, Ingo Steinwart, (参考訳) 表形式のデータに対する分類と回帰に関して、勾配型決定木(GBDT)の優位性は、広範にハイパーパラメーターをチューニングしたより遅い深層学習手法によって最近問題視されている。 私たちはこの不一致に対処する。 (a)RealMLP、改良された多層パーセプトロン(MLP)および b) GBDTとRealMLPの強力なメタチューニングデフォルトパラメータ。 118のデータセットでRealMLPとデフォルトパラメータを調整し、90のデータセットで分離されたメタテストベンチマークのハイパーパラメータ最適化バージョンと、Grinsztajn氏らによるGBDTフレンドリなベンチマーク(2022年)を比較します。 中~大規模グラフデータセット(1K-500Kサンプル)のベンチマーク結果は、RealMLPが他の神経ベースラインと比較して良好な時間精度のトレードオフを提供し、ベンチマークスコアの点でGBDTと競合していることを示している。 さらに、RealMLPとGBDTを組み合わせることで、ハイパーパラメータチューニングなしで優れた結果が得られる。 最後に、RealMLPの改善によってデフォルトパラメータでTabRのパフォーマンスが大幅に向上することを示す。

For classification and regression on tabular data, the dominance of gradient-boosted decision trees (GBDTs) has recently been challenged by often much slower deep learning methods with extensive hyperparameter tuning. We address this discrepancy by introducing (a) RealMLP, an improved multilayer perceptron (MLP), and (b) strong meta-tuned default parameters for GBDTs and RealMLP. We tune RealMLP and the default parameters on a meta-train benchmark with 118 datasets and compare them to hyperparameter-optimized versions on a disjoint meta-test benchmark with 90 datasets, as well as the GBDT-friendly benchmark by Grinsztajn et al. (2022). Our benchmark results on medium-to-large tabular datasets (1K--500K samples) show that RealMLP offers a favorable time-accuracy tradeoff compared to other neural baselines and is competitive with GBDTs in terms of benchmark scores. Moreover, a combination of RealMLP and GBDTs with improved default parameters can achieve excellent results without hyperparameter tuning. Finally, we demonstrate that some of RealMLP's improvements can also considerably improve the performance of TabR with default parameters.
翻訳日:2024-11-08 23:46:45 公開日:2024-10-31
# ジェニーワークシートを用いた信頼性の高いLCMベース統合タスクと知識エージェントのコーディング

Coding Reliable LLM-based Integrated Task and Knowledge Agents with GenieWorksheets ( http://arxiv.org/abs/2407.05674v2 )

ライセンス: Link先を確認
Harshit Joshi, Shicheng Liu, James Chen, Robert Weigle, Monica S. Lam, (参考訳) 大きな言語モデル(LLM)は、ユーザが複雑なタスクをナビゲートするのに役立つ自動アシスタントを作成する機会を提供する。 しかし、既存のアプローチは条件論理の扱い、知識源の統合、命令の継続に制限がある。 研究者や業界の専門家は、しばしば会話エージェントを構築するためにアドホックパイプラインを使用している。 これらのパイプラインは、コンテキストを維持し、障害ケースに対処し、幻覚を最小限にすることを目的としている。 この目的のために、複雑なユーザインタラクションと知識クエリを扱うように設計されたタスク指向の対話エージェントを作成するためのプログラム可能なフレームワークGenieを提案する。 LLMとは異なり、Genieは、表現力のある仕様であるGenie Worksheetを通じて、制御可能なエージェントポリシーを備えた信頼できる基底応答を提供する。 ダイアログツリーとは対照的に、多様なユーザクエリに耐性があり、知識ソースに役立ち、宣言的パラダイムによるプログラミングポリシーの容易さを提供する。 Genieを使用して構築されたエージェントは、STARV2データセットの複雑なロジックドメインの最先端メソッドを最大20.5%向上させる。 さらに,62名の参加者を対象とする実ユーザ調査を通じて,Genieは実世界の3つのドメインにおいて,それぞれ実行精度,対話行動精度,目標達成率を21.1%,20.1%,61%でGPT-4を破った。

Large Language Models (LLMs) present an opportunity to create automated assistants that can help users navigate complex tasks. However, existing approaches have limitations in handling conditional logic, integrating knowledge sources, and consistently following instructions. Researchers and industry professionals often employ ad hoc pipelines to construct conversational agents. These pipelines aim to maintain context, address failure cases, and minimize hallucinations, yet frequently fail to achieve these objectives. To this end, we present Genie - a programmable framework for creating task-oriented conversational agents that are designed to handle complex user interactions and knowledge queries. Unlike LLMs, Genie provides reliable grounded responses, with controllable agent policies through its expressive specification, Genie Worksheet. In contrast to dialog trees, it is resilient to diverse user queries, helpful with knowledge sources, and offers ease of programming policies through its declarative paradigm. The agents built using Genie outperforms the state-of-the-art method on complex logic domains in STARV2 dataset by up to 20.5%. Additionally, through a real-user study involving 62 participants, we show that Genie beats the GPT-4 with function calling baseline by 21.1%, 20.1%, and 61% on execution accuracy, dialogue act accuracy, and goal completion rate, respectively, on three diverse real-world domains
翻訳日:2024-11-08 23:24:33 公開日:2024-10-31
# 視覚言語モデルにおける多目的幻覚

Multi-Object Hallucination in Vision-Language Models ( http://arxiv.org/abs/2407.06192v2 )

ライセンス: Link先を確認
Xuweiyi Chen, Ziqiao Ma, Xuejun Zhang, Sihan Xu, Shengyi Qian, Jianing Yang, David F. Fouhey, Joyce Chai, (参考訳) 大型視覚言語モデル(LVLM)は、しばしばオブジェクト幻覚に悩まされ、与えられた画像に存在しないオブジェクトを生成する。 オブジェクト幻覚に関する現在のベンチマークは、主に個々のエンティティではなく、単一のオブジェクトクラスの存在に焦点を当てているが、この研究は、複数のオブジェクトを同時にフォーカスするタスクにおいて、モデルがどのように誤認識(例えば、存在しないオブジェクトを発明したり、注意をそらす)するかを、体系的に調査する。 本稿では,テスト中の単一画像内のオブジェクトクラスの分布を考慮した自動評価プロトコルである認識ベースオブジェクト探索評価(ROPE)を導入し,視覚的参照プロンプトを用いて曖昧さを解消する。 総合的な実証研究と多目的幻覚に繋がる潜在的な要因の分析により,(1)。 LVLMは、単一のオブジェクトと比較して複数のオブジェクトに焦点を合わせると、より幻覚に悩まされる。 (2)。 テスト対象のクラス分布は幻覚行動に影響を及ぼし、LVLMはショートカットや刺激的な相関に従う可能性があることを示す。 (3)。 幻覚行動は、データ固有の要因、サリエンスと周波数、および本質的な行動のモデルによって影響される。 LVLMが現実的な視覚シーンでしばしば発生する複数のオブジェクトを認識し、推論し、洞察を提供し、問題を緩和するための進捗状況を定量化できるようにしたいと考えています。

Large vision language models (LVLMs) often suffer from object hallucination, producing objects not present in the given images. While current benchmarks for object hallucination primarily concentrate on the presence of a single object class rather than individual entities, this work systematically investigates multi-object hallucination, examining how models misperceive (e.g., invent nonexistent objects or become distracted) when tasked with focusing on multiple objects simultaneously. We introduce Recognition-based Object Probing Evaluation (ROPE), an automated evaluation protocol that considers the distribution of object classes within a single image during testing and uses visual referring prompts to eliminate ambiguity. With comprehensive empirical studies and analysis of potential factors leading to multi-object hallucination, we found that (1). LVLMs suffer more hallucinations when focusing on multiple objects compared to a single object. (2). The tested object class distribution affects hallucination behaviors, indicating that LVLMs may follow shortcuts and spurious correlations. (3). Hallucinatory behaviors are influenced by data-specific factors, salience and frequency, and model intrinsic behaviors. We hope to enable LVLMs to recognize and reason about multiple objects that often occur in realistic visual scenes, provide insights, and quantify our progress towards mitigating the issues.
翻訳日:2024-11-08 23:13:33 公開日:2024-10-31
# 野生ガウシ人:野生で3Dガウシ人

WildGaussians: 3D Gaussian Splatting in the Wild ( http://arxiv.org/abs/2407.08447v2 )

ライセンス: Link先を確認
Jonas Kulhanek, Songyou Peng, Zuzana Kukelova, Marc Pollefeys, Torsten Sattler, (参考訳) 3次元シーン再構成の分野は、その光リアリスティックな品質のためにNeRFに支配されているが、3Dガウススプラッティング(3DGS)が最近登場し、リアルタイムレンダリング速度に類似した品質を提供している。 しかし、両手法は、主によく制御された3Dシーンで優れており、その一方で、オクルージョン、ダイナミックオブジェクト、そして様々な照明によって特徴付けられる、Wild内のデータは、依然として困難なままである。 NeRFは画像ごとの埋め込みベクトルによって容易にそのような条件に適応できるが、3DGSはその明示的な表現と共有パラメータの欠如のために困難である。 これを解決するために,3DGSで閉塞や外観変化を処理する新しいアプローチであるWildGaussiansを紹介した。 頑健なDINO機能を活用して3DGSに外観モデリングモジュールを組み込むことにより,本手法は最先端の結果を得る。 我々はWildGaussianが3DGSとNeRFのベースラインを越えながら3DGSのリアルタイムレンダリング速度にマッチすることを示した。

While the field of 3D scene reconstruction is dominated by NeRFs due to their photorealistic quality, 3D Gaussian Splatting (3DGS) has recently emerged, offering similar quality with real-time rendering speeds. However, both methods primarily excel with well-controlled 3D scenes, while in-the-wild data - characterized by occlusions, dynamic objects, and varying illumination - remains challenging. NeRFs can adapt to such conditions easily through per-image embedding vectors, but 3DGS struggles due to its explicit representation and lack of shared parameters. To address this, we introduce WildGaussians, a novel approach to handle occlusions and appearance changes with 3DGS. By leveraging robust DINO features and integrating an appearance modeling module within 3DGS, our method achieves state-of-the-art results. We demonstrate that WildGaussians matches the real-time rendering speed of 3DGS while surpassing both 3DGS and NeRF baselines in handling in-the-wild data, all within a simple architectural framework.
翻訳日:2024-11-08 22:29:08 公開日:2024-10-31
# 検索における多群比例表現

Multi-Group Proportional Representation in Retrieval ( http://arxiv.org/abs/2407.08571v2 )

ライセンス: Link先を確認
Alex Oesterling, Claudio Mayrink Verdun, Carol Xuan Long, Alexander Glynn, Lucas Monteiro Paes, Sajani Vithana, Martina Cardone, Flavio P. Calmon, (参考訳) 画像検索と検索タスクは有害なステレオタイプを永続し、文化的アイデンティティを消去し、社会的格差を増幅する。 これらの表現的害を軽減するための現在のアプローチは、少数の(しばしば二進的な)属性によって定義される集団間で取得されたアイテムの数をバランスさせる。 しかし、既存のほとんどの手法は、性別、人種、民族といったグループ属性の組み合わせによって決定される交叉群を見落としている。 交差するグループ間の表現を測定する新しい指標であるMPR(Multi-Group Proportional Representation)を導入する。 我々は,MPRを推定し,理論的保証を提供し,検索においてMPRを確実にするための最適化アルゴリズムを提案する。 MPRの促進に失敗する可能性があることを示す。 重要なこととして、我々の研究は、MPRの最適化がリッチ関数クラスによって指定された複数の交叉群に対してより比例表現をもたらすことを示す。

Image search and retrieval tasks can perpetuate harmful stereotypes, erase cultural identities, and amplify social disparities. Current approaches to mitigate these representational harms balance the number of retrieved items across population groups defined by a small number of (often binary) attributes. However, most existing methods overlook intersectional groups determined by combinations of group attributes, such as gender, race, and ethnicity. We introduce Multi-Group Proportional Representation (MPR), a novel metric that measures representation across intersectional groups. We develop practical methods for estimating MPR, provide theoretical guarantees, and propose optimization algorithms to ensure MPR in retrieval. We demonstrate that existing methods optimizing for equal and proportional representation metrics may fail to promote MPR. Crucially, our work shows that optimizing MPR yields more proportional representation across multiple intersectional groups specified by a rich function class, often with minimal compromise in retrieval accuracy.
翻訳日:2024-11-08 22:17:54 公開日:2024-10-31
# カオス量子イジング鎖における測定誘起絡み合い遷移

Measurement-induced entanglement transition in chaotic quantum Ising chain ( http://arxiv.org/abs/2407.08703v2 )

ライセンス: Link先を確認
Manali Malakar, Marlon Brenes, Dvira Segal, Alessandro Silva, (参考訳) 観測された量子イジングモデルにおける測定誘起相転移の様々な摂動に対するロバスト性について,非エルミートハミルトニアンにより記述された非線形極限において数値的に検討する。 本研究では,モデルの可積分性や対称性を損なう摂動および測定プロトコルの変更について検討し,その結果として生じるカオスと解離スペクトル形成因子(DSFF)による可積分性の欠如を特徴付ける。 測定誘起相転移とその性質は、$\mathbb{Z_2}$対称性の積分性の欠如や破壊に大きく敏感であるように見えるが、逆から長手方向への測定ベースの変更により、相転移は完全に消滅する。

We numerically investigate the robustness against various perturbations of measurement-induced phase transition in monitored quantum Ising models in the no-click limit, where the dynamics is described by a non-Hermitian Hamiltonian. We study perturbations that break the integrability and/or the symmetry of the model, as well as modifications in the measurement protocol, characterizing the resulting chaos and lack of integrability through the Dissipative Spectral Form Factor (DSFF). We show that while the measurement-induced phase transition and its properties appear to be broadly insensitive to lack of integrability and breaking of the $\mathbb{Z_2}$ symmetry, a modification of the measurement basis from the transverse to the longitudinal direction makes the phase transition disappear altogether.
翻訳日:2024-11-08 22:17:54 公開日:2024-10-31
# PARE-Net:ロバストポイントクラウド登録のための位置対応ローテーション等価ネットワーク

PARE-Net: Position-Aware Rotation-Equivariant Networks for Robust Point Cloud Registration ( http://arxiv.org/abs/2407.10142v2 )

ライセンス: Link先を確認
Runzhao Yao, Shaoyi Du, Wenting Cui, Canhui Tang, Chengwu Yang, (参考訳) 回転不変の特徴を学習することは、ポイントクラウド登録の基本的な要件である。 既存の手法では、回転に敏感なネットワークを用いて特徴を抽出し、回転拡大を用いて近似不変写像を無作為に学習する。 これにより、ネットワークは回転に脆弱になり、オーバーウェイトになり、特徴の独特さを妨げる。 これらの問題に対処するために、我々は、効率的で軽量でロバストな登録のための、位置対応の回転同変ネットワークを提案する。 このネットワークは、回転同変/不変の特徴を学習するために強力なモデル帰納バイアスを与えることができ、上記の制限に対処することができる。 そこで本研究では,局所構造の空間情報をよりよく学習できる位置認識型畳み込みを提案する。 また,特徴に基づく仮説提案手法を提案する。 微粒な構造配向を符号化する回転同変特性を活用して、信頼性の高いモデル仮説を生成する。 各対応は仮説を生成できるため、複数の信頼できる対応を必要とする古典的推定器よりも効率的である。 これにより、データ劣化に対する回転同変特性のロバスト性を高めるために、対照的な回転損失が提示される。 室内および屋外のデータセットに対する大規模な実験により,本手法は軽量かつ高速な登録リコールにおいて,SOTA法を著しく上回っていることが示された。 さらに、回転データセットの実験は、回転変動に対するロバスト性を示す。 コードはhttps://github.com/yaorz97/PARENetで入手できる。

Learning rotation-invariant distinctive features is a fundamental requirement for point cloud registration. Existing methods often use rotation-sensitive networks to extract features, while employing rotation augmentation to learn an approximate invariant mapping rudely. This makes networks fragile to rotations, overweight, and hinders the distinctiveness of features. To tackle these problems, we propose a novel position-aware rotation-equivariant network, for efficient, light-weighted, and robust registration. The network can provide a strong model inductive bias to learn rotation-equivariant/invariant features, thus addressing the aforementioned limitations. To further improve the distinctiveness of descriptors, we propose a position-aware convolution, which can better learn spatial information of local structures. Moreover, we also propose a feature-based hypothesis proposer. It leverages rotation-equivariant features that encode fine-grained structure orientations to generate reliable model hypotheses. Each correspondence can generate a hypothesis, thus it is more efficient than classic estimators that require multiple reliable correspondences. Accordingly, a contrastive rotation loss is presented to enhance the robustness of rotation-equivariant features against data degradation. Extensive experiments on indoor and outdoor datasets demonstrate that our method significantly outperforms the SOTA methods in terms of registration recall while being lightweight and keeping a fast speed. Moreover, experiments on rotated datasets demonstrate its robustness against rotation variations. Code is available at https://github.com/yaorz97/PARENet.
翻訳日:2024-11-08 21:43:45 公開日:2024-10-31
# PARE-Net:ロバストポイントクラウド登録のための位置対応ローテーション等価ネットワーク

PARE-Net: Position-Aware Rotation-Equivariant Networks for Robust Point Cloud Registration ( http://arxiv.org/abs/2407.10142v3 )

ライセンス: Link先を確認
Runzhao Yao, Shaoyi Du, Wenting Cui, Canhui Tang, Chengwu Yang, (参考訳) 回転不変の特徴を学習することは、ポイントクラウド登録の基本的な要件である。 既存の手法では、回転に敏感なネットワークを用いて特徴を抽出し、回転拡大を用いて近似不変写像を無作為に学習する。 これにより、ネットワークは回転に脆弱になり、オーバーウェイトになり、特徴の独特さを妨げる。 これらの問題に対処するために、我々は、効率的で軽量でロバストな登録のための、位置対応の回転同変ネットワークを提案する。 このネットワークは、回転同変/不変の特徴を学習するために強力なモデル帰納バイアスを与えることができ、上記の制限に対処することができる。 そこで本研究では,局所構造の空間情報をよりよく学習できる位置認識型畳み込みを提案する。 また,特徴に基づく仮説提案手法を提案する。 微粒な構造配向を符号化する回転同変特性を活用して、信頼性の高いモデル仮説を生成する。 各対応は仮説を生成できるため、複数の信頼できる対応を必要とする古典的推定器よりも効率的である。 これにより、データ劣化に対する回転同変特性のロバスト性を高めるために、対照的な回転損失が提示される。 室内および屋外のデータセットに対する大規模な実験により,本手法は軽量かつ高速な登録リコールにおいて,SOTA法を著しく上回っていることが示された。 さらに、回転データセットの実験は、回転変動に対するロバスト性を示す。 コードはhttps://github.com/yaorz97/PARENetで入手できる。

Learning rotation-invariant distinctive features is a fundamental requirement for point cloud registration. Existing methods often use rotation-sensitive networks to extract features, while employing rotation augmentation to learn an approximate invariant mapping rudely. This makes networks fragile to rotations, overweight, and hinders the distinctiveness of features. To tackle these problems, we propose a novel position-aware rotation-equivariant network, for efficient, light-weighted, and robust registration. The network can provide a strong model inductive bias to learn rotation-equivariant/invariant features, thus addressing the aforementioned limitations. To further improve the distinctiveness of descriptors, we propose a position-aware convolution, which can better learn spatial information of local structures. Moreover, we also propose a feature-based hypothesis proposer. It leverages rotation-equivariant features that encode fine-grained structure orientations to generate reliable model hypotheses. Each correspondence can generate a hypothesis, thus it is more efficient than classic estimators that require multiple reliable correspondences. Accordingly, a contrastive rotation loss is presented to enhance the robustness of rotation-equivariant features against data degradation. Extensive experiments on indoor and outdoor datasets demonstrate that our method significantly outperforms the SOTA methods in terms of registration recall while being lightweight and keeping a fast speed. Moreover, experiments on rotated datasets demonstrate its robustness against rotation variations. Code is available at https://github.com/yaorz97/PARENet.
翻訳日:2024-11-08 21:43:45 公開日:2024-10-31
# 画像生成のための光拡散モデル

Optical Diffusion Models for Image Generation ( http://arxiv.org/abs/2407.10897v2 )

ライセンス: Link先を確認
Ilker Oguz, Niyazi Ulas Dinc, Mustafa Yildirim, Junjie Ke, Innfarn Yoo, Qifei Wang, Feng Yang, Christophe Moser, Demetri Psaltis, (参考訳) 拡散モデルは、初期供給されたランダム分布から徐々にノイズを減らし、新しいサンプルを生成する。 この推論手順は一般に、トレーニングされたニューラルネットワークを何度も使用して最終的な出力を取得し、GPUのようなデジタル電子ハードウェア上で大きなレイテンシとエネルギー消費を生み出す。 本研究では,半透明媒質を透過する光ビームの伝搬をプログラムし,画像サンプルにデノナイズ拡散モデルを実装することを実証する。 このフレームワークは、受動回折光学層を通してノイズの多い画像パターンを投影し、予測された雑音項のみを画像中に送信する。 オンライントレーニングアプローチでトレーニングされた光学透明層は、システムの分析モデルにエラーをバックプロパゲートして受動的に処理し、異なる段階の認知処理を行う。 これにより、光情報処理の帯域幅とエネルギー効率の恩恵を受け、最小消費電力で高速な画像生成が可能となる。

Diffusion models generate new samples by progressively decreasing the noise from the initially provided random distribution. This inference procedure generally utilizes a trained neural network numerous times to obtain the final output, creating significant latency and energy consumption on digital electronic hardware such as GPUs. In this study, we demonstrate that the propagation of a light beam through a semi-transparent medium can be programmed to implement a denoising diffusion model on image samples. This framework projects noisy image patterns through passive diffractive optical layers, which collectively only transmit the predicted noise term in the image. The optical transparent layers, which are trained with an online training approach, backpropagating the error to the analytical model of the system, are passive and kept the same across different steps of denoising. Hence this method enables high-speed image generation with minimal power consumption, benefiting from the bandwidth and energy efficiency of optical information processing.
翻訳日:2024-11-08 21:32:38 公開日:2024-10-31
# 選好型強化学習による主観的テキスト・ツー・イメージ生成

Subject-driven Text-to-Image Generation via Preference-based Reinforcement Learning ( http://arxiv.org/abs/2407.12164v2 )

ライセンス: Link先を確認
Yanting Miao, William Loh, Suraj Kothawade, Pascal Poupart, Abdullah Rashwan, Yeqing Li, (参考訳) 近年,テキスト・ツー・イメージ生成モデルが注目され,テキスト・プロンプトから高品質な画像の合成が可能となった。 しかし、これらのモデルには、与えられた参照画像から特定の主題を生成する能力や、異なる条件下で新規な表現を合成する能力がないことが多い。 DreamBooth や Subject-driven Text-to-Image (SuTI) のような手法はこの分野で大きな進歩を遂げている。 しかし、どちらのアプローチも主に参照画像との類似性の向上に重点を置いており、しばしば効率的なトレーニングの必要性を見落とし、参照画像への過度な適合を避けるために高価なセットアップを必要としている。 本稿では,信頼度の高い報奨信号を提供する$\lambda$-Harmonic reward関数を提案する。 Bradley-Terry の選好モデルを組み合わせることで、$\lambda$-Harmonic reward関数は主観駆動生成タスクの選好ラベルも提供する。 本稿では,Reward Preference Optimization(RPO)を提案する。これはより簡単なセットアップ(DreamBoothが使用する負のサンプルのわずか$3\%)と,微調整のための勾配ステップの削減を実現する。 既存の方法とは異なり,本手法ではテキストエンコーダのトレーニングやテキスト埋め込みの最適化を必要とせず,U-Netコンポーネントのみを微調整することでテキストイメージアライメントを実現する。 経験的に、$\lambda$-Harmonicは、主観駆動生成タスクにおけるモデル選択の信頼性の高いアプローチであることが証明されている。 このアルゴリズムは、好みラベルと$\lambda$-Harmonic reward関数の早期停止検証に基づいて、最先端のCLIP-Iスコア0.833、DreamBenchのCLIP-Tスコア0.314を達成する。

Text-to-image generative models have recently attracted considerable interest, enabling the synthesis of high-quality images from textual prompts. However, these models often lack the capability to generate specific subjects from given reference images or to synthesize novel renditions under varying conditions. Methods like DreamBooth and Subject-driven Text-to-Image (SuTI) have made significant progress in this area. Yet, both approaches primarily focus on enhancing similarity to reference images and require expensive setups, often overlooking the need for efficient training and avoiding overfitting to the reference images. In this work, we present the $\lambda$-Harmonic reward function, which provides a reliable reward signal and enables early stopping for faster training and effective regularization. By combining the Bradley-Terry preference model, the $\lambda$-Harmonic reward function also provides preference labels for subject-driven generation tasks. We propose Reward Preference Optimization (RPO), which offers a simpler setup (requiring only $3\%$ of the negative samples used by DreamBooth) and fewer gradient steps for fine-tuning. Unlike most existing methods, our approach does not require training a text encoder or optimizing text embeddings and achieves text-image alignment by fine-tuning only the U-Net component. Empirically, $\lambda$-Harmonic proves to be a reliable approach for model selection in subject-driven generation tasks. Based on preference labels and early stopping validation from the $\lambda$-Harmonic reward function, our algorithm achieves a state-of-the-art CLIP-I score of 0.833 and a CLIP-T score of 0.314 on DreamBench.
翻訳日:2024-11-08 20:48:00 公開日:2024-10-31
# 物体検出のための階層的特徴再構成ネットワークによるイベントとフレームの受け入れ

Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection ( http://arxiv.org/abs/2407.12582v2 )

ライセンス: Link先を確認
Hu Cao, Zehua Zhang, Yan Xia, Xinyi Li, Jiahao Xia, Guang Chen, Alois Knoll, (参考訳) フレームベースの視覚では、従来のカメラのセンサー能力に制限があるため、オブジェクト検出は困難な条件下ではかなりの性能低下に直面している。 イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。 しかし、2つの不均一なモダリティを効果的に融合することは、未解決の問題である。 本研究では,イベントフレーム融合のための階層型特徴改善ネットワークを提案する。 中心となる概念は、相互適応機能改善モジュール(CAFR)と呼ばれる粗大な核融合モジュールの設計である。 初期段階では、双方向の相互モダリティ相互作用(BCI)部は、2つの異なるソースからの情報のブリッジを容易にする。 その後、チャネルレベルの平均値と2倍適応的特徴改善部(TAFR)のばらつきを整列させることにより、さらに特徴を洗練する。 低分解能PKU-DDD17-Carデータセットと高分解能DSECデータセットの2つのベンチマークで広範な実験を行った。 実験の結果,本手法はDSECデータセット上では$\textbf{8.0}\%の差で最先端の手法を上回ることがわかった。 さらに, フレーム画像に15種類の汚損タイプを導入すると, 高いロバスト性(\textbf{69.5}\%対 \textbf{38.7}\%)を示す。 コードはリンク(https://github.com/HuCaoFighting/FRN)で見ることができる。

In frame-based vision, object detection faces substantial performance degradation under challenging conditions due to the limited sensing capability of conventional cameras. Event cameras output sparse and asynchronous events, providing a potential solution to solve these problems. However, effectively fusing two heterogeneous modalities remains an open issue. In this work, we propose a novel hierarchical feature refinement network for event-frame fusion. The core concept is the design of the coarse-to-fine fusion module, denoted as the cross-modality adaptive feature refinement (CAFR) module. In the initial phase, the bidirectional cross-modality interaction (BCI) part facilitates information bridging from two distinct sources. Subsequently, the features are further refined by aligning the channel-level mean and variance in the two-fold adaptive feature refinement (TAFR) part. We conducted extensive experiments on two benchmarks: the low-resolution PKU-DDD17-Car dataset and the high-resolution DSEC dataset. Experimental results show that our method surpasses the state-of-the-art by an impressive margin of $\textbf{8.0}\%$ on the DSEC dataset. Besides, our method exhibits significantly better robustness (\textbf{69.5}\% versus \textbf{38.7}\%) when introducing 15 different corruption types to the frame images. The code can be found at the link (https://github.com/HuCaoFighting/FRN).
翻訳日:2024-11-08 20:36:48 公開日:2024-10-31
# 空間モードソータを用いた量子最適コロナグラフの実験的研究

Experimental Demonstration of a Quantum-Optimal Coronagraph Using Spatial Mode Sorters ( http://arxiv.org/abs/2407.12776v2 )

ライセンス: Link先を確認
Nico Deshler, Itay Ozer, Amit Ashok, Saikat Guha, (参考訳) 本研究では、空間モードフィルタリングを用いて、外惑星検出と位置決めの量子限界を達成できる理想的な直接画像コロナグラフの設計実験を行う。 我々のベンチトップ実験実装は、点拡散関数(PSF)適応モードベースで光子を分離するように構成された自由空間プログラム可能な空間モードソータを前方および逆パスする。 前方通過の間、基本モードは拒否され、オン軸の点状星からの光を効果的に除去する。 逆パスでは、残りのモードはコヒーレントに再結合され、かすかな伴奏を直接撮像することができる。 実験システムでは、主星からの距離1000:1のコントラスト比で、人工外惑星を準回折距離で局在させることができる。 主星のかすかな伴星を準回折スケールで分解する能力は、準回折系に存在すると予測される太陽系外惑星の発見をさらに促進するために重要である。 これらの太陽系外惑星は、通常、回折スケールよりも大きい内部作用角(IWA)を持つ最先端のコロナグラフの範囲を超えている。 さらに、我々のコロナグラフアーキテクチャは、空間スペクトルモードデマルチプレクシングを用いて、外惑星の高忠実度スペクトルを測定することができる可能性がある。

We present an experimental demonstration of an ideal direct imaging coronagraph design capable of achieving the quantum limits of exoplanet detection and localization by using spatial mode filtering. Our benchtop experimental implementation performs a forward and inverse pass through a free-space programmable spatial mode sorter configured to isolate photons in a point spread function (PSF)-adapted mode basis. During the forward pass, the fundamental mode is rejected, effectively eliminating light from an on-axis point-like star. On the inverse pass, the remaining modes are coherently recombined, enabling direct imaging of a faint companion. Our experimental system is able to localize an artificial exoplanet at sub-diffraction distances from its host star with a 1000:1 star-planet contrast ratio. The ability to resolve faint companions of a host star at sub-diffraction scale is crucial to further the discovery of exoplanets predicted to reside in the sub-diffraction regime. These exoplanets are currently beyond the reach of state-of-the-art coronagraphs, which typically have an inner working angle (IWA) larger than the diffraction scale. Furthermore, our coronagraph architecture is potentially capable of measuring higher-fidelity spectrographs of exoplanets using spatial-spectral mode demultiplexing.
翻訳日:2024-11-08 20:36:48 公開日:2024-10-31
# FSP-Laplace:ベイズ深層学習におけるラプラス近似の関数空間優先

FSP-Laplace: Function-Space Priors for the Laplace Approximation in Bayesian Deep Learning ( http://arxiv.org/abs/2407.13711v2 )

ライセンス: Link先を確認
Tristan Cinquin, Marvin Pförtner, Vincent Fortuin, Philipp Hennig, Robert Bamler, (参考訳) ラプラス近似(Laplace approximation)は、トレーニングされたネットワークの予測を変更することなく適用可能な、てんかん性不確実性推定を伴うディープネットワークを実現するための一般的な手法であり、大きなモデルやデータセットにスケールする。 事前の選択は、結果として生じる後続分布、計算的トラクタビリティ、およびウェイト空間の解釈可能性の欠如に強く影響するが、一般にラプラス近似は、深さが増加するにつれて病理的な振る舞いを引き起こすことが知られている等方ガウス事前に制限される。 救済策として、関数空間に事前を直接配置する。 より正確には、ルベーグ密度は無限次元函数空間に存在しないので、ニューラルネットワークで表現できる関数の空間に制限されるガウス過程(GP)の下で、後測度のいわゆる弱モードを見つけるようにトレーニングをリキャストする。 GP事前を通じて、正規性や周期性などの構造的かつ解釈可能な帰納バイアスを関数空間で直接表現でき、深いネットワークを一般化できる暗黙の帰納バイアスを利用することができる。 モデル線形化後、トレーニング目的は負の対数-後続密度を誘導し、ラプラス近似を適用し、行列自由線型代数からの高度にスケーラブルな手法を利用する。 本手法は,先行知識が豊富である(多くの科学的推論タスクの場合と同様に)改善された結果を提供する。 同時に、ニューラルネットワークが典型的に優れているブラックボックスの教師付き学習問題に対して、競争力を維持している。

Laplace approximations are popular techniques for endowing deep networks with epistemic uncertainty estimates as they can be applied without altering the predictions of the trained network, and they scale to large models and datasets. While the choice of prior strongly affects the resulting posterior distribution, computational tractability and lack of interpretability of the weight space typically limit the Laplace approximation to isotropic Gaussian priors, which are known to cause pathological behavior as depth increases. As a remedy, we directly place a prior on function space. More precisely, since Lebesgue densities do not exist on infinite-dimensional function spaces, we recast training as finding the so-called weak mode of the posterior measure under a Gaussian process (GP) prior restricted to the space of functions representable by the neural network. Through the GP prior, one can express structured and interpretable inductive biases, such as regularity or periodicity, directly in function space, while still exploiting the implicit inductive biases that allow deep networks to generalize. After model linearization, the training objective induces a negative log-posterior density to which we apply a Laplace approximation, leveraging highly scalable methods from matrix-free linear algebra. Our method provides improved results where prior knowledge is abundant (as is the case in many scientific inference tasks). At the same time, it stays competitive for black-box supervised learning problems, where neural networks typically excel.
翻訳日:2024-11-08 20:01:00 公開日:2024-10-31
# 一般化線形モデルに対する統一信頼系列と帯域への応用

A Unified Confidence Sequence for Generalized Linear Models, with Applications to Bandits ( http://arxiv.org/abs/2407.13977v2 )

ライセンス: Link先を確認
Junghyun Lee, Se-Young Yun, Kwang-Sung Jun, (参考訳) 我々は,凸かつ数値的に厳密であることが保証される任意の(自己調和型)一般化線形モデル(GLM)に対して,統一的疑似比に基づく信頼シーケンス(CS)を提案する。 ガウシアン,ベルヌーイ,ポアソンなど,様々な GLM の既知の CS と同等あるいは同等であることを示す。 特にベルヌーイのCS は、未知のパラメータのノルムが $S$ であるような $\mathrm{poly}(S)$-free radius を持つ。 我々の最初の技術的ノベルティは、その導出であり、CSを導出するのにあまり人気がないにもかかわらず、一様の事前/後続のPAC-Bayesian境界を利用する。 新たなCSの直接的な応用として,任意の一般化線形帯域 (GLB; Filippi et al (2010)) に適用可能な,単純で自然な楽観的アルゴリズム OFUGLBを提案する。 分析の結果,有意な楽観的アプローチは,ロジスティックバンディットを含む,さまざまな自己協和性(必ずしも有界ではない)GLBに対して,また,有界なGLBに対しては$\mathrm{poly}(S)$-freeも同時に達成できることが示唆された。 第2の技術的斬新さである残念な分析は、我々の新しいCSと、これまで広く使われていた自己協和性制御レムマを完全に回避する新しい証明手法を組み合わせることによるものです(Faury et al , 2020, Lemma 9)。 数値的には、OFUGLBはロジスティック・バンディットのアルゴリズムよりも優れ、あるいは同等である。

We present a unified likelihood ratio-based confidence sequence (CS) for any (self-concordant) generalized linear model (GLM) that is guaranteed to be convex and numerically tight. We show that this is on par or improves upon known CSs for various GLMs, including Gaussian, Bernoulli, and Poisson. In particular, for the first time, our CS for Bernoulli has a $\mathrm{poly}(S)$-free radius where $S$ is the norm of the unknown parameter. Our first technical novelty is its derivation, which utilizes a time-uniform PAC-Bayesian bound with a uniform prior/posterior, despite the latter being a rather unpopular choice for deriving CSs. As a direct application of our new CS, we propose a simple and natural optimistic algorithm called OFUGLB, applicable to any generalized linear bandits (GLB; Filippi et al. (2010)). Our analysis shows that the celebrated optimistic approach simultaneously attains state-of-the-art regrets for various self-concordant (not necessarily bounded) GLBs, and even $\mathrm{poly}(S)$-free for bounded GLBs, including logistic bandits. The regret analysis, our second technical novelty, follows from combining our new CS with a new proof technique that completely avoids the previously widely used self-concordant control lemma (Faury et al., 2020, Lemma 9). Numerically, OFUGLB outperforms or is at par with prior algorithms for logistic bandits.
翻訳日:2024-11-08 20:01:00 公開日:2024-10-31
# 二重影響を考慮したリコメンダシステムにおけるユーザ・クレータ特徴分極

User-Creator Feature Polarization in Recommender Systems with Dual Influence ( http://arxiv.org/abs/2407.14094v2 )

ライセンス: Link先を確認
Tao Lin, Kun Jin, Andrew Estornell, Xiaoying Zhang, Yiling Chen, Yang Liu, (参考訳) レコメンダシステムは、関連コンテンツをユーザに提示し、コンテンツクリエーターがターゲットのオーディエンスに到達するのを助けるという2つの目的を果たす。 これらのシステムの二重性は、ユーザーとクリエーターの両方に自然に影響を与え、ユーザーの好みは推奨されるアイテムに影響され、クリエーターは、より多くのユーザーを引き付けるためにコンテンツを変更するインセンティブを与えることができる。 我々は,レコメンデータシステムの二重影響を捉えるために,ユーザ・クリエータ機能ダイナミクスと呼ばれるモデルを定義した。 我々は、二重影響のレコメンデータシステムが偏光を保証し、システムの多様性を損なうことを証明した。 次に、理論的にも経験的にも、リコメンダシステムにおける偏光緩和と多様性促進のためのアプローチについて検討する。 予期せぬことに、共通多様性促進アプローチは二重影響の存在下では機能しないが、トップ$k$トランケーションのような関連性最適化手法は偏光を防止し、システムの多様性を改善することができる。

Recommender systems serve the dual purpose of presenting relevant content to users and helping content creators reach their target audience. The dual nature of these systems naturally influences both users and creators: users' preferences are affected by the items they are recommended, while creators may be incentivized to alter their content to attract more users. We define a model, called user-creator feature dynamics, to capture the dual influence of recommender systems. We prove that a recommender system with dual influence is guaranteed to polarize, causing diversity loss in the system. We then investigate, both theoretically and empirically, approaches for mitigating polarization and promoting diversity in recommender systems. Unexpectedly, we find that common diversity-promoting approaches do not work in the presence of dual influence, while relevancy-optimizing methods like top-$k$ truncation can prevent polarization and improve diversity of the system.
翻訳日:2024-11-08 19:38:31 公開日:2024-10-31
# RGB2Point: 単一のRGB画像から3Dポイントクラウドを生成する

RGB2Point: 3D Point Cloud Generation from Single RGB Images ( http://arxiv.org/abs/2407.14979v2 )

ライセンス: Link先を確認
Jae Joong Lee, Bedrich Benes, (参考訳) トランスフォーマーをベースとした3Dポイントクラウド生成に,未提示のシングルビューRGB画像であるRGB2Pointを導入する。 RGB2Pointはオブジェクトの入力画像を取り込み、密度の高い3Dポイントクラウドを生成する。 CNNレイヤと拡散デノゲーションアプローチに基づく以前の作業とは対照的に、トレーニング済みのTransformerレイヤは高速で、利用可能なカテゴリよりも一貫した品質で高品質な点雲を生成する。 我々の生成した点雲は、現在の最先端と比較して、チャムファー距離(51.15%)とアース・マーバー距離(45.96%)の改善によって証明されたように、現実世界のデータセット上で高い品質を示す。 さらに、我々の手法は、合成データセット上でより良い品質を示し、より優れたチャンファー距離(39.26%)、アースマーバー距離(26.95%)、Fスコア(47.16%)を実現している。 さらに,本手法では,先行研究と比較して,様々な対象カテゴリに対して63.1%の高品質な結果が得られる。 さらに、RGB2Pointは計算効率が高く、2.3GBのVRAMしか必要とせず、単一のRGB画像から3Dポイントの雲を再構成する必要があり、我々はSOTA拡散モデルよりも15,133倍高速に結果を生成する。

We introduce RGB2Point, an unposed single-view RGB image to a 3D point cloud generation based on Transformer. RGB2Point takes an input image of an object and generates a dense 3D point cloud. Contrary to prior works based on CNN layers and diffusion denoising approaches, we use pre-trained Transformer layers that are fast and generate high-quality point clouds with consistent quality over available categories. Our generated point clouds demonstrate high quality on a real-world dataset, as evidenced by improved Chamfer distance (51.15%) and Earth Mover's distance (45.96%) metrics compared to the current state-of-the-art. Additionally, our approach shows a better quality on a synthetic dataset, achieving better Chamfer distance (39.26%), Earth Mover's distance (26.95%), and F-score (47.16%). Moreover, our method produces 63.1% more consistent high-quality results across various object categories compared to prior works. Furthermore, RGB2Point is computationally efficient, requiring only 2.3GB of VRAM to reconstruct a 3D point cloud from a single RGB image, and our implementation generates the results 15,133x faster than a SOTA diffusion-based model.
翻訳日:2024-11-08 19:27:32 公開日:2024-10-31
# RGB2Point: 単一のRGB画像から3Dポイントクラウドを生成する

RGB2Point: 3D Point Cloud Generation from Single RGB Images ( http://arxiv.org/abs/2407.14979v3 )

ライセンス: Link先を確認
Jae Joong Lee, Bedrich Benes, (参考訳) トランスフォーマーをベースとした3Dポイントクラウド生成に,未提示のシングルビューRGB画像であるRGB2Pointを導入する。 RGB2Pointはオブジェクトの入力画像を取り込み、密度の高い3Dポイントクラウドを生成する。 CNNレイヤと拡散デノゲーションアプローチに基づく以前の作業とは対照的に、トレーニング済みのTransformerレイヤは高速で、利用可能なカテゴリよりも一貫した品質で高品質な点雲を生成する。 我々の生成した点雲は、現在の最先端と比較して、チャムファー距離(51.15%)とアース・マーバー距離(45.96%)の改善によって証明されたように、現実世界のデータセット上で高い品質を示す。 さらに、我々の手法は、合成データセット上でより良い品質を示し、より優れたチャンファー距離(39.26%)、アースマーバー距離(26.95%)、Fスコア(47.16%)を実現している。 さらに,本手法では,先行研究と比較して,様々な対象カテゴリに対して63.1%の高品質な結果が得られる。 さらに、RGB2Pointは計算効率が高く、2.3GBのVRAMしか必要とせず、単一のRGB画像から3Dポイントの雲を再構成する必要があり、我々はSOTA拡散モデルよりも15,133倍高速に結果を生成する。

We introduce RGB2Point, an unposed single-view RGB image to a 3D point cloud generation based on Transformer. RGB2Point takes an input image of an object and generates a dense 3D point cloud. Contrary to prior works based on CNN layers and diffusion denoising approaches, we use pre-trained Transformer layers that are fast and generate high-quality point clouds with consistent quality over available categories. Our generated point clouds demonstrate high quality on a real-world dataset, as evidenced by improved Chamfer distance (51.15%) and Earth Mover's distance (45.96%) metrics compared to the current state-of-the-art. Additionally, our approach shows a better quality on a synthetic dataset, achieving better Chamfer distance (39.26%), Earth Mover's distance (26.95%), and F-score (47.16%). Moreover, our method produces 63.1% more consistent high-quality results across various object categories compared to prior works. Furthermore, RGB2Point is computationally efficient, requiring only 2.3GB of VRAM to reconstruct a 3D point cloud from a single RGB image, and our implementation generates the results 15,133x faster than a SOTA diffusion-based model.
翻訳日:2024-11-08 19:27:32 公開日:2024-10-31
# Annealed Multiple Choice Learning: Annealing による Winner-take-all の限界を克服する

Annealed Multiple Choice Learning: Overcoming limitations of Winner-takes-all with annealing ( http://arxiv.org/abs/2407.15580v2 )

ライセンス: Link先を確認
David Perera, Victor Letzelter, Théo Mariotte, Adrien Cortés, Mickael Chen, Slim Essid, Gaël Richard, (参考訳) シミュレーションアニーリングとMCLを組み合わせたAnnealed Multiple Choice Learning(aMCL)を提案する。 MCLは、不明瞭なタスクを扱う学習フレームワークであり、仮説の小さなセットを予測している。 これらの仮説は、予測の多様性を促進するWinner-takes-all (WTA) スキームを用いて訓練される。 しかし、このスキームは WTA の欲張りの性質のため、任意に最適な局所最小値に収束する可能性がある。 我々は、アニールによるこの制限を克服し、トレーニング中の仮説空間の探索を強化する。 我々は、統計物理学や情報理論からの洞察を活用し、モデル学習軌跡の詳細な記述を提供する。 さらに、合成データセット、標準UCIベンチマーク、音声分離に関する広範な実験により、我々のアルゴリズムを検証した。

We introduce Annealed Multiple Choice Learning (aMCL) which combines simulated annealing with MCL. MCL is a learning framework handling ambiguous tasks by predicting a small set of plausible hypotheses. These hypotheses are trained using the Winner-takes-all (WTA) scheme, which promotes the diversity of the predictions. However, this scheme may converge toward an arbitrarily suboptimal local minimum, due to the greedy nature of WTA. We overcome this limitation using annealing, which enhances the exploration of the hypothesis space during training. We leverage insights from statistical physics and information theory to provide a detailed description of the model training trajectory. Additionally, we validate our algorithm by extensive experiments on synthetic datasets, on the standard UCI benchmark, and on speech separation.
翻訳日:2024-11-08 15:45:25 公開日:2024-10-31
# Mini-Sequence Transformer:ロングシーケンストレーニングにおける中間記憶の最適化

Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training ( http://arxiv.org/abs/2407.15892v2 )

ライセンス: Link先を確認
Cheng Luo, Jiawei Zhao, Zhuoming Chen, Beidi Chen, Anima Anandkumar, (参考訳) 超高速かつ高精度なLLM学習法であるMini-Sequence Transformer (MsT)を導入する。 MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。 アクティベーション再計算と統合され、前方パスと後方パスの両方で大きなメモリ節約を可能にする。 MsTを用いたLlama3-8Bモデルによる実験では、標準的な実装よりも12倍長いシーケンスであっても、スループットや収束の劣化は測定されない。 MsTは完全に汎用的で実装に依存しないため、既存のLLMトレーニングフレームワークとの統合には最小限のコード変更が必要である。 ハグフェイスライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。

We introduce Mini-Sequence Transformer (MsT), a simple and effective methodology for highly efficient and accurate LLM training with extremely long sequences. MsT partitions input sequences and iteratively processes mini-sequences to reduce intermediate memory usage. Integrated with activation recomputation, it enables significant memory savings in both forward and backward passes. In experiments with the Llama3-8B model, with MsT, we measure no degradation in throughput or convergence even with 12x longer sequences than standard implementations. MsT is fully general, implementation-agnostic, and requires minimal code changes to integrate with existing LLM training frameworks. Integrated with the huggingface library, MsT successfully extends the maximum context length of Qwen, Mistral, and Gemma-2 by 12-24x.
翻訳日:2024-11-08 15:45:25 公開日:2024-10-31
# Mini-Sequence Transformer:ロングシーケンストレーニングにおける中間記憶の最適化

Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training ( http://arxiv.org/abs/2407.15892v3 )

ライセンス: Link先を確認
Cheng Luo, Jiawei Zhao, Zhuoming Chen, Beidi Chen, Anima Anandkumar, (参考訳) 超高速かつ高精度なLLM学習法であるMini-Sequence Transformer (MsT)を導入する。 MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。 アクティベーション再計算と統合され、前方パスと後方パスの両方で大きなメモリ節約を可能にする。 MsTを用いたLlama3-8Bモデルによる実験では、標準的な実装よりも12倍長いシーケンスであっても、スループットや収束の劣化は測定されない。 MsTは完全に汎用的で実装に依存しないため、既存のLLMトレーニングフレームワークとの統合には最小限のコード変更が必要である。 ハグフェイスライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。

We introduce Mini-Sequence Transformer (MsT), a simple and effective methodology for highly efficient and accurate LLM training with extremely long sequences. MsT partitions input sequences and iteratively processes mini-sequences to reduce intermediate memory usage. Integrated with activation recomputation, it enables significant memory savings in both forward and backward passes. In experiments with the Llama3-8B model, with MsT, we measure no degradation in throughput or convergence even with 12x longer sequences than standard implementations. MsT is fully general, implementation-agnostic, and requires minimal code changes to integrate with existing LLM training frameworks. Integrated with the huggingface library, MsT successfully extends the maximum context length of Qwen, Mistral, and Gemma-2 by 12-24x.
翻訳日:2024-11-08 15:45:25 公開日:2024-10-31
# 不均衡データ分布におけるアウト・オブ・ディストリビューション検出の再考

Rethinking Out-of-Distribution Detection on Imbalanced Data Distribution ( http://arxiv.org/abs/2407.16430v2 )

ライセンス: Link先を確認
Kai Liu, Zhihang Fu, Sheng Jin, Chao Chen, Ze Chen, Rongxin Jiang, Fan Zhou, Yaowu Chen, Jieping Ye, (参考訳) 未知のアウト・オブ・ディストリビューション(OOD)サンプルの検出と拒否は、デプロイされたニューラルネットワークが信頼性の低い予測を無効にする上で重要である。 しかし、実世界のシナリオでは、既存のOOD検出手法の有効性は、分散内データ(ID)の固有の不均衡によって妨げられ、性能が著しく低下する。 統計観測により,OOD のサンプルを OOD と誤識別すると同時に,OOD のサンプルを ID のヘッダーとして誤って予測するという,異なる OOD 検出器が直面する2つの一般的な課題を明らかにした。 この現象を説明するために、不均衡なデータ分布上でのOOD検出問題を定式化するために、ImOODと呼ばれる一般化統計フレームワークを導入する。 その結果,OOD検出の均衡度と不均衡度との間にクラス認識バイアス項目が存在し,性能差に寄与することが示唆された。 この発見に基づいて、アーキテクチャ設計におけるバイアスを緩和し、不均衡なOOD検出器を増強する、統一的な訓練時間正規化手法を提案する。 提案手法はCIFAR10-LT, CIFAR100-LT, ImageNet-LTベンチマークに対して, 最先端のOOD検出手法に対して一貫した改良を行う。 コードはhttps://github.com/alibaba/imood.comから入手できる。

Detecting and rejecting unknown out-of-distribution (OOD) samples is critical for deployed neural networks to void unreliable predictions. In real-world scenarios, however, the efficacy of existing OOD detection methods is often impeded by the inherent imbalance of in-distribution (ID) data, which causes significant performance decline. Through statistical observations, we have identified two common challenges faced by different OOD detectors: misidentifying tail class ID samples as OOD, while erroneously predicting OOD samples as head class from ID. To explain this phenomenon, we introduce a generalized statistical framework, termed ImOOD, to formulate the OOD detection problem on imbalanced data distribution. Consequently, the theoretical analysis reveals that there exists a class-aware bias item between balanced and imbalanced OOD detection, which contributes to the performance gap. Building upon this finding, we present a unified training-time regularization technique to mitigate the bias and boost imbalanced OOD detectors across architecture designs. Our theoretically grounded method translates into consistent improvements on the representative CIFAR10-LT, CIFAR100-LT, and ImageNet-LT benchmarks against several state-of-the-art OOD detection approaches. Code is available at https://github.com/alibaba/imood.
翻訳日:2024-11-08 15:34:26 公開日:2024-10-31
# 構造化によるLCM認知の強化

Enhancing LLM's Cognition via Structurization ( http://arxiv.org/abs/2407.16434v2 )

ライセンス: Link先を確認
Kai Liu, Zhihang Fu, Chao Chen, Wei Zhang, Rongxin Jiang, Fan Zhou, Yaowu Chen, Yue Wu, Jieping Ye, (参考訳) 長文を読むとき、人間の認知は複雑で構造化されている。 大きな言語モデル(LLM)は因果的かつシーケンシャルな視点で入力コンテキストを処理するが、このアプローチは複雑な入力を効果的に扱う能力を制限する可能性がある。 本稿では,LLMの認知能力を高めるために,コンテキスト構造化という新しい概念を提案する。 具体的には、平易で秩序のない文脈文を、適切に順序付けされ階層的に構造化された要素に変換する。 これにより、LLMは、組織構造に沿って正確な注意と情報探索を通じて、複雑で拡張されたコンテキストをよりよく把握することができる。 多様なNLPタスク(例えば、文脈に基づく質問応答、徹底的な幻覚評価、通過レベルの密集検索)において、様々なモデルアーキテクチャとサイズ(一連の自己回帰型LCMやBERTに似たマスキングモデルを含む)で広範囲に評価を行う。 実験の結果は、単一ラウンドの構造化によって得られる一貫した、重要なパフォーマンス向上を示している。 特に,オープンソースのLLaMA2-70Bモデルを改良し,幻覚評価器としてGPT-3.5-Turboに匹敵する性能を実現する。 さらに,LLMの言語処理能力を,より小型で効果的なStruXGPT-7Bに蒸留し,構造化の実現可能性を示し,本手法の実用性に対処する。 コードはhttps://github.com/alibaba/struxgpt.comから入手できる。

When reading long-form text, human cognition is complex and structurized. While large language models (LLMs) process input contexts through a causal and sequential perspective, this approach can potentially limit their ability to handle intricate and complex inputs effectively. To enhance LLM's cognition capability, this paper presents a novel concept of context structurization. Specifically, we transform the plain, unordered contextual sentences into well-ordered and hierarchically structurized elements. By doing so, LLMs can better grasp intricate and extended contexts through precise attention and information-seeking along the organized structures. Extensive evaluations are conducted across various model architectures and sizes (including a series of auto-regressive LLMs as well as BERT-like masking models) on a diverse set of NLP tasks (e.g., context-based question-answering, exhaustive hallucination evaluation, and passage-level dense retrieval). Empirical results show consistent and significant performance gains afforded by a single-round structurization. In particular, we boost the open-sourced LLaMA2-70B model to achieve comparable performance against GPT-3.5-Turbo as the hallucination evaluator. Besides, we show the feasibility of distilling advanced LLMs' language processing abilities to a smaller yet effective StruXGPT-7B to execute structurization, addressing the practicality of our approach. Code is available at https://github.com/alibaba/struxgpt.
翻訳日:2024-11-08 15:34:26 公開日:2024-10-31
# 大規模言語モデルのための構造認識ドメイン知識注入

Structure-aware Domain Knowledge Injection for Large Language Models ( http://arxiv.org/abs/2407.16724v2 )

ライセンス: Link先を確認
Kai Liu, Ze Chen, Zhihang Fu, Rongxin Jiang, Fan Zhou, Yaowu Chen, Yue Wu, Jieping Ye, (参考訳) 本稿では,基礎言語モデル(LLM)をドメインスペシャリストに効率的に変換する手法であるStructTuningを紹介する。 従来の知識注入性能の50%を達成しながら、トレーニングコーパスの要求をわずか0.3%まで大幅に削減する。 本手法は, 学生の教育過程, 特に教科書からの構造化ドメイン知識の同化と, その後, 特定の演習を通じて現実の課題への取り組みに応用する方法に着想を得たものである。 そこで本研究では,SCPT(Structure-aware Continual Pre-Training)とSSFT(Structure-aware Supervised Fine-Tuning)という,知識注入とアライメントのための新たな2段階戦略を提案する。 SCPTフェーズでは、ドメイン知識分類を自動的に抽出し、トレーニングコーパスを再編成し、LLMがテキストセグメントを分類の対象となる知識ポイントに効果的にリンクできるようにする。 SSFT フェーズでは,モデルに対して,その出力の基盤となる知識構造を解明するよう強く促すとともに,構造的領域の洞察を活用して現実的な問題に対処する。 我々の究極の手法は、LongBenchデータセットとMMedBenchデータセットのクローズドブック質問応答タスクを用いて、モデルアーキテクチャとスケールにわたって広範囲に評価されてきた。 本手法は,MMedBench上での最先端のMMedLM2に対する同等の改善の可能性を示し,トレーニングコストを5%に削減する。 このブレークスルーは、包括的なデータ利用を伴う、より強力なドメイン固有のLLMのために、StructTuningをスケールアップする道を開くものです。 コードはhttps://github.com/alibaba/struxgpt.comから入手できる。

This paper introduces a pioneering methodology, termed StructTuning, to efficiently transform foundation Large Language Models (LLMs) into domain specialists. It significantly reduces the training corpus requirement to a mere 0.3%, while achieving an impressive 50% of traditional knowledge injection performance. Our method is inspired by the educational processes of human students, particularly how structured domain knowledge from textbooks is assimilated and subsequently applied to tackle real-world challenges through specific exercises. Based on this, we propose a novel two-stage strategy for knowledge injection and alignment: Structure-aware Continual Pre-Training (SCPT) and Structure-aware Supervised Fine-Tuning (SSFT). In the SCPT phase, we automatically extract the domain knowledge taxonomy and reorganize the training corpora, enabling LLMs to effectively link textual segments to targeted knowledge points within the taxonomy. In the SSFT phase, we explicitly prompt models to elucidate the underlying knowledge structure in their outputs, leveraging the structured domain insight to address practical problems. Our ultimate method has undergone extensive evaluations across model architectures and scales, using closed-book question-answering tasks on LongBench and MMedBench datasets. Remarkably, our method demonstrates the potential of comparable improvement against the state-of-the-art MMedLM2 on MMedBench, while significantly reducing the training costs to 5%. This breakthrough paves the way for scaling up our StructTuning for stronger domain-specific LLMs with comprehensive data utilization. Code is available at https://github.com/alibaba/struxgpt.
翻訳日:2024-11-08 15:34:26 公開日:2024-10-31
# VILA$^2$: VILA Augmented VILA

VILA$^2$: VILA Augmented VILA ( http://arxiv.org/abs/2407.17453v2 )

ライセンス: Link先を確認
Yunhao Fang, Ligeng Zhu, Yao Lu, Yan Wang, Pavlo Molchanov, Jan Kautz, Jang Hyun Cho, Marco Pavone, Song Han, Hongxu Yin, (参考訳) ビジュアル言語モデルアーキテクチャとトレーニングインフラストラクチャが急速に進歩する一方、データキュレーションは、量と品質がボトルネックとなる部分で未探索のままである。 既存の作業は、品質の保証が緩く、余分なインターネットデータをクロールするか、API頻度とパフォーマンスが制限されたブラックボックスプロプライエタリなモデル(例えば、GPT-4V / Gemini)から蒸留する。 この作業により、VLMはその生成特性を利用して、データ拡張を通じて自身を改善することができる。 我々は、データ品質を反復的に改善し、従ってモデル性能を向上させるための自己拡張ステップとスペシャリスト強化ステップを含む、単純で効果的なVLM拡張スキームを導入する。 自己拡張ステップでは、命令を微調整したVLMは、プレトレーニングされたキャプションデータセットを復元し、洗練されたデータを利用してスクラッチから再トレーニングする。 高価なHuman-in-the-loopアノテーションがなければ、3回の自己拡張ラウンドでデータ品質とダウンストリーム精度の向上が観察できます -- 現在のVLMトレーニングレシピに対する、実行可能な無償ランチです。 自己拡張が飽和すると,指導の微調整から習得した特技を活用してキャプションの多様性を高める。 VLMの専門家は、空間、接地、OCRなどドメイン固有の専門家とともに自己拡張VLMから抽出し、タスク認識合成データを事前学習段階に融合させる。 データ品質の改善と幻覚の低減は、VLM(GPT-4V, Gemini)と人間の審査員によって横断的に検証される。 自己拡張と専門的なトレーニングを組み合わせることで、VILA$^2$は、従来の技術よりも幅広いベンチマークの精度を一貫して向上させ、再利用可能な事前トレーニングデータセットを生成し、人間のラベルよりも300倍コスト効率が高い。

While visual language model architectures and training infrastructures advance rapidly, data curation remains under-explored where quantity and quality become a bottleneck. Existing work either crawls extra Internet data with a loose guarantee of quality or distills from black-box proprietary models, e.g., GPT-4V / Gemini that are API frequency and performance bounded. This work enables a VLM to improve itself via data enhancement, exploiting its generative nature. We introduce a simple yet effective VLM augmentation scheme that includes a self-augment step and a specialist-augment step to iteratively improve data quality and hence, model performance. In the self-augment step, the instruction-finetuned VLM recaptions its pretraining caption datasets and then retrains from scratch leveraging refined data. Without any expensive human-in-the-loop annotation, we observe improvements in data quality and downstream accuracy boosts with three self-augmentation rounds -- a viable free lunch to the current VLM training recipe. When self-augmentation saturates, we augment the caption diversity by leveraging specialty skills picked up from instruction finetuning. We finetune VLM specialists from the self-augmented VLM with domain-specific experts, including spatial, grounding, and OCR, to fuse task-aware synthetic data into the pretraining stage. Data quality improvements and hallucination reductions are cross-checked by VLM (GPT-4V, Gemini) and human judges. Combining self-augmentation and specialist-augmented training, VILA$^2$ consistently improves the accuracy on a wide range of benchmarks over the prior art, producing a reusable pretraining dataset that is 300x more cost-efficient than human labeling.
翻訳日:2024-11-08 15:12:19 公開日:2024-10-31
# スケーラブルグラフ圧縮コンボリューション

Scalable Graph Compressed Convolutions ( http://arxiv.org/abs/2407.18480v2 )

ライセンス: Link先を確認
Junshu Sun, Shuhui Wang, Chenxue Yang, Qingming Huang, (参考訳) メッセージパッシングによる効果的なグラフニューラルネットワーク(GNN)の設計には、最適なメッセージパッシング経路の決定と、局所的なアグリゲータの設計という、2つの根本的な課題がある。 従来の最適経路設計手法は入力特性の情報損失に制限される。 一方、既存の局所アグリゲータは、一般にマルチスケールの特徴を抽出できず、パラメータスケールの制限下では様々な演算子を近似する。 これらの方法とは対照的に、ユークリッドの畳み込みは表現的アグリゲータとして証明されており、GNN構築の完璧な候補となっている。 しかし、ユークリッドのグラフへの畳み込みを一般化するという課題は、グラフの不規則構造から生じる。 ユークリッド空間とグラフトポロジーのギャップを埋めるために、ユークリッド畳み込みのための入力グラフのキャリブレーションに置換を適用する微分可能な方法を提案する。 置換は入力順序に関係なく行内のすべてのノードを制約し、したがってユークリッドのグラフへの畳み込みの柔軟な一般化を可能にする。 グラフキャリブレーションに基づいて,階層型グラフ表現学習のための圧縮畳み込みネットワーク(CoCN)を提案する。 CoCNは畳み込みニューラルネットワークの局所的な特徴学習とグローバルなパラメータ共有メカニズムに従う。 モデル全体をエンドツーエンドにトレーニングし、個々のノードの特徴とそれに対応する構造の特徴を学習するために圧縮畳み込みを適用する。 CoCNは、残りの接続や開始機構を含むユークリッドの畳み込みから成功したプラクティスをさらに借りることができる。 ノードレベルのベンチマークとグラフレベルのベンチマークでCoCNを検証する。 CoCNは競合するGNNベースラインよりも優れたパフォーマンスを実現している。 コードはhttps://github.com/sunjss/CoCNで入手できる。

Designing effective graph neural networks (GNNs) with message passing has two fundamental challenges, i.e., determining optimal message-passing pathways and designing local aggregators. Previous methods of designing optimal pathways are limited with information loss on the input features. On the other hand, existing local aggregators generally fail to extract multi-scale features and approximate diverse operators under limited parameter scales. In contrast to these methods, Euclidean convolution has been proven as an expressive aggregator, making it a perfect candidate for GNN construction. However, the challenges of generalizing Euclidean convolution to graphs arise from the irregular structure of graphs. To bridge the gap between Euclidean space and graph topology, we propose a differentiable method that applies permutations to calibrate input graphs for Euclidean convolution. The permutations constrain all nodes in a row regardless of their input order and therefore enable the flexible generalization of Euclidean convolution to graphs. Based on the graph calibration, we propose the Compressed Convolution Network (CoCN) for hierarchical graph representation learning. CoCN follows local feature-learning and global parameter-sharing mechanisms of convolution neural networks. The whole model can be trained end-to-end, with compressed convolution applied to learn individual node features and their corresponding structure features. CoCN can further borrow successful practices from Euclidean convolution, including residual connection and inception mechanism. We validate CoCN on both node-level and graph-level benchmarks. CoCN achieves superior performance over competitive GNN baselines. Codes are available at https://github.com/sunjss/CoCN.
翻訳日:2024-11-08 14:50:05 公開日:2024-10-31
# WindsorML: 自動車空力のための高精度計算流体力学データセット

WindsorML: High-Fidelity Computational Fluid Dynamics Dataset For Automotive Aerodynamics ( http://arxiv.org/abs/2407.19320v3 )

ライセンス: Link先を確認
Neil Ashton, Jordan B. Angel, Aditya S. Ghate, Gaetan K. W. Kenway, Man Long Wong, Cetin Kiris, Astrid Walle, Danielle C. Maddix, Gary Page, (参考訳) 本稿では,ウィンザー本体の355の幾何学的変種を含む機械学習のためのオープンソースの高忠実度データセットを提案する。 計算流体力学(CFD)シミュレーションは,280万セル以上を用いたカルテシアン没入バウンダリ法を用いて,GPUネイティブな壁面モデル大渦シミュレーション(WMLES)を用いて実行し,最大精度を確保した。 このデータセットには、路面電車で観測されたものを代表する幅広いフロー特性を示す幾何学的変種が含まれている。 データセット自体は、幾何学と力とモーメント係数だけでなく、3Dの時間平均ボリュームと境界データを含んでいる。 本稿では,基盤となるCFD手法の妥当性と,データセットの内容と構造について述べる。 著者らにとってこれは、許容オープンソースライセンス(CC-BY-SA)を持つWindsorボディのための、最初の大規模で高忠実なCFDデータセットである。

This paper presents a new open-source high-fidelity dataset for Machine Learning (ML) containing 355 geometric variants of the Windsor body, to help the development and testing of ML surrogate models for external automotive aerodynamics. Each Computational Fluid Dynamics (CFD) simulation was run with a GPU-native high-fidelity Wall-Modeled Large-Eddy Simulations (WMLES) using a Cartesian immersed-boundary method using more than 280M cells to ensure the greatest possible accuracy. The dataset contains geometry variants that exhibits a wide range of flow characteristics that are representative of those observed on road-cars. The dataset itself contains the 3D time-averaged volume & boundary data as well as the geometry and force & moment coefficients. This paper discusses the validation of the underlying CFD methods as well as contents and structure of the dataset. To the authors knowledge, this represents the first, large-scale high-fidelity CFD dataset for the Windsor body with a permissive open-source license (CC-BY-SA).
翻訳日:2024-11-08 14:38:53 公開日:2024-10-31
# FIARSE:重要度を考慮したサブモデル抽出によるモデル不均一なフェデレーション学習

FIARSE: Model-Heterogeneous Federated Learning via Importance-Aware Submodel Extraction ( http://arxiv.org/abs/2407.19389v2 )

ライセンス: Link先を確認
Feijie Wu, Xingchen Wang, Yaqing Wang, Tianci Liu, Lu Su, Jing Gao, (参考訳) FL(Federated Learning)では、クライアントの様々な計算能力の調整が課題となり、大域的なモデルトレーニングにおいて制約のあるリソースを持つ者の参加を制限することがしばしばある。 この問題に対処するため、サブモデル抽出によるモデル不均一性の概念が登場し、各クライアントの計算能力とモデルの複雑さを一致させる調整されたソリューションを提供する。 本研究では,モデルパラメータの重要度に基づいて,動的にサブモデルを調整する新しい手法であるFederated Importance-Aware Submodel extract (FIARSE)を提案する。 提案手法は,既存手法と比較して,サブモデル抽出の理論的基盤を提供し,パラメータの重要度を決定するために,モデルパラメータ自身以外の追加情報の必要性を排除し,クライアントのオーバーヘッドを大幅に低減する。 提案したFIARSEの優れた性能を示すため,様々なデータセットで大規模な実験を行った。

In federated learning (FL), accommodating clients' varied computational capacities poses a challenge, often limiting the participation of those with constrained resources in global model training. To address this issue, the concept of model heterogeneity through submodel extraction has emerged, offering a tailored solution that aligns the model's complexity with each client's computational capacity. In this work, we propose Federated Importance-Aware Submodel Extraction (FIARSE), a novel approach that dynamically adjusts submodels based on the importance of model parameters, thereby overcoming the limitations of previous static and dynamic submodel extraction methods. Compared to existing works, the proposed method offers a theoretical foundation for the submodel extraction and eliminates the need for additional information beyond the model parameters themselves to determine parameter importance, significantly reducing the overhead on clients. Extensive experiments are conducted on various datasets to showcase the superior performance of the proposed FIARSE.
翻訳日:2024-11-08 14:38:53 公開日:2024-10-31
# Spike or not to Spike, That is the Question

To Spike or Not to Spike, that is the Question ( http://arxiv.org/abs/2407.19566v2 )

ライセンス: Link先を確認
Sanaz Mahmoodi Takaghaj, Jack Sampson, (参考訳) ニューロモルフィックコンピューティングは、最近、様々なニューロモルフィックプロセッサの出現によって勢いを増している。 フィールドが進歩するにつれて、スパイキングニューラルネットワーク(SNN)のユニークな特性を効果的に活用できるトレーニング手法の開発に焦点が当てられている。 SNNは生物学的ニューロンの時間的ダイナミクスをエミュレートし、リアルタイムのイベント駆動処理に特に適している。 異なるニューロモルフィックプラットフォームにまたがるSNNの可能性を完全に活用するためには、効果的なトレーニング手法が不可欠である。 SNNでは、学習規則はニューロンのスパイク行動に基づいており、ニューロンのスパイク閾値を超える膜電位によってスパイクが生成される場合と、スパイクタイミングが重要な情報を符号化している。 しかし、閾値は一般的にハイパーパラメータとして扱われ、誤った選択はトレーニングプロセスの大部分をスパイクしないニューロンにつながり、学習の効率を損なう。 本研究は、SNNにおける重みとともにニューロン閾値を学習することの重要性に焦点を当てる。 以上の結果から,過度パラメータからトレーニング可能なパラメータへのしきい値の促進は,訓練中の死ニューロンの問題に効果的に対処できることが示唆された。 これにより、収束性の向上、テスト精度の向上、NMNIST、DVS128、Spike Heidelberg Digits (SHD)のような時空間データセットの有効精度を達成するのに必要なトレーニングエポック数の大幅な削減、最大30%のトレーニングスピードアップと最大2%の精度を実現した、より堅牢なトレーニングアルゴリズムが実現される。

Neuromorphic computing has recently gained momentum with the emergence of various neuromorphic processors. As the field advances, there is an increasing focus on developing training methods that can effectively leverage the unique properties of spiking neural networks (SNNs). SNNs emulate the temporal dynamics of biological neurons, making them particularly well-suited for real-time, event-driven processing. To fully harness the potential of SNNs across different neuromorphic platforms, effective training methodologies are essential. In SNNs, learning rules are based on neurons' spiking behavior, that is, if and when spikes are generated due to a neuron's membrane potential exceeding that neuron's spiking threshold, and this spike timing encodes vital information. However, the threshold is generally treated as a hyperparameter, and incorrect selection can lead to neurons that do not spike for large portions of the training process, hindering the effective rate of learning. This work focuses on the significance of learning neuron thresholds alongside weights in SNNs. Our results suggest that promoting threshold from a hyperparameter to a trainable parameter effectively addresses the issue of dead neurons during training. This leads to a more robust training algorithm, resulting in improved convergence, increased test accuracy, and a substantial reduction in the number of training epochs required to achieve viable accuracy on spatiotemporal datasets such as NMNIST, DVS128, and Spiking Heidelberg Digits (SHD), with up to 30% training speed-up and up to 2% higher accuracy on these datasets.
翻訳日:2024-11-08 14:27:29 公開日:2024-10-31
# Diffusion-DICE:オフライン強化学習のためのインサンプル拡散誘導

Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning ( http://arxiv.org/abs/2407.20109v2 )

ライセンス: Link先を確認
Liyuan Mao, Haoran Xu, Xianyuan Zhan, Weinan Zhang, Amy Zhang, (参考訳) Distribution Correction Estimation (DICE) 法の1つの重要な性質は、最適化されたデータ収集ポリシーとデータ収集ポリシーの最適定常分布比であることである。 本研究では, DICEに基づく手法を行動分布から最適政策分布への変換とみなすことができることを示す。 そこで我々は拡散モデルを用いて直接この変換を行う新しい手法Diffusion-DICEを提案する。 最適ポリシのスコア関数は,最適分布比に依存するガイダンス項の勾配と行動ポリシのスコア関数の2つの項に分解できることがわかった。 第1項はデータセット上で訓練された拡散モデルから得ることができ、第2項を学習するためのサンプル内学習目標を提案する。 最適政策分布に含まれる多モード性のため、拡散DICEの変換はこれらの局所最適モードへ導くことができる。 そこで我々はいくつかの候補行動を生成し、それらを慎重に選択し、世界最適にアプローチする。 他の拡散に基づくオフラインRL法とは異なり、Diffusion-DICEのガイド-then-selectパラダイムはトレーニングにインサンプルアクションのみを使用し、値関数に最小限のエラー悪用をもたらす。 我々は,従来の拡散に基づく手法が,これらのエラーを利用して最適動作を生成できないこと,Diffusion-DICEがそれをうまく回避できることを示すために,寄生玩具ケースの例を用いている。 次に、Diffusion-DICEの強い性能を示すために、ベンチマークデータセットの広範な実験を行う。 プロジェクトページはhttps://ryanxhr.github.io/Diffusion-DICE/。

One important property of DIstribution Correction Estimation (DICE) methods is that the solution is the optimal stationary distribution ratio between the optimized and data collection policy. In this work, we show that DICE-based methods can be viewed as a transformation from the behavior distribution to the optimal policy distribution. Based on this, we propose a novel approach, Diffusion-DICE, that directly performs this transformation using diffusion models. We find that the optimal policy's score function can be decomposed into two terms: the behavior policy's score function and the gradient of a guidance term which depends on the optimal distribution ratio. The first term can be obtained from a diffusion model trained on the dataset and we propose an in-sample learning objective to learn the second term. Due to the multi-modality contained in the optimal policy distribution, the transformation in Diffusion-DICE may guide towards those local-optimal modes. We thus generate a few candidate actions and carefully select from them to approach global-optimum. Different from all other diffusion-based offline RL methods, the guide-then-select paradigm in Diffusion-DICE only uses in-sample actions for training and brings minimal error exploitation in the value function. We use a didatic toycase example to show how previous diffusion-based methods fail to generate optimal actions due to leveraging these errors and how Diffusion-DICE successfully avoids that. We then conduct extensive experiments on benchmark datasets to show the strong performance of Diffusion-DICE. Project page at https://ryanxhr.github.io/Diffusion-DICE/.
翻訳日:2024-11-08 14:16:02 公開日:2024-10-31
# 残留量子化の時間ガラス現象を破る:生成的検索の上限を高める

Breaking the Hourglass Phenomenon of Residual Quantization: Enhancing the Upper Bound of Generative Retrieval ( http://arxiv.org/abs/2407.21488v2 )

ライセンス: Link先を確認
Zhirui Kuai, Zuxu Chen, Huimu Wang, Mingming Li, Dadong Miao, Binbin Wang, Xusong Chen, Li Kuang, Yuxing Han, Jiaxing Wang, Guoyu Tang, Lin Liu, Songlin Wang, Jingwei Zhuo, (参考訳) ジェネレーティブ検索(GR)は、数値に基づく識別子表現を利用して効率と一般化を向上し、検索とレコメンデーションシステムにおいてトランスフォーメーションパラダイムとして登場した。 特に、Residual Quantization-based Semantic Identifiers (RQ-SID) を用いたTIGERのような手法は、アイテムIDを効果的に管理することで、eコマースのシナリオにおいて大きな可能性を示している。 しかし、「\textbf{Hourglass}」現象と呼ばれる重要な問題は、中間コードブックトークンが過度に集中し、生成的検索手法の完全活用を妨げるRQ-SIDにおいて発生し、本論文では、データの疎さと長期分布を主な原因として同定し、この問題に対処する。包括的実験と詳細なアブレーション研究により、これらの要因がコードブックの利用とデータ分布に与える影響を解析し、この現象が生成的検索におけるRQ-SIDの性能に著しく影響することを明らかにする。 本研究では,この問題を緩和する効果的なソリューションを提案し,現実のEコマースアプリケーションにおける生成検索の有効性を著しく向上させる。

Generative retrieval (GR) has emerged as a transformative paradigm in search and recommender systems, leveraging numeric-based identifier representations to enhance efficiency and generalization. Notably, methods like TIGER employing Residual Quantization-based Semantic Identifiers (RQ-SID), have shown significant promise in e-commerce scenarios by effectively managing item IDs. However, a critical issue termed the "\textbf{Hourglass}" phenomenon, occurs in RQ-SID, where intermediate codebook tokens become overly concentrated, hindering the full utilization of generative retrieval methods. This paper analyses and addresses this problem by identifying data sparsity and long-tailed distribution as the primary causes. Through comprehensive experiments and detailed ablation studies, we analyze the impact of these factors on codebook utilization and data distribution. Our findings reveal that the "Hourglass" phenomenon substantially impacts the performance of RQ-SID in generative retrieval. We propose effective solutions to mitigate this issue, thereby significantly enhancing the effectiveness of generative retrieval in real-world E-commerce applications.
翻訳日:2024-11-08 13:51:33 公開日:2024-10-31
# テーブルにおけるエンティティの曖昧さに関するLCMの評価

Evaluating LLMs on Entity Disambiguation in Tables ( http://arxiv.org/abs/2408.06423v2 )

ライセンス: Link先を確認
Federico Belotti, Fabio Dadda, Marco Cremaschi, Roberto Avogadro, Matteo Palmonari, (参考訳) テーブルは情報の重要なコンテナだが、その意味を理解することは難しいかもしれない。 長年にわたって、ディープラーニングに基づくデータ駆動アプローチへの関心が高まってきた。 最終時代において、 \acf{llms} の出現は、テーブルアノテーションに対するアプローチの新しいカテゴリへと繋がった。 しかし、これらのアプローチは共通の根拠で一貫して評価されておらず、評価と比較が困難である。 本研究は、アリゲータ(元s-elbat)、ダゴバ、TURL、TableLlamaの4つのSTI SOTAアプローチを広範囲に評価することを提案する。 また, GPT-4o と GPT-4o-mini は, 様々な公開ベンチマークにおいて優れており, 評価に含めている。 主な目的は, 共通グラウンド評価設定において達成された性能と, 計算・コスト要件の両方に関して, 分野における新たな研究パスをチャート化することを目的とした, エンティティの曖昧化課題を解決するためのこれらの手法の能力を測定することである。

Tables are crucial containers of information, but understanding their meaning may be challenging. Over the years, there has been a surge in interest in data-driven approaches based on deep learning that have increasingly been combined with heuristic-based ones. In the last period, the advent of \acf{llms} has led to a new category of approaches for table annotation. However, these approaches have not been consistently evaluated on a common ground, making evaluation and comparison difficult. This work proposes an extensive evaluation of four STI SOTA approaches: Alligator (formerly s-elbat), Dagobah, TURL, and TableLlama; the first two belong to the family of heuristic-based algorithms, while the others are respectively encoder-only and decoder-only Large Language Models (LLMs). We also include in the evaluation both GPT-4o and GPT-4o-mini, since they excel in various public benchmarks. The primary objective is to measure the ability of these approaches to solve the entity disambiguation task with respect to both the performance achieved on a common-ground evaluation setting and the computational and cost requirements involved, with the ultimate aim of charting new research paths in the field.
翻訳日:2024-11-08 11:26:46 公開日:2024-10-31
# テーブルにおけるエンティティの曖昧さに関するLCMの評価

Evaluating LLMs on Entity Disambiguation in Tables ( http://arxiv.org/abs/2408.06423v3 )

ライセンス: Link先を確認
Federico Belotti, Fabio Dadda, Marco Cremaschi, Roberto Avogadro, Matteo Palmonari, (参考訳) テーブルは情報の重要なコンテナだが、その意味を理解することは難しいかもしれない。 長年にわたって、ディープラーニングに基づくデータ駆動アプローチへの関心が高まってきた。 最終時代において、 \acf{llms} の出現は、テーブルアノテーションに対するアプローチの新しいカテゴリへと繋がった。 しかし、これらのアプローチは共通の根拠で一貫して評価されておらず、評価と比較が困難である。 本研究は、アリゲータ(元s-elbat)、ダゴバ、TURL、TableLlamaの4つのSTI SOTAアプローチを広範囲に評価することを提案する。 また, GPT-4o と GPT-4o-mini は, 様々な公開ベンチマークにおいて優れており, 評価に含めている。 主な目的は, 共通グラウンド評価設定において達成された性能と, 計算・コスト要件の両方に関して, 分野における新たな研究パスをチャート化することを目的とした, エンティティの曖昧化課題を解決するためのこれらの手法の能力を測定することである。

Tables are crucial containers of information, but understanding their meaning may be challenging. Over the years, there has been a surge in interest in data-driven approaches based on deep learning that have increasingly been combined with heuristic-based ones. In the last period, the advent of \acf{llms} has led to a new category of approaches for table annotation. However, these approaches have not been consistently evaluated on a common ground, making evaluation and comparison difficult. This work proposes an extensive evaluation of four STI SOTA approaches: Alligator (formerly s-elbat), Dagobah, TURL, and TableLlama; the first two belong to the family of heuristic-based algorithms, while the others are respectively encoder-only and decoder-only Large Language Models (LLMs). We also include in the evaluation both GPT-4o and GPT-4o-mini, since they excel in various public benchmarks. The primary objective is to measure the ability of these approaches to solve the entity disambiguation task with respect to both the performance achieved on a common-ground evaluation setting and the computational and cost requirements involved, with the ultimate aim of charting new research paths in the field.
翻訳日:2024-11-08 11:26:46 公開日:2024-10-31
# EraW-Net:Scene-associated Driver Attention Estimationのための Enhance-Refine-Align W-Net

EraW-Net: Enhance-Refine-Align W-Net for Scene-Associated Driver Attention Estimation ( http://arxiv.org/abs/2408.08570v2 )

ライセンス: Link先を確認
Jun Zhou, Chunsheng Liu, Faliang Chang, Wenqian Wang, Penghui Hao, Yiming Huang, Zhiqiang Yang, (参考訳) 2つの視野(FOV)にわたる運転シーンと運転注意を関連付けることは、クロスビューマッピング、動的運転シーン分析、運転状態追跡の包括的な検討を必要とする、難しいクロスドメイン認識問題である。 従来の手法は、通常、単一のビューにフォーカスするか、推定された視線を通してシーンに注意を向け、それらの間の暗黙のつながりを悪用しなかった。 さらに、単純な融合モジュールは2つのビュー間の複雑な関係をモデル化するのに不十分であり、情報統合を困難にしている。 これらの問題に対処するために,EraW-Netと呼ばれる,エンド・ツー・エンドのシーン関連運転注意度推定手法を提案する。 この方法は、最も差別的な動的キューを強化し、特徴表現を洗練し、W字型アーキテクチャ(W-Net)を通じて意味的に整合したクロスドメイン統合を容易にする。 具体的には,動的適応フィルタモジュール (DAF-Module) を提案する。 これは、無差別に記録された力学を抑え、革新的な結合周波数空間解析によって重要な力学を強調させ、複雑な力学を解析するモデルの能力を高める。 さらに,非固定顔貌におけるドライバの状態を追跡するために,頭部・眼球運動の様々なスケールに適応する階層的特徴を捉えることにより,洗練された特徴表現を構築するためのGlobal Context Sharing Module (GCS-Module)を提案する。 最後に、W-Netは、"Encoding-Independent partial Decoding-Fusion Decoding"構造を通じて、体系的なクロスビュー情報統合を実現し、異種データ統合における意味的ミスアライメントに対処する。 実験により,提案手法は大規模公共データセットのシーンにおける運転注意のマッピングを頑健かつ正確に推定することを示した。

Associating driver attention with driving scene across two fields of views (FOVs) is a hard cross-domain perception problem, which requires comprehensive consideration of cross-view mapping, dynamic driving scene analysis, and driver status tracking. Previous methods typically focus on a single view or map attention to the scene via estimated gaze, failing to exploit the implicit connection between them. Moreover, simple fusion modules are insufficient for modeling the complex relationships between the two views, making information integration challenging. To address these issues, we propose a novel method for end-to-end scene-associated driver attention estimation, called EraW-Net. This method enhances the most discriminative dynamic cues, refines feature representations, and facilitates semantically aligned cross-domain integration through a W-shaped architecture, termed W-Net. Specifically, a Dynamic Adaptive Filter Module (DAF-Module) is proposed to address the challenges of frequently changing driving environments by extracting vital regions. It suppresses the indiscriminately recorded dynamics and highlights crucial ones by innovative joint frequency-spatial analysis, enhancing the model's ability to parse complex dynamics. Additionally, to track driver states during non-fixed facial poses, we propose a Global Context Sharing Module (GCS-Module) to construct refined feature representations by capturing hierarchical features that adapt to various scales of head and eye movements. Finally, W-Net achieves systematic cross-view information integration through its "Encoding-Independent Partial Decoding-Fusion Decoding" structure, addressing semantic misalignment in heterogeneous data integration. Experiments demonstrate that the proposed method robustly and accurately estimates the mapping of driver attention in scene on large public datasets.
翻訳日:2024-11-08 07:18:07 公開日:2024-10-31
# 等角予測を用いたサロゲートモデルの不確かさ定量化

Uncertainty Quantification of Surrogate Models using Conformal Prediction ( http://arxiv.org/abs/2408.09881v2 )

ライセンス: Link先を確認
Vignesh Gopakumar, Ander Gray, Joel Oskarsson, Lorenzo Zanisi, Stanislas Pamela, Daniel Giles, Matt Kusner, Marc Peter Deisenroth, (参考訳) データ駆動サロゲートモデルは、複雑な数値および実験的なモデリングタスクに対する迅速で安価な近似として、大きな可能性を示してきた。 しかし、ほとんどの物理系の代理モデルは、その不確かさを定量化せず、予測を信頼できないものにし、さらなる検証を必要とする。 ベイズ近似はこれらのモデルに付随する誤差を推定するのにいくつかの欠点を与えるが、保証は得られず、それらの推論の質は、複雑な問題に対する事前の情報と後方への良好な近似の可用性に依存する。 これは特に多変数あるいは時空間問題に関係している。 本研究は,ほぼゼロの計算コストを要するモデル非依存の方法で時空間予測の限界範囲を満足する共形予測フレームワークを構築し,定式化する。 本稿では,サロゲートモデルの動作領域にまたがる保証されたカバレッジを提供する有効なエラーバーを確認するためのフレームワークの適用について,広範な実証的研究を行う。 我々の研究の適用範囲は、偏微分方程式の解法から天気予報に至るまで、幅広い時空間モデルにまたがる。 そこで本論文では,決定論的モデルに対する統計的に有効なエラーバーの提供と,確率論的モデルのエラーバーに対する保証の実現について検討する。 我々の共形予測形式は、モデルアーキテクチャやトレーニング体制によらず、サロゲートモデルのカバレッジを保証し、次元の呪いとは無関係である。

Data-driven surrogate models have shown immense potential as quick, inexpensive approximations to complex numerical and experimental modelling tasks. However, most surrogate models of physical systems do not quantify their uncertainty, rendering their predictions unreliable, requiring further validation. Though Bayesian approximations offer some solace in estimating the error associated with these models, they cannot provide guarantees, and the quality of their inferences depends on the availability of prior information and good approximations to posteriors for complex problems. This is particularly pertinent to multi-variable or spatio-temporal problems. Our work constructs and formalises a conformal prediction framework that satisfies marginal coverage for spatio-temporal predictions in a model-agnostic manner, requiring near-zero computational costs. We provide an extensive empirical study of the application of the framework to ascertain valid error bars that provide guaranteed coverage across the surrogate model's domain of operation. The application scope of our work extends across a large range of spatio-temporal models, from solving partial differential equations to weather forecasting. Through the applications, the paper looks at providing statistically valid error bars for deterministic models, as well as crafting guarantees to the error bars of probabilistic models. Our conformal prediction formalisation provides guaranteed coverage of the surrogate model, regardless of model architecture, and its training regime and is unbothered by the curse of dimensionality.
翻訳日:2024-11-08 06:55:48 公開日:2024-10-31
# 生成AIによるソフトウェアプログラミングの倫理: 生成AIによるプログラミングは常に急進的か?

Ethics of Software Programming with Generative AI: Is Programming without Generative AI always radical? ( http://arxiv.org/abs/2408.10554v2 )

ライセンス: Link先を確認
Marcellin Atemkeng, Sisipho Hamlomo, Brian Welman, Nicole Oyetunji, Pouya Ataei, Jean Louis K. E Fendji, (参考訳) 本稿では,ジェネレーティブAI(GenAI)の可能性について,効率の向上とコード記述時間の短縮を通じて,ソフトウェアコーディングに革命をもたらす可能性を包括的に分析する。 ソフトウェアコード生成におけるGenAIのトランスフォーメーション能力を認め、未確認の場合にはバイアスやエラーの固有のリスクに警告する。 従来のプログラミングの置き換え不可能な価値を強調して、GenAIは代替ではなく、ソフトウェアコードを書くための補完的なツールである、と論じている。 倫理的考察は、GenAIがより優れたものを提供し、ソフトウェアコードを書く際の説明責任を損なうことのないよう厳格な倫理的ガイドラインを提唱する論文の中で最重要である。 リスクを軽減し、信頼性を高めるために、人間の監視とAI能力を組み合わせたバランスのとれたアプローチを提案する。 この論文は、開発者が複雑さをナビゲートし、責任を持って採用することを可能にするコーディングにおけるGenAI活用のガイドラインを提案することで締めくくられている。 このアプローチは、現在の倫理的懸念に対処し、将来におけるGenAIの司法的利用の基礎を定め、その利益を道徳的整合性を維持しつつ効果的に活用することを保証する。

This paper provides a comprehensive analysis of Generative AI (GenAI) potential to revolutionise software coding through increased efficiency and reduced time span for writing code. It acknowledges the transformative power of GenAI in software code generation, while also cautioning against the inherent risks of bias and errors if left unchecked. Emphasising the irreplaceable value of traditional programming, it posits that GenAI is not a replacement but a complementary tool for writing software code. Ethical considerations are paramount with the paper advocating for stringent ethical guidelines to ensure GenAI serves the greater good and does not compromise on accountability in writing software code. It suggests a balanced approach, combining human oversight with AI's capabilities, to mitigate risks and enhance reliability. The paper concludes by proposing guidelines for GenAI utilisation in coding, which will empower developers to navigate its complexities and employ it responsibly. This approach addresses current ethical concerns and sets a foundation for the judicious use of GenAI in the future, ensuring its benefits are harnessed effectively while maintaining moral integrity.
翻訳日:2024-11-08 06:33:42 公開日:2024-10-31
# DTN:マルチタスクレコメンデーションのためのディープマルチタスク特化機能インタラクションネットワーク

DTN: Deep Multiple Task-specific Feature Interactions Network for Multi-Task Recommendation ( http://arxiv.org/abs/2408.11611v3 )

ライセンス: Link先を確認
Yaowen Bi, Yuteng Lian, Jie Cui, Jun Liu, Peijian Wang, Guanghui Li, Xuejun Chen, Jinglin Zhao, Hao Wen, Jing Zhang, Zhaoqi Zhang, Wenzhuo Song, Yang Sun, Weiwei Zhang, Mingchen Cai, Jian Dong, Guanxing Zhang, (参考訳) ニューラルベースマルチタスク学習(MTL)は多くのレコメンデーションアプリケーションにうまく適用されている。 しかし、これらのMTLモデル(例えば、MMoE, PLE)は、複雑な高次特徴を捉えるのに不可欠であり、現実世界のレコメンデータシステムのランキングモデルで広く使われている、最適化中の機能相互作用を考慮しなかった。 さらに,MTLにおける様々なタスクにまたがる特徴重要度分析を通じて,同じ特徴がMTLにおいて異なるタスクにまたがって著しく異なる重要性を持つという興味深い相違現象が観察された。 これらの課題に対処するために,新しいモデル構造設計を用いたDeep Multiple Task-specific Feature Interactions Network (DTN)を提案する。 DTNは,MTLネットワークにおける複数のタスク固有機能インタラクション手法とタスク依存ネットワークを導入し,タスク固有機能インタラクション表現を学習し,汎用的な設定による共同表現学習の効率を向上させる。 我々はDTNを63億以上のサンプルからなる実世界のEコマースレコメンデーションデータセットに適用し、DTNが最先端のMTLモデルを大幅に上回ったことを示した。 さらに,大規模EコマースレコメンデータシステムにおけるDTNのオンライン評価では,クリック数3.28%,注文数3.10%,GMV(Gross Merchandise Value)2.70%の増加が確認された。 最後に、公開ベンチマークデータセット上で行われた大規模なオフライン実験は、DTNがレコメンデーション以外の様々なシナリオに適用できることを示し、ランキングモデルの性能を高めている。

Neural-based multi-task learning (MTL) has been successfully applied to many recommendation applications. However, these MTL models (e.g., MMoE, PLE) did not consider feature interaction during the optimization, which is crucial for capturing complex high-order features and has been widely used in ranking models for real-world recommender systems. Moreover, through feature importance analysis across various tasks in MTL, we have observed an interesting divergence phenomenon that the same feature can have significantly different importance across different tasks in MTL. To address these issues, we propose Deep Multiple Task-specific Feature Interactions Network (DTN) with a novel model structure design. DTN introduces multiple diversified task-specific feature interaction methods and task-sensitive network in MTL networks, enabling the model to learn task-specific diversified feature interaction representations, which improves the efficiency of joint representation learning in a general setup. We applied DTN to our company's real-world E-commerce recommendation dataset, which consisted of over 6.3 billion samples, the results demonstrated that DTN significantly outperformed state-of-the-art MTL models. Moreover, during online evaluation of DTN in a large-scale E-commerce recommender system, we observed a 3.28% in clicks, a 3.10% increase in orders and a 2.70% increase in GMV (Gross Merchandise Value) compared to the state-of-the-art MTL models. Finally, extensive offline experiments conducted on public benchmark datasets demonstrate that DTN can be applied to various scenarios beyond recommendations, enhancing the performance of ranking models.
翻訳日:2024-11-08 06:11:36 公開日:2024-10-31
# ヒューマンレベル予測のための推論とツール

Reasoning and Tools for Human-Level Forecasting ( http://arxiv.org/abs/2408.12036v2 )

ライセンス: Link先を確認
Elvis Hsieh, Preston Fu, Jonathan Chen, (参考訳) Webスケールのデータセットでトレーニングされた言語モデル(LM)は、たとえいくつかの例にしか存在しないとしても、大量のトレーニングデータを記憶する能力により、大きな成功を収めている。 これらの能力は、質問応答のようなタスクの評価において望ましいが、これらのモデルが真の推論を示すか、トレーニングデータからパターンを模倣するだけに成功するかという疑問を提起する。 この区別は、トレーニングデータに答えが存在しないタスクを予測するのに特に有益であり、モデルが論理的推論を行う理由が必要である。 本稿では,Reasoning and Tools for Forecasting(RTF)について紹介する。Reasoning-acting(ReAct)エージェントのフレームワークで,更新情報を動的に取得し,装備ツールを用いて数値シミュレーションを行うことができる。 我々は,競争予測プラットフォームからの質問でモデルを評価し,本手法が人間の予測に勝るものであることを実証した。 これは、LMが正しいツールを使って、実際に人間のように考え、適応でき、現実世界の意思決定に貴重な洞察を与えることを示唆している。

Language models (LMs) trained on web-scale datasets are largely successful due to their ability to memorize large amounts of training data, even if only present in a few examples. These capabilities are often desirable in evaluation on tasks such as question answering but raise questions about whether these models can exhibit genuine reasoning or succeed only at mimicking patterns from the training data. This distinction is particularly salient in forecasting tasks, where the answer is not present in the training data, and the model must reason to make logical deductions. We present Reasoning and Tools for Forecasting (RTF), a framework of reasoning-and-acting (ReAct) agents that can dynamically retrieve updated information and run numerical simulation with equipped tools. We evaluate our model with questions from competitive forecasting platforms and demonstrate that our method is competitive with and can outperform human predictions. This suggests that LMs, with the right tools, can indeed think and adapt like humans, offering valuable insights for real-world decision-making.
翻訳日:2024-11-08 05:49:00 公開日:2024-10-31
# 3次元ガウス平滑化のための地表面散乱

Subsurface Scattering for 3D Gaussian Splatting ( http://arxiv.org/abs/2408.12282v2 )

ライセンス: Link先を確認
Jan-Niklas Dihlmann, Arjun Majumdar, Andreas Engelhardt, Raphael Braun, Hendrik P. A. Lensch, (参考訳) 散乱材料を用いた物体の3次元再構成とリライティングは、表面下の複雑な光輸送のために大きな課題となる。 3D Gaussian Splattingは、高品質のノベルビュー合成をリアルタイムに導入した。 3Dガウスは物体の表面を効率的に近似するが、地下散乱の体積特性を捉えることができない。 本稿では,マルチビューOLAT(1光1つ)データを用いてオブジェクトの形状を最適にするためのフレームワークを提案する。 本手法では,空間的に変化するBRDFと散乱成分の暗黙の体積表現により,シーンを3次元ガウス面に分解する。 学習されたインシデントライトフィールドはシャドーイングの原因となります。 我々は、レイトレーシングによる微分可能レンダリングにより、全てのパラメータを共同で最適化する。 本手法は,インタラクティブな速度で素材編集,リライティング,新しいビュー合成を可能にする。 合成データに適用し,新たに取得した複数視点のオブジェクトのマルチライトデータセットを軽段設定で導入する。 これまでの作業と比較すると、最適化とレンダリングのわずかな時間で同等またはより良い結果を達成すると同時に、材料属性の詳細な制御を可能にしました。 プロジェクトページ https://ss.jdihlmann.com/

3D reconstruction and relighting of objects made from scattering materials present a significant challenge due to the complex light transport beneath the surface. 3D Gaussian Splatting introduced high-quality novel view synthesis at real-time speeds. While 3D Gaussians efficiently approximate an object's surface, they fail to capture the volumetric properties of subsurface scattering. We propose a framework for optimizing an object's shape together with the radiance transfer field given multi-view OLAT (one light at a time) data. Our method decomposes the scene into an explicit surface represented as 3D Gaussians, with a spatially varying BRDF, and an implicit volumetric representation of the scattering component. A learned incident light field accounts for shadowing. We optimize all parameters jointly via ray-traced differentiable rendering. Our approach enables material editing, relighting and novel view synthesis at interactive rates. We show successful application on synthetic data and introduce a newly acquired multi-view multi-light dataset of objects in a light-stage setup. Compared to previous work we achieve comparable or better results at a fraction of optimization and rendering time while enabling detailed control over material attributes. Project page https://sss.jdihlmann.com/
翻訳日:2024-11-08 05:49:00 公開日:2024-10-31
# ロボットプロセス自動化による構造化データ処理の最適化

Optimizing Structured Data Processing through Robotic Process Automation ( http://arxiv.org/abs/2408.14791v2 )

ライセンス: Link先を確認
Vivek Bhardwaj, Ajit Noonia, Sandeep Chaurasia, Mukesh Kumar, Abdulnaser Rashid, Mohamed Tahar Ben Othman, (参考訳) ロボットプロセス自動化(Roboic Process Automation, RPA)は、請求書、購入注文、支払いアドバイスなどの大量のドキュメントを組織が処理し分析する方法に革命をもたらす、データ抽出におけるゲーム変革技術として登場した。 本研究では、構造化データ抽出における RPA の利用について検討し、手作業による処理よりもその優位性を評価する。 人為的なタスクとRPAソフトウェアボットが実行するタスクを比較することで、請求書からのデータ抽出の効率と精度を評価し、RPAシステムの有効性に焦点をあてる。 異なる回数の請求書を含む4つの異なるシナリオを通して、タスク完了に必要な時間と労力の観点で効率を計測し、マニュアルとRPAプロセスのエラー率を比較することによって精度を測る。 以上の結果から,ロボットが作業の完了に要する時間は,すべてのケースにおいて手作業よりも有意に少ないことが示唆された。 さらに、RPAシステムは、エラーのリスクを軽減し、プロセス信頼性を向上し、完全精度を一貫して達成する。 これらの結果は、運用効率を最適化し、人件費を削減し、全体的なビジネスパフォーマンスを向上させることにおける、RPAの変革的ポテンシャルを浮き彫りにしている。

Robotic Process Automation (RPA) has emerged as a game-changing technology in data extraction, revolutionizing the way organizations process and analyze large volumes of documents such as invoices, purchase orders, and payment advices. This study investigates the use of RPA for structured data extraction and evaluates its advantages over manual processes. By comparing human-performed tasks with those executed by RPA software bots, we assess efficiency and accuracy in data extraction from invoices, focusing on the effectiveness of the RPA system. Through four distinct scenarios involving varying numbers of invoices, we measure efficiency in terms of time and effort required for task completion, as well as accuracy by comparing error rates between manual and RPA processes. Our findings highlight the significant efficiency gains achieved by RPA, with bots completing tasks in significantly less time compared to manual efforts across all cases. Moreover, the RPA system consistently achieves perfect accuracy, mitigating the risk of errors and enhancing process reliability. These results underscore the transformative potential of RPA in optimizing operational efficiency, reducing human labor costs, and improving overall business performance.
翻訳日:2024-11-08 04:52:58 公開日:2024-10-31
# ロボットプロセス自動化による構造化データ処理の最適化

Optimizing Structured Data Processing through Robotic Process Automation ( http://arxiv.org/abs/2408.14791v3 )

ライセンス: Link先を確認
Vivek Bhardwaj, Ajit Noonia, Sandeep Chaurasia, Mukesh Kumar, Abdulnaser Rashid, Mohamed Tahar Ben Othman, (参考訳) ロボットプロセス自動化(Roboic Process Automation, RPA)は、請求書、購入注文、支払いアドバイスなどの大量のドキュメントを組織が処理し分析する方法に革命をもたらす、データ抽出におけるゲーム変革技術として登場した。 本研究では、構造化データ抽出における RPA の利用について検討し、手作業による処理よりもその優位性を評価する。 人為的なタスクとRPAソフトウェアボットが実行するタスクを比較することで、請求書からのデータ抽出の効率と精度を評価し、RPAシステムの有効性に焦点をあてる。 異なる回数の請求書を含む4つの異なるシナリオを通して、タスク完了に必要な時間と労力の観点で効率を計測し、マニュアルとRPAプロセスのエラー率を比較することによって精度を測る。 以上の結果から,ロボットが作業の完了に要する時間は,すべてのケースにおいて手作業よりも有意に少ないことが示唆された。 さらに、RPAシステムは、エラーのリスクを軽減し、プロセス信頼性を向上し、完全精度を一貫して達成する。 これらの結果は、運用効率を最適化し、人件費を削減し、全体的なビジネスパフォーマンスを向上させることにおける、RPAの変革的ポテンシャルを浮き彫りにしている。

Robotic Process Automation (RPA) has emerged as a game-changing technology in data extraction, revolutionizing the way organizations process and analyze large volumes of documents such as invoices, purchase orders, and payment advices. This study investigates the use of RPA for structured data extraction and evaluates its advantages over manual processes. By comparing human-performed tasks with those executed by RPA software bots, we assess efficiency and accuracy in data extraction from invoices, focusing on the effectiveness of the RPA system. Through four distinct scenarios involving varying numbers of invoices, we measure efficiency in terms of time and effort required for task completion, as well as accuracy by comparing error rates between manual and RPA processes. Our findings highlight the significant efficiency gains achieved by RPA, with bots completing tasks in significantly less time compared to manual efforts across all cases. Moreover, the RPA system consistently achieves perfect accuracy, mitigating the risk of errors and enhancing process reliability. These results underscore the transformative potential of RPA in optimizing operational efficiency, reducing human labor costs, and improving overall business performance.
翻訳日:2024-11-08 04:52:58 公開日:2024-10-31
# 視覚変換器の自己監督学習メカニズムの検討

A Survey of the Self Supervised Learning Mechanisms for Vision Transformers ( http://arxiv.org/abs/2408.17059v3 )

ライセンス: Link先を確認
Asifullah Khan, Anabia Sohail, Mustansar Fiaz, Mehdi Hassan, Tariq Habib Afridi, Sibghat Ullah Marwat, Farzeen Munir, Safdar Ali, Hannan Naseem, Muhammad Zaigham Zaheer, Kamran Ali, Tangina Sultana, Ziaurrehman Tanoli, Naeem Akhter, (参考訳) 深い教師付き学習モデルは十分な良い結果を得るためにラベル付きデータの量を必要とする。 しかし、このようなビッグデータの収集と注釈付けの慣行は、費用も労力もかかる。 近年,視覚タスクにおける自己教師あり学習(SSL)の適用が注目されている。 SSLの背後にある直感は、データ内の同期関係を、汎用性のあるセルフスーパービジョンの形式として利用することである。 現在のビッグデータ時代では、ほとんどのデータがラベル付けされていないため、SSLの成功は、この膨大な量のラベル付けされていないデータを利用できるようにする方法を見つけることに依存する。 したがって、深層学習アルゴリズムは、人間の監督への依存を減らし、データ内の固有の関係に基づいて自己監督に焦点を当てる方がよい。 コンピュータビジョンにおいて顕著な成果を上げたViTの出現により、限られたラベル付きデータが利用可能なシナリオにおいて、これらのモデルのトレーニングに使用されるさまざまなSSLメカニズムを探求し、理解することが不可欠である。 本研究では,その表現と事前学習課題に基づいて,SSL手法を体系的に分類する包括的分類法を開発する。 さらに、SSLの背後にあるモチベーションについて議論し、人気のある事前トレーニングタスクをレビューし、この分野の課題と進歩を強調します。 さらに,異なるSSL手法の比較分析を行い,その強度と限界を評価し,今後の研究の道筋を明らかにする。

Deep supervised learning models require high volume of labeled data to attain sufficiently good results. Although, the practice of gathering and annotating such big data is costly and laborious. Recently, the application of self supervised learning (SSL) in vision tasks has gained significant attention. The intuition behind SSL is to exploit the synchronous relationships within the data as a form of self-supervision, which can be versatile. In the current big data era, most of the data is unlabeled, and the success of SSL thus relies in finding ways to utilize this vast amount of unlabeled data available. Thus it is better for deep learning algorithms to reduce reliance on human supervision and instead focus on self-supervision based on the inherent relationships within the data. With the advent of ViTs, which have achieved remarkable results in computer vision, it is crucial to explore and understand the various SSL mechanisms employed for training these models specifically in scenarios where there is limited labelled data available. In this survey, we develop a comprehensive taxonomy of systematically classifying the SSL techniques based upon their representations and pre-training tasks being applied. Additionally, we discuss the motivations behind SSL, review popular pre-training tasks, and highlight the challenges and advancements in this field. Furthermore, we present a comparative analysis of different SSL methods, evaluate their strengths and limitations, and identify potential avenues for future research.
翻訳日:2024-11-08 04:08:49 公開日:2024-10-31
# 配列モデルにおける過度パラメータ化による適応性の向上

Improving Adaptivity via Over-Parameterization in Sequence Models ( http://arxiv.org/abs/2409.00894v2 )

ライセンス: Link先を確認
Yicheng Li, Qian Lin, (参考訳) カーネルの固有関数がカーネル回帰において重要な役割を果たすことはよく知られている。 いくつかの例を通して、同じ固有関数の集合であっても、これらの関数の順序が回帰結果に大きな影響を及ぼすことを示した。 カーネルを対角化することでモデルを単純化し、列モデルの領域に過度にパラメータ化された勾配降下を導入し、固定された固有関数集合の様々な順序の影響を捉える。 この方法は様々な固有関数順序の影響を探索するために設計されている。 理論的には、過パラメータ化勾配流は信号の基盤構造に適応し、バニラ勾配流法を著しく上回ることを示す。 さらに,より深いパラメータ化により,モデルの一般化能力がさらに向上することを示す。 これらの結果は、オーバーパラメータ化のメリットに関する新たな視点を提供するだけでなく、カーネル体制を超えたニューラルネットワークの適応性と一般化の可能性に関する洞察を提供する。

It is well known that eigenfunctions of a kernel play a crucial role in kernel regression. Through several examples, we demonstrate that even with the same set of eigenfunctions, the order of these functions significantly impacts regression outcomes. Simplifying the model by diagonalizing the kernel, we introduce an over-parameterized gradient descent in the realm of sequence model to capture the effects of various orders of a fixed set of eigen-functions. This method is designed to explore the impact of varying eigenfunction orders. Our theoretical results show that the over-parameterization gradient flow can adapt to the underlying structure of the signal and significantly outperform the vanilla gradient flow method. Moreover, we also demonstrate that deeper over-parameterization can further enhance the generalization capability of the model. These results not only provide a new perspective on the benefits of over-parameterization and but also offer insights into the adaptivity and generalization potential of neural networks beyond the kernel regime.
翻訳日:2024-11-08 03:35:26 公開日:2024-10-31
# 大規模言語モデルにおける選好学習の統一的視点に向けて:調査

Towards a Unified View of Preference Learning for Large Language Models: A Survey ( http://arxiv.org/abs/2409.02795v4 )

ライセンス: Link先を確認
Bofei Gao, Feifan Song, Yibo Miao, Zefan Cai, Zhe Yang, Liang Chen, Helan Hu, Runxin Xu, Qingxiu Dong, Ce Zheng, Shanghaoran Quan, Wen Xiao, Ge Zhang, Daoguang Zan, Keming Lu, Bowen Yu, Dayiheng Liu, Zeyu Cui, Jian Yang, Lei Sha, Houfeng Wang, Zhifang Sui, Peiyi Wang, Tianyu Liu, Baobao Chang, (参考訳) 大きな言語モデル(LLM)は、非常に強力な能力を示す。 成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。 このアライメントプロセスは、LLMの性能を効率的に向上するために、少量のデータしか必要としないことが多い。 効果的な分野ではあるが、この分野の研究は複数の領域にまたがっており、関連する手法は比較的複雑である。 異なる方法間の関係は未探索であり、好みのアライメントの発達を制限している。 これを踏まえ、我々は既存の一般的なアライメント戦略を異なるコンポーネントに分割し、現在のアライメント戦略を研究するための統一されたフレームワークを提供し、それら間の接続を確立する。 本研究では、選好学習におけるすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。 この統合されたビューは、既存のアライメントアルゴリズムの深い理解を提供すると同時に、異なる戦略の強みを相乗化する可能性も開きます。 さらに,本論文では,読者の包括的理解を促進するために,既存アルゴリズムの詳細な実例を示す。 最後に、我々の統一的な視点に基づいて、大きな言語モデルと人間の嗜好を整合させるための課題と今後の研究方向性について検討する。

Large Language Models (LLMs) exhibit remarkably powerful capabilities. One of the crucial factors to achieve success is aligning the LLM's output with human preferences. This alignment process often requires only a small amount of data to efficiently enhance the LLM's performance. While effective, research in this area spans multiple domains, and the methods involved are relatively complex to understand. The relationships between different methods have been under-explored, limiting the development of the preference alignment. In light of this, we break down the existing popular alignment strategies into different components and provide a unified framework to study the current alignment strategies, thereby establishing connections among them. In this survey, we decompose all the strategies in preference learning into four components: model, data, feedback, and algorithm. This unified view offers an in-depth understanding of existing alignment algorithms and also opens up possibilities to synergize the strengths of different strategies. Furthermore, we present detailed working examples of prevalent existing algorithms to facilitate a comprehensive understanding for the readers. Finally, based on our unified perspective, we explore the challenges and future research directions for aligning large language models with human preferences.
翻訳日:2024-11-07 23:34:03 公開日:2024-10-31
# 大規模言語モデルにおける選好学習の統一的視点に向けて:調査

Towards a Unified View of Preference Learning for Large Language Models: A Survey ( http://arxiv.org/abs/2409.02795v5 )

ライセンス: Link先を確認
Bofei Gao, Feifan Song, Yibo Miao, Zefan Cai, Zhe Yang, Liang Chen, Helan Hu, Runxin Xu, Qingxiu Dong, Ce Zheng, Shanghaoran Quan, Wen Xiao, Ge Zhang, Daoguang Zan, Keming Lu, Bowen Yu, Dayiheng Liu, Zeyu Cui, Jian Yang, Lei Sha, Houfeng Wang, Zhifang Sui, Peiyi Wang, Tianyu Liu, Baobao Chang, (参考訳) 大きな言語モデル(LLM)は、非常に強力な能力を示す。 成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。 このアライメントプロセスは、LLMの性能を効率的に向上するために、少量のデータしか必要としないことが多い。 効果的な分野ではあるが、この分野の研究は複数の領域にまたがっており、関連する手法は比較的複雑である。 異なる方法間の関係は未探索であり、好みのアライメントの発達を制限している。 これを踏まえ、我々は既存の一般的なアライメント戦略を異なるコンポーネントに分割し、現在のアライメント戦略を研究するための統一されたフレームワークを提供し、それら間の接続を確立する。 本研究では、選好学習におけるすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。 この統合されたビューは、既存のアライメントアルゴリズムの深い理解を提供すると同時に、異なる戦略の強みを相乗化する可能性も開きます。 さらに,本論文では,読者の包括的理解を促進するために,既存アルゴリズムの詳細な実例を示す。 最後に、我々の統一的な視点に基づいて、大きな言語モデルと人間の嗜好を整合させるための課題と今後の研究方向性について検討する。

Large Language Models (LLMs) exhibit remarkably powerful capabilities. One of the crucial factors to achieve success is aligning the LLM's output with human preferences. This alignment process often requires only a small amount of data to efficiently enhance the LLM's performance. While effective, research in this area spans multiple domains, and the methods involved are relatively complex to understand. The relationships between different methods have been under-explored, limiting the development of the preference alignment. In light of this, we break down the existing popular alignment strategies into different components and provide a unified framework to study the current alignment strategies, thereby establishing connections among them. In this survey, we decompose all the strategies in preference learning into four components: model, data, feedback, and algorithm. This unified view offers an in-depth understanding of existing alignment algorithms and also opens up possibilities to synergize the strengths of different strategies. Furthermore, we present detailed working examples of prevalent existing algorithms to facilitate a comprehensive understanding for the readers. Finally, based on our unified perspective, we explore the challenges and future research directions for aligning large language models with human preferences.
翻訳日:2024-11-07 23:34:03 公開日:2024-10-31
# MaterialBENCH:大学レベルの物質科学評価-大規模言語モデルの解答能力

MaterialBENCH: Evaluating College-Level Materials Science Problem-Solving Abilities of Large Language Models ( http://arxiv.org/abs/2409.03161v2 )

ライセンス: Link先を確認
Michiko Yoshitake, Yuta Suzuki, Ryo Igarashi, Yoshitaka Ushiku, Keisuke Nagato, (参考訳) 材料科学分野における大規模言語モデル(LLM)のための大学レベルのベンチマークデータセットであるMaterialBENCHを構築した。 このデータセットは、大学教科書に基づく問題解決ペアで構成されている。 1つは自由応答型であり、もう1つは多重選択型である。 複数選択問題は、3つの誤った答えを正しい答えに選択することで構成され、LCMは4つのうちの1つを応答として選択できる。 自由応答型と複数選択型の問題のほとんどは、回答の形式を除いて重複している。 また、ChatGPT-3.5、ChatGPT-4、Bard(実験当時)、OpenAI APIによるGPT-3.5およびGPT-4など、LCM上でのMaterialBENCHを用いた実験を行った。 材料BENCHで測定したLLMの性能の相違と類似性について検討した。 また,同モデルにおける自由応答型と多重選択型の性能差と,マルチ選択問題に対するシステムマッサージの使用の影響についても検討した。 MaterialsBENCHは、より複雑な問題を解決する能力の推論においてLLMのさらなる発展を促進し、最終的には材料研究や発見に貢献することを期待している。

A college-level benchmark dataset for large language models (LLMs) in the materials science field, MaterialBENCH, is constructed. This dataset consists of problem-answer pairs, based on university textbooks. There are two types of problems: one is the free-response answer type, and the other is the multiple-choice type. Multiple-choice problems are constructed by adding three incorrect answers as choices to a correct answer, so that LLMs can choose one of the four as a response. Most of the problems for free-response answer and multiple-choice types overlap except for the format of the answers. We also conduct experiments using the MaterialBENCH on LLMs, including ChatGPT-3.5, ChatGPT-4, Bard (at the time of the experiments), and GPT-3.5 and GPT-4 with the OpenAI API. The differences and similarities in the performance of LLMs measured by the MaterialBENCH are analyzed and discussed. Performance differences between the free-response type and multiple-choice type in the same models and the influence of using system massages on multiple-choice problems are also studied. We anticipate that MaterialBENCH will encourage further developments of LLMs in reasoning abilities to solve more complicated problems and eventually contribute to materials research and discovery.
翻訳日:2024-11-07 23:23:02 公開日:2024-10-31
# Attend First, Consolidate Later: 異なるLDM層における注意の重要性について

Attend First, Consolidate Later: On the Importance of Attention in Different LLM Layers ( http://arxiv.org/abs/2409.03621v2 )

ライセンス: Link先を確認
Amit Ben-Artzy, Roy Schwartz, (参考訳) デコーダベースのLCMでは、与えられたレイヤの表現は、現在のトークンの計算中に次のレイヤへの入力として、将来のトークンの注意機構への入力として、2つの目的を果たす。 本研究では,後者の役割の重要性が過大評価される可能性があることを示す。 例えば、ある層 k の隠れた状態をランダムなベクトルに置き換えることで、以前のトークンの表現を操作することから始める。 4つのLDMと4つのタスクを実験したところ、この操作は、しばしば小さくて無視できない性能低下につながることが示されている。 重要なことに、モデル-kの上部で操作がおこなわれると、レイヤの最後の30~50%が処理される。 対照的に、以前のレイヤで同じ操作を行うと、チャンスレベルのパフォーマンスにつながる可能性がある。 我々は、あるトークンの隠された状態を他のプロンプトから他のトークンの隠された状態に切り替え、例えば、"Italy" を "What is the capital of Italy?" の "France" に置き換える。 モデルのトップ1/3にこのスイッチを適用すると、モデルはそれを無視する("Rome"を答える)。 しかし、前もってそれを適用すれば、モデルはスイッチ("Paris")に適合する。 以上の結果から,トランスフォーマーをベースとしたLLMにおける2段階のプロセスが示唆された。

In decoder-based LLMs, the representation of a given layer serves two purposes: as input to the next layer during the computation of the current token; and as input to the attention mechanism of future tokens. In this work, we show that the importance of the latter role might be overestimated. To show that, we start by manipulating the representations of previous tokens; e.g. by replacing the hidden states at some layer k with random vectors. Our experimenting with four LLMs and four tasks show that this operation often leads to small to negligible drop in performance. Importantly, this happens if the manipulation occurs in the top part of the model-k is in the final 30-50% of the layers. In contrast, doing the same manipulation in earlier layers might lead to chance level performance. We continue by switching the hidden state of certain tokens with hidden states of other tokens from another prompt; e.g., replacing the word "Italy" with "France" in "What is the capital of Italy?". We find that when applying this switch in the top 1/3 of the model, the model ignores it (answering "Rome"). However if we apply it before, the model conforms to the switch ("Paris"). Our results hint at a two stage process in transformer-based LLMs: the first part gathers input from previous tokens, while the second mainly processes that information internally.
翻訳日:2024-11-07 23:23:02 公開日:2024-10-31
# 質問応答におけるLLMと知識グラフの組み合わせによる幻覚の低減

Combining LLMs and Knowledge Graphs to Reduce Hallucinations in Question Answering ( http://arxiv.org/abs/2409.04181v2 )

ライセンス: Link先を確認
Larissa Pusch, Tim O. F. Conrad, (参考訳) 自然言語処理の進歩は、データベースのようなデジタル情報システムとの対話方法に革命をもたらし、それらにアクセスしやすくしています。 しかし、特にバイオメディカル領域のように、正確性が重要である場合、課題は持続する。 主要な問題は幻覚の問題であり、モデルが基盤となるデータから情報を取り除き、危険な誤報につながる可能性がある。 本稿では,バイオメディカルKGの例として,大規模言語モデル(LLM)と知識グラフ(KG)を組み合わせて,質問応答システムの精度と信頼性を向上させることにより,このギャップを埋める新しいアプローチを提案する。 提案手法はLangChainフレームワーク上に構築され,LLM生成クエリの構文的・意味的妥当性を保証するクエリチェッカーを組み込んで,知識グラフから情報を抽出し,幻覚などのエラーを大幅に低減する。 GPT-4 Turbo や llama3:70b などの LLM の試験を行った。 GPT-4 Turboは正確なクエリ生成において他のモデルよりも優れているが、llama3:70bのようなオープンソースモデルは適切なプロンプトエンジニアリングを約束することを示している。 このアプローチをアクセス可能にするために、ユーザフレンドリーなWebベースのインターフェースが開発され、自然言語クエリ、生成されたCypherクエリ、修正されたCypherクエリを入力し、その結果のパスを精度良く検証することができる。 全体として、このハイブリッドアプローチは、データギャップや幻覚といった一般的な問題に効果的に対処し、質問応答システムに対する信頼性と直感的なソリューションを提供する。 この論文の結果とユーザインターフェースを生成するソースコードは、Gitリポジトリで確認できます。

Advancements in natural language processing have revolutionized the way we can interact with digital information systems, such as databases, making them more accessible. However, challenges persist, especially when accuracy is critical, as in the biomedical domain. A key issue is the hallucination problem, where models generate information unsupported by the underlying data, potentially leading to dangerous misinformation. This paper presents a novel approach designed to bridge this gap by combining Large Language Models (LLM) and Knowledge Graphs (KG) to improve the accuracy and reliability of question-answering systems, on the example of a biomedical KG. Built on the LangChain framework, our method incorporates a query checker that ensures the syntactical and semantic validity of LLM-generated queries, which are then used to extract information from a Knowledge Graph, substantially reducing errors like hallucinations. We evaluated the overall performance using a new benchmark dataset of 50 biomedical questions, testing several LLMs, including GPT-4 Turbo and llama3:70b. Our results indicate that while GPT-4 Turbo outperforms other models in generating accurate queries, open-source models like llama3:70b show promise with appropriate prompt engineering. To make this approach accessible, a user-friendly web-based interface has been developed, allowing users to input natural language queries, view generated and corrected Cypher queries, and verify the resulting paths for accuracy. Overall, this hybrid approach effectively addresses common issues such as data gaps and hallucinations, offering a reliable and intuitive solution for question answering systems. The source code for generating the results of this paper and for the user-interface can be found in our Git repository: https://git.zib.de/lpusch/cyphergenkg-gui
翻訳日:2024-11-07 23:11:54 公開日:2024-10-31
# マルチホップ推論における難読化要因:大規模言語モデルは注意深い読者か?

Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? ( http://arxiv.org/abs/2409.05197v2 )

ライセンス: Link先を確認
Neeladri Bhuiya, Viktor Schlegel, Stefan Winkler, (参考訳) State-of-the-art Large Language Models (LLMs) は、理解を読み取ること、高度な数学や推論のスキルから科学的知識を持つことまで、様々な能力で知られている。 本稿では,複数のテキストソースからの情報を識別し,統合する機能であるマルチホップ推論機能に着目した。 既存のマルチホップ推論ベンチマークにおいて、モデルが推論要求を回避できるような簡単なキューが存在するという懸念を踏まえて、LSMがそのような簡易なキューを利用する傾向にあるかどうかを考察する。 マルチホップ推論(multi-hop reasoning)の要件を実際に回避する証拠は見出されているが,従来のPLMよりも微妙な方法で実施されている。 この発見に動機づけられた我々は、プラウプブルなマルチホップ推論連鎖を生成することで、最終的には誤った答えをもたらす、挑戦的なマルチホップ推論ベンチマークを提案する。 我々は,複数のオープンかつプロプライエタリなLCMを評価し,それらのマルチホップ推論性能に影響を及ぼすことを示した。 我々はより深い分析を行い、LLMは誤解を招く語彙的手がかりを無視する傾向があるが、誤解を招く推論経路は確かに重大な課題であることを示す。

State-of-the-art Large Language Models (LLMs) are accredited with an increasing number of different capabilities, ranging from reading comprehension, over advanced mathematical and reasoning skills to possessing scientific knowledge. In this paper we focus on their multi-hop reasoning capability: the ability to identify and integrate information from multiple textual sources. Given the concerns with the presence of simplifying cues in existing multi-hop reasoning benchmarks, which allow models to circumvent the reasoning requirement, we set out to investigate, whether LLMs are prone to exploiting such simplifying cues. We find evidence that they indeed circumvent the requirement to perform multi-hop reasoning, but they do so in more subtle ways than what was reported about their fine-tuned pre-trained language model (PLM) predecessors. Motivated by this finding, we propose a challenging multi-hop reasoning benchmark, by generating seemingly plausible multi-hop reasoning chains, which ultimately lead to incorrect answers. We evaluate multiple open and proprietary state-of-the-art LLMs, and find that their performance to perform multi-hop reasoning is affected, as indicated by up to 45% relative decrease in F1 score when presented with such seemingly plausible alternatives. We conduct a deeper analysis and find evidence that while LLMs tend to ignore misleading lexical cues, misleading reasoning paths indeed present a significant challenge.
翻訳日:2024-11-07 22:38:45 公開日:2024-10-31
# マルチホップ推論における難読化要因:大規模言語モデルは注意深い読者か?

Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? ( http://arxiv.org/abs/2409.05197v3 )

ライセンス: Link先を確認
Neeladri Bhuiya, Viktor Schlegel, Stefan Winkler, (参考訳) State-of-the-art Large Language Models (LLMs) は、理解を読み取ること、高度な数学や推論のスキルから科学的知識を持つことまで、様々な能力で知られている。 本稿では,複数のテキストソースからの情報を識別し,統合する機能であるマルチホップ推論機能に着目した。 既存のマルチホップ推論ベンチマークにおいて、モデルが推論要求を回避できるような簡単なキューが存在するという懸念を踏まえて、LSMがそのような簡易なキューを利用する傾向にあるかどうかを考察する。 マルチホップ推論(multi-hop reasoning)の要件を実際に回避する証拠は見出されているが,従来のPLMよりも微妙な方法で実施されている。 この発見に動機づけられた我々は、プラウプブルなマルチホップ推論連鎖を生成することで、最終的には誤った答えをもたらす、挑戦的なマルチホップ推論ベンチマークを提案する。 我々は,複数のオープンかつプロプライエタリなLCMを評価し,それらのマルチホップ推論性能に影響を及ぼすことを示した。 我々はより深い分析を行い、LLMは誤解を招く語彙的手がかりを無視する傾向があるが、誤解を招く推論経路は確かに重大な課題であることを示す。

State-of-the-art Large Language Models (LLMs) are accredited with an increasing number of different capabilities, ranging from reading comprehension, over advanced mathematical and reasoning skills to possessing scientific knowledge. In this paper we focus on their multi-hop reasoning capability: the ability to identify and integrate information from multiple textual sources. Given the concerns with the presence of simplifying cues in existing multi-hop reasoning benchmarks, which allow models to circumvent the reasoning requirement, we set out to investigate, whether LLMs are prone to exploiting such simplifying cues. We find evidence that they indeed circumvent the requirement to perform multi-hop reasoning, but they do so in more subtle ways than what was reported about their fine-tuned pre-trained language model (PLM) predecessors. Motivated by this finding, we propose a challenging multi-hop reasoning benchmark, by generating seemingly plausible multi-hop reasoning chains, which ultimately lead to incorrect answers. We evaluate multiple open and proprietary state-of-the-art LLMs, and find that their performance to perform multi-hop reasoning is affected, as indicated by up to 45% relative decrease in F1 score when presented with such seemingly plausible alternatives. We conduct a deeper analysis and find evidence that while LLMs tend to ignore misleading lexical cues, misleading reasoning paths indeed present a significant challenge.
翻訳日:2024-11-07 22:38:45 公開日:2024-10-31
# リーン4の異なる分野における数学的形式化された問題解決と定理証明

Mathematical Formalized Problem Solving and Theorem Proving in Different Fields in Lean 4 ( http://arxiv.org/abs/2409.05977v2 )

ライセンス: Link先を確認
Xichen Tang, (参考訳) 数学の定理を証明するために、Lean 4のようなコンピュータで検証可能な形式言語を使うことは、数学的形式化に大きな影響を与える。 リーン4は、数学的推論を前進させる大きな可能性を提供します。 しかし、既存の取り組みは、実質的なオンラインコーパスにおける数学的形式化言語に限られており、急速に進化する言語とのペースを維持することに専念している。 従来の証明と計算機化された証明のギャップを埋めるために、私の定理証明へのアプローチは、自然言語(NL)の証明に基づいたLarge Language Models(LLM)を用いて形式的なステップと完全証明を生成することである。 この方法は、基本構造と戦術を一般に導入し、AIが数学的形式化プロセスをどのように支援し、その性能を改善するかを決定し、IMOを中心にしてNLと比較したLean 4の問題解決の例と抽象代数学で証明されたサンプル定理を提示する。

Using computerized verifiable formal languages like Lean 4 to prove mathematical theorems has a significant impact on mathematical formalization. Lean 4 offers prominent potential for advancing mathematical reasoning. However, existing efforts are limited to mathematical formalization languages in substantial online corpora and are dedicated to keeping pace with rapidly evolving languages. To bridge the gap between the traditional and computerized proof, my approach to formalizing theorem proving involves generating formal steps and complete proofs using Large Language Models (LLMs) based on Natural Language (NL) proofs. The method is to introduce the basic structure and tactics in general, determine how AI can assist the mathematical formalization process to improve its performance, and give examples of solving problems in Lean 4 comparing to NL, mainly in IMO, and a sample theorem proving in abstract algebra.
翻訳日:2024-11-07 22:27:40 公開日:2024-10-31
# MTLSO:論理合成最適化のためのマルチタスク学習手法

MTLSO: A Multi-Task Learning Approach for Logic Synthesis Optimization ( http://arxiv.org/abs/2409.06077v2 )

ライセンス: Link先を確認
Faezeh Faez, Raika Karimi, Yingxue Zhang, Xing Li, Lei Chen, Mingxuan Yuan, Mahdi Biparva, (参考訳) 電子設計自動化(EDA、Electronic Design Automation)は、IC設計に不可欠であり、最近、AIベースの技術による効率向上の恩恵を受けている。 EDAの重要なステージであるロジック合成は、ハイレベルなハードウェア記述を最適化されたネットリストに変換する。 近年の研究では、AIG(And-Inverter Graphs)と合成レシピのペアに対して、QoR(Quality of Results)を予測するために機械学習を採用している。 しかし、利用可能なAIGの数が極めて限られているため、データ不足が過度に適合し、性能を著しく損なうことになる。 さらに、AIGの複雑さと多数のノードは、表現力のあるグラフレベルの表現を学習する上で、通常のGNNの効率を低下させる。 これらの課題に対処するため,論理合成最適化のためのマルチタスク学習手法であるMTLSOを提案する。 一方、異なるタスク間でモデルをトレーニングすることで、限られたデータの使用を最大化する。 これには、一次回帰タスクと並行してバイナリマルチラベルグラフ分類の補助タスクが導入され、モデルが多様な監督ソースの恩恵を受けることができる。 一方、我々は階層的なグラフ表現学習戦略を用いて、従来のGNNを超越した大規模AIGのグラフレベル表現を表現的に学習するモデルの能力を向上させる。 複数のデータセットにまたがる大規模な実験と最先端のベースラインに対する実験により,提案手法の優位性を実証し,遅延平均8.22\%,面積平均5.95\%を実現した。

Electronic Design Automation (EDA) is essential for IC design and has recently benefited from AI-based techniques to improve efficiency. Logic synthesis, a key EDA stage, transforms high-level hardware descriptions into optimized netlists. Recent research has employed machine learning to predict Quality of Results (QoR) for pairs of And-Inverter Graphs (AIGs) and synthesis recipes. However, the severe scarcity of data due to a very limited number of available AIGs results in overfitting, significantly hindering performance. Additionally, the complexity and large number of nodes in AIGs make plain GNNs less effective for learning expressive graph-level representations. To tackle these challenges, we propose MTLSO - a Multi-Task Learning approach for Logic Synthesis Optimization. On one hand, it maximizes the use of limited data by training the model across different tasks. This includes introducing an auxiliary task of binary multi-label graph classification alongside the primary regression task, allowing the model to benefit from diverse supervision sources. On the other hand, we employ a hierarchical graph representation learning strategy to improve the model's capacity for learning expressive graph-level representations of large AIGs, surpassing traditional plain GNNs. Extensive experiments across multiple datasets and against state-of-the-art baselines demonstrate the superiority of our method, achieving an average performance gain of 8.22\% for delay and 5.95\% for area.
翻訳日:2024-11-07 22:16:23 公開日:2024-10-31
# VE:変数埋め込みによる多変量時系列相関のモデル化

VE: Modeling Multivariate Time Series Correlation with Variate Embedding ( http://arxiv.org/abs/2409.06169v2 )

ライセンス: Link先を確認
Shangjiong Wang, Zhihong Man, Zhenwei Cao, Jinchuan Zheng, Zhikang Ge, (参考訳) 多変量時系列予測は、変数間の相関を正確に把握することに依存する。 現在のチャネル非依存(CI)モデルとCI最終プロジェクション層を持つモデルは、これらの依存関係をキャプチャできない。 本稿では,各変数に対して一意かつ一貫した埋め込みを学習し,パラメータサイズを制御しながら予測性能を向上させるために,Mixture of Experts (MoE) と Low-Rank Adaptation (LoRA) 技術を組み合わせた可変埋め込み(VE)パイプラインを提案する。 VEパイプラインは、CI最終プロジェクション層を持つ任意のモデルに統合して、多変量予測を改善することができる。 学習されたVEは、同じ時間パターンで発散し、相関が低いものを分離する。 VEパイプラインの有効性は、広く使用されている4つのデータセットの実験を通じて実証される。 コードは、https://github.com/swang-song/VE.comで入手できる。

Multivariate time series forecasting relies on accurately capturing the correlations among variates. Current channel-independent (CI) models and models with a CI final projection layer are unable to capture these dependencies. In this paper, we present the variate embedding (VE) pipeline, which learns a unique and consistent embedding for each variate and combines it with Mixture of Experts (MoE) and Low-Rank Adaptation (LoRA) techniques to enhance forecasting performance while controlling parameter size. The VE pipeline can be integrated into any model with a CI final projection layer to improve multivariate forecasting. The learned VE effectively groups variates with similar temporal patterns and separates those with low correlations. The effectiveness of the VE pipeline is demonstrated through experiments on four widely-used datasets. The code is available at: https://github.com/swang-song/VE.
翻訳日:2024-11-07 22:16:23 公開日:2024-10-31
# 複素ホログラム生成のための量子ニューラルネットワーク

Quantized neural network for complex hologram generation ( http://arxiv.org/abs/2409.06711v2 )

ライセンス: Link先を確認
Yutaka Endo, Minoru Oikawa, Timothy D. Wilkinson, Tomoyoshi Shimobaba, Tomoyoshi Ito, (参考訳) コンピュータ生成ホログラフィー(CGH)は、ヘッドマウントディスプレイやヘッドアップディスプレイなどの拡張現実ディスプレイのための有望な技術である。 しかし、その高い計算要求により、実装には実用的ではない。 ニューラルネットワークをCGHに統合する最近の取り組みは、計算コストと画像品質のトレードオフを克服する可能性を示している。 それでも、計算に制限のある組み込みシステムにニューラルネットワークベースのCGHアルゴリズムをデプロイするには、より効率的な計算コスト、メモリフットプリント、消費電力のモデルが必要である。 本研究では,ニューラルネットワークの量子化を導入し,複雑なホログラム生成のための軽量モデルを開発した。 具体的には、テンソルホログラフィに基づくモデルを構築し、32ビット浮動小数点精度(FP32)から8ビット整数精度(INT8)まで定量化した。 提案したINT8モデルは,FP32モデルに匹敵するホログラム品質を実現し,モデルサイズを約70%削減し,速度を4倍に向上することを示す。 さらに,システム・オン・モジュール上にINT8モデルを実装し,組み込みプラットフォームへのデプロイ性や高電力効率を実証した。

Computer-generated holography (CGH) is a promising technology for augmented reality displays, such as head-mounted or head-up displays. However, its high computational demand makes it impractical for implementation. Recent efforts to integrate neural networks into CGH have successfully accelerated computing speed, demonstrating the potential to overcome the trade-off between computational cost and image quality. Nevertheless, deploying neural network-based CGH algorithms on computationally limited embedded systems requires more efficient models with lower computational cost, memory footprint, and power consumption. In this study, we developed a lightweight model for complex hologram generation by introducing neural network quantization. Specifically, we built a model based on tensor holography and quantized it from 32-bit floating-point precision (FP32) to 8-bit integer precision (INT8). Our performance evaluation shows that the proposed INT8 model achieves hologram quality comparable to that of the FP32 model while reducing the model size by approximately 70% and increasing the speed fourfold. Additionally, we implemented the INT8 model on a system-on-module to demonstrate its deployability on embedded platforms and high power efficiency.
翻訳日:2024-11-07 22:05:05 公開日:2024-10-31
# 効率的な線形時間列モデリングのためのGated Slot Attention

Gated Slot Attention for Efficient Linear-Time Sequence Modeling ( http://arxiv.org/abs/2409.07146v2 )

ライセンス: Link先を確認
Yu Zhang, Songlin Yang, Ruijie Zhu, Yue Zhang, Leyang Cui, Yiqiao Wang, Bolun Wang, Freda Shi, Bailin Wang, Wei Bi, Peng Zhou, Guohong Fu, (参考訳) 並列トレーニングと効率的なリカレント推論を可能にすることで知られる線形アテンショントランスフォーマーとそのゲート変種は、従来のトランスフォーマーと比較してリコール集約タスクでは依然として不足しており、スクラッチからトレーニングするための重要なリソースを必要としている。 本稿では, Gated Linear Attention (GLA) にインスパイアされたゲーティング機構を組み込むことで, 境界メモリ-Control (ABC) による注意を高めた Gated Slot Attention (GSA) を提案する。 基本的には、GSAは$\operatorname{softmax}$でリンクされた2層GLAで構成され、コンテクスト対応メモリ読み取りとアダプティブ・リフレクションを利用してメモリ容量を向上し、コンパクトなリカレント状態サイズを維持しながら、メモリ容量を向上する。 この設計により、GLAのハードウェア効率のトレーニングアルゴリズムによるトレーニングと推論の効率が大幅に向上し、状態サイズが削減される。 さらに、$\operatorname{softmax}$操作を維持することは、特に"事前訓練されたトランスフォーマーをRNNに微調整する"(T2R)設定で有益である。 大規模な実験により、コンテキスト内リコールとT2R設定を必要とするシナリオにおいて、GSAの優れたパフォーマンスが確認された。

Linear attention Transformers and their gated variants, celebrated for enabling parallel training and efficient recurrent inference, still fall short in recall-intensive tasks compared to traditional Transformers and demand significant resources for training from scratch. This paper introduces Gated Slot Attention (GSA), which enhances Attention with Bounded-memory-Control (ABC) by incorporating a gating mechanism inspired by Gated Linear Attention (GLA). Essentially, GSA comprises a two-layer GLA linked via $\operatorname{softmax}$, utilizing context-aware memory reading and adaptive forgetting to improve memory capacity while maintaining compact recurrent state size. This design greatly enhances both training and inference efficiency through GLA's hardware-efficient training algorithm and reduced state size. Additionally, retaining the $\operatorname{softmax}$ operation is particularly beneficial in "finetuning pretrained Transformers to RNNs" (T2R) settings, reducing the need for extensive training from scratch. Extensive experiments confirm GSA's superior performance in scenarios requiring in-context recall and in T2R settings.
翻訳日:2024-11-07 21:53:46 公開日:2024-10-31
# Nullのさらなる影: 責任を欠く価値のインプットを評価するための評価スイート

Still More Shades of Null: An Evaluation Suite for Responsible Missing Value Imputation ( http://arxiv.org/abs/2409.07510v2 )

ライセンス: Link先を確認
Falaah Arif Khan, Denys Herasymuk, Nazar Protsiv, Julia Stoyanovich, (参考訳) データ不足は、科学コミュニティへの継続的な関心の実践的な挑戦である。 本稿では,有意な値計算を行うための評価スイートであるShades-of-Nullを提案する。 私たちの仕事は2つの点で斬新です i) ルビンの古典的なミス・アット・ランダム(MCAR)、ミス・アット・ランダム(MAR)、ミス・アット・ランダム(MNAR)の設定を超えて、現実的で社会的に安全な不足シナリオをモデル化し、マルチメカニズムの欠失(データに共存する異なる欠失パターンがある場合)と不足(トレーニングとテストの間の欠失メカニズムの変化)を含む。 二 インプット後のデータに基づいてトレーニング・テストしたモデルの予測性能、公平性、安定性に基づき、インプットの品質に基づいて、インプターを一様に評価する。 我々はShades-of-Nullを用いて,23,940の実験パイプラインを含む大規模実験を行い,すべての欠陥タイプに対して最も優れた計算法が存在しないにもかかわらず,予測性能,公正性,安定性のトレードオフが,不足シナリオ,不特定選択,予測モデルのアーキテクチャの組み合わせによって生じることを確認した。 私たちはShades-of-Nullを公開し、研究者が有意義で社会的に有意義なシナリオにおいて、幅広いメトリクスで欠落した値計算手法を厳格に評価できるようにします。

Data missingness is a practical challenge of sustained interest to the scientific community. In this paper, we present Shades-of-Null, an evaluation suite for responsible missing value imputation. Our work is novel in two ways (i) we model realistic and socially-salient missingness scenarios that go beyond Rubin's classic Missing Completely at Random (MCAR), Missing At Random (MAR) and Missing Not At Random (MNAR) settings, to include multi-mechanism missingness (when different missingness patterns co-exist in the data) and missingness shift (when the missingness mechanism changes between training and test) (ii) we evaluate imputers holistically, based on imputation quality, as well as on the predictive performance, fairness and stability of the models that are trained and tested on the data post-imputation. We use Shades-of-Null to conduct a large-scale empirical study involving 23,940 experimental pipelines, and find that while there is no single best-performing imputation approach for all missingness types, interesting trade-offs arise between predictive performance, fairness and stability, based on the combination of missingness scenario, imputer choice, and the architecture of the predictive model. We make Shades-of-Null publicly available, to enable researchers to rigorously evaluate missing value imputation methods on a wide range of metrics in plausible and socially meaningful scenarios.
翻訳日:2024-11-07 21:42:46 公開日:2024-10-31
# Nullのさらなる影: 責任を欠く価値のインプットを評価するための評価スイート

Still More Shades of Null: An Evaluation Suite for Responsible Missing Value Imputation ( http://arxiv.org/abs/2409.07510v3 )

ライセンス: Link先を確認
Falaah Arif Khan, Denys Herasymuk, Nazar Protsiv, Julia Stoyanovich, (参考訳) データ不足は、科学コミュニティへの継続的な関心の実践的な挑戦である。 本稿では,有意な値計算を行うための評価スイートであるShades-of-Nullを提案する。 私たちの仕事は2つの点で斬新です i) ルビンの古典的なミス・アット・ランダム(MCAR)、ミス・アット・ランダム(MAR)、ミス・アット・ランダム(MNAR)の設定を超えて、現実的で社会的に安全な不足シナリオをモデル化し、マルチメカニズムの欠失(データに共存する異なる欠失パターンがある場合)と不足(トレーニングとテストの間の欠失メカニズムの変化)を含む。 二 インプット後のデータに基づいてトレーニング・テストしたモデルの予測性能、公平性、安定性に基づき、インプットの品質に基づいて、インプターを一様に評価する。 我々はShades-of-Nullを用いて,23,940の実験パイプラインを含む大規模実験を行い,すべての欠陥タイプに対して最も優れた計算法が存在しないにもかかわらず,予測性能,公正性,安定性のトレードオフが,不足シナリオ,不特定選択,予測モデルのアーキテクチャの組み合わせによって生じることを確認した。 私たちはShades-of-Nullを公開し、研究者が有意義で社会的に有意義なシナリオにおいて、幅広いメトリクスで欠落した値計算手法を厳格に評価できるようにします。

Data missingness is a practical challenge of sustained interest to the scientific community. In this paper, we present Shades-of-Null, an evaluation suite for responsible missing value imputation. Our work is novel in two ways (i) we model realistic and socially-salient missingness scenarios that go beyond Rubin's classic Missing Completely at Random (MCAR), Missing At Random (MAR) and Missing Not At Random (MNAR) settings, to include multi-mechanism missingness (when different missingness patterns co-exist in the data) and missingness shift (when the missingness mechanism changes between training and test) (ii) we evaluate imputers holistically, based on imputation quality, as well as on the predictive performance, fairness and stability of the models that are trained and tested on the data post-imputation. We use Shades-of-Null to conduct a large-scale empirical study involving 23,940 experimental pipelines, and find that while there is no single best-performing imputation approach for all missingness types, interesting trade-offs arise between predictive performance, fairness and stability, based on the combination of missingness scenario, imputer choice, and the architecture of the predictive model. We make Shades-of-Null publicly available, to enable researchers to rigorously evaluate missing value imputation methods on a wide range of metrics in plausible and socially meaningful scenarios.
翻訳日:2024-11-07 21:42:46 公開日:2024-10-31
# ProbTalk3D:VQ-VAEを用いた非決定論的感情制御型音声駆動型3次元顔アニメーション合成

ProbTalk3D: Non-Deterministic Emotion Controllable Speech-Driven 3D Facial Animation Synthesis Using VQ-VAE ( http://arxiv.org/abs/2409.07966v2 )

ライセンス: Link先を確認
Sichun Wu, Kazi Injamamul Haque, Zerrin Yumak, (参考訳) 音声駆動の3D顔アニメーション合成は、学術と産業の両方から注目される研究の活発な分野である。 この領域には有望な結果があるが、近年のアプローチは、生成過程における感情と感情の制御の役割を無視し、リップシンクとアイデンティティ制御に主に焦点をあてている。 それは主に、感情的に豊かな顔のアニメーションデータと、感情的な表情で同時に音声のアニメーションを合成できるアルゴリズムが欠如しているためである。 さらに、ほとんどのモデルは決定論的であり、つまり同じ音声入力を与えられた場合、同じ出力運動を生成する。 感情と非決定主義は多様で感情に富んだ顔のアニメーションを生成するために不可欠である、と我々は主張する。 本稿では,2段階のVQ-VAEモデルと感情に富んだ顔画像データセット3DMEADを用いて,感情制御可能な音声駆動3次元顔画像合成のための非決定論的ニューラルネットワークであるProbTalk3Dを提案する。 本稿では,最近の3次元顔アニメーション合成手法に対して,客観的に,質的に,そして知覚的ユーザスタディで,我々のモデルを広範囲に比較分析する。 確率的出力を評価するのにより適した客観的指標をいくつか強調し、主観的評価に内在的および内在的真理データの両方を用いる。 我々の知る限り、リッチな感情データセットと感情制御を感情ラベルと強度レベルで組み込んだ、非決定論的3次元顔アニメーション合成法は、これが初めてである。 提案手法は, 感情制御モデル, 決定論的モデル, 非決定論的モデルと比較して, 優れた性能が得られることを示す。 品質判断のために補足ビデオを見ることをお勧めします。 コードベース全体が公開されている(https://github.com/uuembodiedsocialai/ProbTalk3D/)。

Audio-driven 3D facial animation synthesis has been an active field of research with attention from both academia and industry. While there are promising results in this area, recent approaches largely focus on lip-sync and identity control, neglecting the role of emotions and emotion control in the generative process. That is mainly due to the lack of emotionally rich facial animation data and algorithms that can synthesize speech animations with emotional expressions at the same time. In addition, majority of the models are deterministic, meaning given the same audio input, they produce the same output motion. We argue that emotions and non-determinism are crucial to generate diverse and emotionally-rich facial animations. In this paper, we propose ProbTalk3D a non-deterministic neural network approach for emotion controllable speech-driven 3D facial animation synthesis using a two-stage VQ-VAE model and an emotionally rich facial animation dataset 3DMEAD. We provide an extensive comparative analysis of our model against the recent 3D facial animation synthesis approaches, by evaluating the results objectively, qualitatively, and with a perceptual user study. We highlight several objective metrics that are more suitable for evaluating stochastic outputs and use both in-the-wild and ground truth data for subjective evaluation. To our knowledge, that is the first non-deterministic 3D facial animation synthesis method incorporating a rich emotion dataset and emotion control with emotion labels and intensity levels. Our evaluation demonstrates that the proposed model achieves superior performance compared to state-of-the-art emotion-controlled, deterministic and non-deterministic models. We recommend watching the supplementary video for quality judgement. The entire codebase is publicly available (https://github.com/uuembodiedsocialai/ProbTalk3D/).
翻訳日:2024-11-07 21:31:36 公開日:2024-10-31
# ProbTalk3D:VQ-VAEを用いた非決定論的感情制御型音声駆動型3次元顔アニメーション合成

ProbTalk3D: Non-Deterministic Emotion Controllable Speech-Driven 3D Facial Animation Synthesis Using VQ-VAE ( http://arxiv.org/abs/2409.07966v3 )

ライセンス: Link先を確認
Sichun Wu, Kazi Injamamul Haque, Zerrin Yumak, (参考訳) 音声駆動の3D顔アニメーション合成は、学術と産業の両方から注目される研究の活発な分野である。 この領域には有望な結果があるが、近年のアプローチは、生成過程における感情と感情の制御の役割を無視し、リップシンクとアイデンティティ制御に主に焦点をあてている。 それは主に、感情的に豊かな顔のアニメーションデータと、感情的な表情で同時に音声のアニメーションを合成できるアルゴリズムが欠如しているためである。 さらに、ほとんどのモデルは決定論的であり、つまり同じ音声入力を与えられた場合、同じ出力運動を生成する。 感情と非決定主義は多様で感情に富んだ顔のアニメーションを生成するために不可欠である、と我々は主張する。 本稿では,2段階のVQ-VAEモデルと感情に富んだ顔画像データセット3DMEADを用いて,感情制御可能な音声駆動3次元顔画像合成のための非決定論的ニューラルネットワークであるProbTalk3Dを提案する。 本稿では,最近の3次元顔アニメーション合成手法に対して,客観的に,質的に,そして知覚的ユーザスタディで,我々のモデルを広範囲に比較分析する。 確率的出力を評価するのにより適した客観的指標をいくつか強調し、主観的評価に内在的および内在的真理データの両方を用いる。 我々の知る限り、リッチな感情データセットと感情制御を感情ラベルと強度レベルで組み込んだ、非決定論的3次元顔アニメーション合成法は、これが初めてである。 提案手法は, 感情制御モデル, 決定論的モデル, 非決定論的モデルと比較して, 優れた性能が得られることを示す。 品質判断のために補足ビデオを見ることをお勧めします。 コードベース全体が公開されている(https://github.com/uuembodiedsocialai/ProbTalk3D/)。

Audio-driven 3D facial animation synthesis has been an active field of research with attention from both academia and industry. While there are promising results in this area, recent approaches largely focus on lip-sync and identity control, neglecting the role of emotions and emotion control in the generative process. That is mainly due to the lack of emotionally rich facial animation data and algorithms that can synthesize speech animations with emotional expressions at the same time. In addition, majority of the models are deterministic, meaning given the same audio input, they produce the same output motion. We argue that emotions and non-determinism are crucial to generate diverse and emotionally-rich facial animations. In this paper, we propose ProbTalk3D a non-deterministic neural network approach for emotion controllable speech-driven 3D facial animation synthesis using a two-stage VQ-VAE model and an emotionally rich facial animation dataset 3DMEAD. We provide an extensive comparative analysis of our model against the recent 3D facial animation synthesis approaches, by evaluating the results objectively, qualitatively, and with a perceptual user study. We highlight several objective metrics that are more suitable for evaluating stochastic outputs and use both in-the-wild and ground truth data for subjective evaluation. To our knowledge, that is the first non-deterministic 3D facial animation synthesis method incorporating a rich emotion dataset and emotion control with emotion labels and intensity levels. Our evaluation demonstrates that the proposed model achieves superior performance compared to state-of-the-art emotion-controlled, deterministic and non-deterministic models. We recommend watching the supplementary video for quality judgement. The entire codebase is publicly available (https://github.com/uuembodiedsocialai/ProbTalk3D/).
翻訳日:2024-11-07 21:31:36 公開日:2024-10-31
# ブロック三焦点テンソルのテンソルベース同期と低ランク性

Tensor-Based Synchronization and the Low-Rankness of the Block Trifocal Tensor ( http://arxiv.org/abs/2409.09313v2 )

ライセンス: Link先を確認
Daniel Miao, Gilad Lerman, Joe Kileel, (参考訳) 三焦点テンソルのブロックテンソルは、シーンの3次元幾何学に関する重要な幾何学的情報を提供する。 基礎となる同期問題は、ブロック三焦点テンソルからカメラのポーズ(位置と向き)を復元することである。 我々は、このテンソルのタッカー分解を明確にし、適切なスケーリング条件下でのカメラ数とは独立に(6,4,4)$の低い多重線型ランクを明らかにした。 このランク制約は、ノイズレスケースにおけるカメラのリカバリに十分な情報を提供することを示す。 制約は、ブロック三焦点テンソルの高階特異値分解に基づく同期アルゴリズムを動機付けている。 実データセット上での最先端のグローバル同期手法との比較実験により,位置推定精度を大幅に向上させるアルゴリズムの可能性を示した。 全体として、同期問題における高次相互作用は、通常のペアワイズベースのアプローチを超えて、パフォーマンスを改善するために利用することができることを示唆している。

The block tensor of trifocal tensors provides crucial geometric information on the three-view geometry of a scene. The underlying synchronization problem seeks to recover camera poses (locations and orientations up to a global transformation) from the block trifocal tensor. We establish an explicit Tucker factorization of this tensor, revealing a low multilinear rank of $(6,4,4)$ independent of the number of cameras under appropriate scaling conditions. We prove that this rank constraint provides sufficient information for camera recovery in the noiseless case. The constraint motivates a synchronization algorithm based on the higher-order singular value decomposition of the block trifocal tensor. Experimental comparisons with state-of-the-art global synchronization methods on real datasets demonstrate the potential of this algorithm for significantly improving location estimation accuracy. Overall this work suggests that higher-order interactions in synchronization problems can be exploited to improve performance, beyond the usual pairwise-based approaches.
翻訳日:2024-11-07 20:57:42 公開日:2024-10-31
# OPUS:スパースセットを用いた作業予測

OPUS: Occupancy Prediction Using a Sparse Set ( http://arxiv.org/abs/2409.09350v2 )

ライセンス: Link先を確認
Jiabao Wang, Zhaojiang Liu, Qiang Meng, Liujiang Yan, Ke Wang, Jie Yang, Wei Liu, Qibin Hou, Ming-Ming Cheng, (参考訳) ボクセル化3D環境における占有状況の予測を目的とした職業予測は,自動運転コミュニティ内で急速に勢いを増している。 メインストリーム占有予測は、まず3次元環境をボクセルに識別し、次にそのような高密度グリッドの分類を行う。 しかし、サンプルデータの検査により、ほとんどのボクセルが占有されていないことが明らかとなった。 これらの空のボクセルの分類を行うには、最適化された計算資源の割り当てが必要であり、そのような空のボクセルを減らすことは複雑なアルゴリズム設計を必要とする。 そこで本稿では,空間モデルや複雑なスペーシフィケーション手順を必要とせず,合理化された集合予測パラダイムとして定式化するという,占有率予測タスクの新たな視点を示す。 提案するフレームワークはOPUSと呼ばれ,トランスフォーマー・エンコーダ・デコーダアーキテクチャを用いて,学習可能なクエリセットを用いて,占有位置とクラスを同時に予測する。 第一に、設定から設定までの比較問題を前例のない大きさに拡大するために、チャンファー距離損失を用いて、そのようなモデルのエンド・ツー・エンドを現実にしている。 その後、学習した位置に基づいて近接探索を用いて、セマンティッククラスを適応的に割り当てる。 さらにOPUSは、粗大な学習、一貫した点サンプリング、適応的な再重み付けなど、モデルパフォーマンスを向上させるための非自明な戦略のスイートを組み込んでいる。 最後に、現在の最先端手法と比較して、我々の最も軽量なモデルはOcc3D-nuScenesデータセットの2倍 FPS で優れたRayIoUを達成し、最も重いモデルは6.1 RayIoU を上回ります。

Occupancy prediction, aiming at predicting the occupancy status within voxelized 3D environment, is quickly gaining momentum within the autonomous driving community. Mainstream occupancy prediction works first discretize the 3D environment into voxels, then perform classification on such dense grids. However, inspection on sample data reveals that the vast majority of voxels is unoccupied. Performing classification on these empty voxels demands suboptimal computation resource allocation, and reducing such empty voxels necessitates complex algorithm designs. To this end, we present a novel perspective on the occupancy prediction task: formulating it as a streamlined set prediction paradigm without the need for explicit space modeling or complex sparsification procedures. Our proposed framework, called OPUS, utilizes a transformer encoder-decoder architecture to simultaneously predict occupied locations and classes using a set of learnable queries. Firstly, we employ the Chamfer distance loss to scale the set-to-set comparison problem to unprecedented magnitudes, making training such model end-to-end a reality. Subsequently, semantic classes are adaptively assigned using nearest neighbor search based on the learned locations. In addition, OPUS incorporates a suite of non-trivial strategies to enhance model performance, including coarse-to-fine learning, consistent point sampling, and adaptive re-weighting, etc. Finally, compared with current state-of-the-art methods, our lightest model achieves superior RayIoU on the Occ3D-nuScenes dataset at near 2x FPS, while our heaviest model surpasses previous best results by 6.1 RayIoU.
翻訳日:2024-11-07 20:57:42 公開日:2024-10-31
# 概念ライブラリを学習したシンボリック回帰

Symbolic Regression with a Learned Concept Library ( http://arxiv.org/abs/2409.09359v2 )

ライセンス: Link先を確認
Arya Grayeli, Atharva Sehgal, Omar Costilla-Reyes, Miles Cranmer, Swarat Chaudhuri, (参考訳) 本稿では,データセットを最もよく説明できるコンパクトなプログラム仮説を探索する,記号回帰(SR)手法を提案する。 この問題を遺伝的アルゴリズムを用いて解き、抽象的なテクスチャ概念のライブラリーを誘導することにより、そのような手法を強化することができることを示す。 我々のアルゴリズムはLaSRと呼ばれ、ゼロショットクエリを大言語モデル(LLM)に使用して、既知のハイパフォーマンスな仮説における概念を発見し、進化させます。 我々は、標準進化ステップとLLM誘導ステップ(ゼロショットLLMクエリによって達成される)を混合した新しい仮説を発見し、その概念を定式化した。 一度発見されると、仮説は新しい概念の抽象化と進化のラウンドで使われる。 我々は、一般的なSRベンチマークであるFeynman方程式と合成タスクのセット上でLaSRを検証する。 これらのベンチマークでは、LaSRはディープラーニングと進化的アルゴリズムに基づいて、最先端のSRアプローチを大幅に上回っている。 さらに,LLMの新規かつ強力なスケーリング法則の発見にLaSRを用いることが可能であることを示す。

We present a novel method for symbolic regression (SR), the task of searching for compact programmatic hypotheses that best explain a dataset. The problem is commonly solved using genetic algorithms; we show that we can enhance such methods by inducing a library of abstract textual concepts. Our algorithm, called LaSR, uses zero-shot queries to a large language model (LLM) to discover and evolve concepts occurring in known high-performing hypotheses. We discover new hypotheses using a mix of standard evolutionary steps and LLM-guided steps (obtained through zero-shot LLM queries) conditioned on discovered concepts. Once discovered, hypotheses are used in a new round of concept abstraction and evolution. We validate LaSR on the Feynman equations, a popular SR benchmark, as well as a set of synthetic tasks. On these benchmarks, LaSR substantially outperforms a variety of state-of-the-art SR approaches based on deep learning and evolutionary algorithms. Moreover, we show that LaSR can be used to discover a novel and powerful scaling law for LLMs.
翻訳日:2024-11-07 20:57:42 公開日:2024-10-31
# テキストから絵文字へ:PEFTによるパーソナリティ操作がLLMの絵文字ポテンシャルをいかに引き起こすか

From Text to Emoji: How PEFT-Driven Personality Manipulation Unleashes the Emoji Potential in LLMs ( http://arxiv.org/abs/2409.10245v2 )

ライセンス: Link先を確認
Navya Jain, Zekun Wu, Cristian Munoz, Airlie Hilliard, Adriano Koshiyama, Emre Kazim, Philip Treleaven, (参考訳) LLMとの人間的な相互作用の需要が高まるにつれて、その性格特性を操作することへの関心も高まり、それが研究の重要領域として現れている。 インプロンプトベースのIn-Context Knowledge Editing (IKE) や勾配ベースのModel Editor Networks (MEND) などの手法が検討されているが、不規則性と変動性を示している。 IKEは、変化と感度をもたらすプロンプトに依存し、MENDは一貫性のない、およびジベリッシュな出力をもたらす。 そこで我々はPopinion QA based Parameter-Efficient Fine-Tuning (PEFT)、特にQuantized Low-Rank Adaptation (QLoRA)を用いて、オープンネス、良心性、外転、アグレタブルネス、ニューロティズムの5つの性格特性を操った。 PEFTの後、Mistral-7B-InstructやLlama-2-7B-chatのようなモデルはPEFTデータに欠けているにもかかわらず絵文字を生成し始めた。 例えば、Llama-2-7B-chatは99.5 %で絵文字を生成し、Mistral-7B-Instructは92.5 %で絵文字を生成する。 説明可能性分析の結果、LLMはこれらの特徴を意図的に表現するために絵文字を使用していた。 本稿は、いくつかの新しい貢献について述べる。 第1に,PEFTによる人格操作のためのオピニオンQAデータセットの導入,第2に,人格操作においてPEFTがIKEよりも優れていることを実証する,第3に,機械的解釈可能性や文脈内学習説明可能性などの説明可能性手法による絵文字使用の分析と検証を行う。

As the demand for human-like interactions with LLMs continues to grow, so does the interest in manipulating their personality traits, which has emerged as a key area of research. Methods like prompt-based In-Context Knowledge Editing (IKE) and gradient-based Model Editor Networks (MEND) have been explored but show irregularity and variability. IKE depends on the prompt, leading to variability and sensitivity, while MEND yields inconsistent and gibberish outputs. To address this, we employed Opinion QA Based Parameter-Efficient Fine-Tuning (PEFT), specifically Quantized Low-Rank Adaptation (QLoRA), to manipulate the Big Five personality traits: Openness, Conscientiousness, Extraversion, Agreeableness, and Neuroticism. After PEFT, models such as Mistral-7B-Instruct and Llama-2-7B-chat began generating emojis, despite their absence in the PEFT data. For instance, Llama-2-7B-chat generated emojis in 99.5\% of extraversion-related test instances, while Mistral-7B-Instruct did so in 92.5\% of openness-related test instances. Explainability analysis indicated that the LLMs used emojis intentionally to express these traits. This paper provides a number of novel contributions. First, introducing an Opinion QA dataset for PEFT-driven personality manipulation; second, developing metric models to benchmark LLM personality traits; third, demonstrating PEFT's superiority over IKE in personality manipulation; and finally, analysing and validating emoji usage through explainability methods such as mechanistic interpretability and in-context learning explainability methods.
翻訳日:2024-11-07 20:35:12 公開日:2024-10-31
# LLM-Agent-UMF:マルチアクティブ/パッシブコアエージェントのシームレス統合のためのLLMベースエージェント統一モデリングフレームワーク

LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents ( http://arxiv.org/abs/2409.11393v2 )

ライセンス: Link先を確認
Amine Ben Hassouna, Hana Chaari, Ines Belhaj, (参考訳) 多様な情報源から大量のデータが収集され、処理される時代において、この情報をインテリジェントに融合し分析できる高度なAIシステムを開発する必要性が高まっている。 これらの課題に対処するため、研究者らは、情報融合プロセス全体を強化するために、LSMを動力とするエージェントにツールを組み込むことに目を向けた。 しかし、これらの技術の統合と、いくつかの最先端技術における提案された拡張は、統一されていないソフトウェアアーキテクチャに続き、研究者の間でモジュラリティと用語的矛盾が欠如した。 これらの課題に対処するために,機能的およびソフトウェアアーキテクチャの観点からエージェント開発のための明確な基盤を確立することを目的とした,LLM-Agent-UMF (Agent-UMF) ベースのエージェント統一モデリングフレームワークを提案する。 本フレームワークは, LLMをベースとしたエージェントの異なるコンポーネント, LLMの設定, および新しい要素であるコアエージェントとを区別し, エージェントの中心コーディネータの役割を担っている。 この中心的なエンティティは、計画、メモリ、プロファイル、アクション、セキュリティの5つのモジュールから構成される。 コアエージェントをその信頼性特性に基づいて受動的・能動的なタイプに分類することにより,より効率的に複雑なタスクに取り組むために,特徴的エージェントの特徴を組み合わさった様々なマルチコアエージェントアーキテクチャを提案する。 我々は,13の最先端エージェントに適用し,それらの機能との整合性を実証し,見落としているアーキテクチャ的側面を明らかにすることにより,我々の枠組みを評価する。 さらに、既存のエージェントを新しいハイブリッドアクティブ/パッシブコアエージェントアーキテクチャに統合することで、提案したアーキテクチャのうち5つを徹底的に評価する。 この分析は潜在的な改善の洞察を与え、特定のエージェントの組み合わせに関わる課題を強調します。

In an era where vast amounts of data are collected and processed from diverse sources, there is a growing demand to develop sophisticated AI systems capable of intelligently fusing and analyzing this information. To address these challenges, researchers have turned towards integrating tools into LLM-powered agents to enhance the overall information fusion process. However, the conjunction of these technologies and the proposed enhancements in several state-of-the-art works followed a non-unified software architecture resulting in a lack of modularity and terminological inconsistencies among researchers. To address these issues, we propose a novel LLM-based Agent Unified Modeling Framework (LLM-Agent-UMF) that aims to establish a clear foundation for agent development from both functional and software architectural perspectives. Our framework distinguishes between the different components of an LLM-based agent, setting LLMs, and tools apart from a new element, the core-agent, playing the role of the central coordinator of the agent. This pivotal entity comprises five modules: planning, memory, profile, action, and security - the latter often neglected in previous works. By classifying core-agents into passive and active types based on their authoritative natures, we propose various multi-core agent architectures that combine unique characteristics of distinctive agents to tackle complex tasks more efficiently. We evaluate our framework by applying it to thirteen state-of-the-art agents, thereby demonstrating its alignment with their functionalities and clarifying the overlooked architectural aspects. Moreover, we thoroughly assess five of our proposed architectures through the integration of existing agents into new hybrid active/passive core-agents architectures. This analysis provides insights into potential improvements and highlights challenges involved in combining specific agents.
翻訳日:2024-11-07 20:01:55 公開日:2024-10-31
# 単項行列群同変ニューラルネットワーク

Monomial Matrix Group Equivariant Neural Functional Networks ( http://arxiv.org/abs/2409.11697v2 )

ライセンス: Link先を確認
Hoang V. Tran, Thieu N. Vo, Tho H. Tran, An T. Nguyen, Tan M. Nguyen, (参考訳) ニューラルネットワーク(NFN)は,ネットワークの一般化やネットワーク編集の予測から暗黙のニューラル表現の分類に至るまで,さまざまな用途で注目されている。 以前のNFNの設計は、ニューラルネットワークの重みの置換対称性に依存することが多い。 しかし、これらの設計は、$\ReLU$ネットワークのウェイトスケーリング対称性と$\sin$または$\Tanh$ネットワークのウェイトサイン反転対称性を考慮していない。 本稿では,ネットワーク重みに対する群作用の研究を,スケーリング・サイン・フリップ対称性を取り入れて,置換行列群から単項行列群へ拡張する。 特に、対応する同変層と不変層を設計することで、これらのスケーリング/サイン・フリップ対称性を符号化する。 我々はNFNの新しいファミリーをMonomial Matrix Group Equivariant Neural Functional Networks (Monomial-NFN)と名付けた。 対称性の拡大により、Monomial-NFNは文献のベースラインであるNFNに比べて、独立したトレーニング可能なパラメータがはるかに少ないため、モデルの効率が向上する。 さらに、完全連結および畳み込みニューラルネットワークの場合、重み空間上で作用しながらこれらのネットワークを離れるすべての群が単項行列群の部分群であることが理論的に証明される。 既存のベースラインよりもモデルの利点を実証するための実証的な証拠を提供し、競争性能と効率性を達成する。

Neural functional networks (NFNs) have recently gained significant attention due to their diverse applications, ranging from predicting network generalization and network editing to classifying implicit neural representation. Previous NFN designs often depend on permutation symmetries in neural networks' weights, which traditionally arise from the unordered arrangement of neurons in hidden layers. However, these designs do not take into account the weight scaling symmetries of $\ReLU$ networks, and the weight sign flipping symmetries of $\sin$ or $\Tanh$ networks. In this paper, we extend the study of the group action on the network weights from the group of permutation matrices to the group of monomial matrices by incorporating scaling/sign-flipping symmetries. Particularly, we encode these scaling/sign-flipping symmetries by designing our corresponding equivariant and invariant layers. We name our new family of NFNs the Monomial Matrix Group Equivariant Neural Functional Networks (Monomial-NFN). Because of the expansion of the symmetries, Monomial-NFN has much fewer independent trainable parameters compared to the baseline NFNs in the literature, thus enhancing the model's efficiency. Moreover, for fully connected and convolutional neural networks, we theoretically prove that all groups that leave these networks invariant while acting on their weight spaces are some subgroups of the monomial matrix group. We provide empirical evidence to demonstrate the advantages of our model over existing baselines, achieving competitive performance and efficiency.
翻訳日:2024-11-07 19:50:48 公開日:2024-10-31
# 音響視覚モデルにおける音の象徴性の測定

Measuring Sound Symbolism in Audio-visual Models ( http://arxiv.org/abs/2409.12306v1 )

ライセンス: Link先を確認
Wei-Cheng Tseng, Yi-Jen Shih, David Harwath, Raymond Mooney, (参考訳) 近年,視覚前訓練モデルが注目され,様々な視覚課題において優れた性能を示した。 本研究では、事前学習した音声視覚モデルが、音と視覚表現の非任意関係を示すかどうかを考察する。 我々は、合成画像と音声サンプルを用いた特殊なデータセットを開発し、ゼロショット設定における非パラメトリックアプローチを用いてこれらのモデルを評価した。 以上の結果から,特に音声データに基づいて訓練されたモデルにおいて,モデル出力と音響記号の確立したパターンとの間に有意な相関が認められた。 これらの結果は、そのようなモデルが人間の言語処理に類似した音による関係を捉え、認知アーキテクチャと機械学習戦略の両方に関する洞察を与えることを示唆している。

Audio-visual pre-trained models have gained substantial attention recently and demonstrated superior performance on various audio-visual tasks. This study investigates whether pre-trained audio-visual models demonstrate non-arbitrary associations between sounds and visual representations$\unicode{x2013}$known as sound symbolism$\unicode{x2013}$which is also observed in humans. We developed a specialized dataset with synthesized images and audio samples and assessed these models using a non-parametric approach in a zero-shot setting. Our findings reveal a significant correlation between the models' outputs and established patterns of sound symbolism, particularly in models trained on speech data. These results suggest that such models can capture sound-meaning connections akin to human language processing, providing insights into both cognitive architectures and machine learning strategies.
翻訳日:2024-11-07 15:26:10 公開日:2024-10-31
# 音響視覚モデルにおける音の象徴性の測定

Measuring Sound Symbolism in Audio-visual Models ( http://arxiv.org/abs/2409.12306v2 )

ライセンス: Link先を確認
Wei-Cheng Tseng, Yi-Jen Shih, David Harwath, Raymond Mooney, (参考訳) 近年,視覚前訓練モデルが注目され,様々な視覚課題において優れた性能を示した。 本研究では、事前学習した音声視覚モデルが、音と視覚表現の非任意関係を示すかどうかを考察する。 我々は、合成画像と音声サンプルを用いた特殊なデータセットを開発し、ゼロショット設定における非パラメトリックアプローチを用いてこれらのモデルを評価した。 以上の結果から,特に音声データに基づいて訓練されたモデルにおいて,モデル出力と音響記号の確立したパターンとの間に有意な相関が認められた。 これらの結果は、そのようなモデルが人間の言語処理に類似した音による関係を捉え、認知アーキテクチャと機械学習戦略の両方に関する洞察を与えることを示唆している。

Audio-visual pre-trained models have gained substantial attention recently and demonstrated superior performance on various audio-visual tasks. This study investigates whether pre-trained audio-visual models demonstrate non-arbitrary associations between sounds and visual representations$\unicode{x2013}$known as sound symbolism$\unicode{x2013}$which is also observed in humans. We developed a specialized dataset with synthesized images and audio samples and assessed these models using a non-parametric approach in a zero-shot setting. Our findings reveal a significant correlation between the models' outputs and established patterns of sound symbolism, particularly in models trained on speech data. These results suggest that such models can capture sound-meaning connections akin to human language processing, providing insights into both cognitive architectures and machine learning strategies.
翻訳日:2024-11-07 15:26:10 公開日:2024-10-31
# 音声合成 LLM の混合によるコードスイッチング ASR の高速化

Boosting Code-Switching ASR with Mixture of Experts Enhanced Speech-Conditioned LLM ( http://arxiv.org/abs/2409.15905v2 )

ライセンス: Link先を確認
Fengrun Zhang, Wang Geng, Hukai Huang, Yahui Shan, Cheng Yi, He Qu, (参考訳) 本稿では,音声認識(ASR)におけるコードスイッチング(CS)の課題に対処するため,言語条件付きLarge Language Model(LLM)とMixture of Experts(MoE)ベースのコネクタを統合する。 具体的には,音声認識タスクへのLLMのテキスト生成能力を向上するIDIT機構を提案する。 また、複数の言語を効率的に管理するMoEアーキテクチャとのコネクタも提示する。 複数の専門家の協力を深め、LLMの理解能力を活用するために、我々は2段階のプログレッシブトレーニング戦略を提案する。 1) コネクタは凍結せず, 言語の専門家によって訓練され, 音声表現をテキスト空間にマッピングする。 2)コネクタとLLM LoRAアダプタは,提案したIDIT機構で訓練され,すべての専門家が一般表現を学習するために活性化される。 実験結果から,本手法はエンド・ツー・エンド,大規模音声言語モデルなど,最先端のモデルよりも優れていた。

In this paper, we introduce a speech-conditioned Large Language Model (LLM) integrated with a Mixture of Experts (MoE) based connector to address the challenge of Code-Switching (CS) in Automatic Speech Recognition (ASR). Specifically, we propose an Insertion and Deletion of Interruption Token (IDIT) mechanism for better transfer text generation ability of LLM to speech recognition task. We also present a connecter with MoE architecture that manages multiple languages efficiently. To further enhance the collaboration of multiple experts and leverage the understanding capabilities of LLM, we propose a two-stage progressive training strategy: 1) The connector is unfrozen and trained with language-specialized experts to map speech representations to the text space. 2) The connector and LLM LoRA adaptor are trained with the proposed IDIT mechanism and all experts are activated to learn general representations. Experimental results demonstrate that our method significantly outperforms state-of-the-art models, including end-to-end and large-scale audio-language models.
翻訳日:2024-11-06 19:21:13 公開日:2024-10-31
# 人間が生成した数学のコミュニケーションの性質を表現できるモデル

Models Can and Should Embrace the Communicative Nature of Human-Generated Math ( http://arxiv.org/abs/2409.17005v2 )

ライセンス: Link先を確認
Sasha Boguraev, Ben Lipkin, Leonie Weissweiler, Kyle Mahowald, (参考訳) 自然言語コーパスは命題だけでなく、言語利用者のコミュニケーション目標を反映しているように、モデルが訓練される数学データは、理想化された数学的実体だけでなく、豊かなコミュニケーション意図を反映している。 純粋に象徴的な方法で数学を扱うには重要な利点があるが、ここでは、数学を位置する言語コミュニケーションとして扱う利点があり、言語モデルは、十分に理解されていない方法で、この目標に適していると仮定する。 これらの点を2つのケーススタディで説明する。 まず、私たちが行った実験では、言語モデルが同等の記号を人間的な方法で解釈し、異なる方法で配列された同じ基礎となる方程式に対して、体系的に異なる単語問題を生成することがわかった。 第二に、他の順序が論理的に等価であっても、言語モデルは自然主義的に順序づけられる証明を好む。 我々は、人間生成数学において潜在するコミュニケーション意図から学習し、表現するAIシステムを提唱する。

Math is constructed by people for people: just as natural language corpora reflect not just propositions but the communicative goals of language users, the math data that models are trained on reflects not just idealized mathematical entities but rich communicative intentions. While there are important advantages to treating math in a purely symbolic manner, we here hypothesize that there are benefits to treating math as situated linguistic communication and that language models are well suited for this goal, in ways that are not fully appreciated. We illustrate these points with two case studies. First, we ran an experiment in which we found that language models interpret the equals sign in a humanlike way -- generating systematically different word problems for the same underlying equation arranged in different ways. Second, we found that language models prefer proofs to be ordered in naturalistic ways, even though other orders would be logically equivalent. We advocate for AI systems that learn from and represent the communicative intentions latent in human-generated math.
翻訳日:2024-11-06 17:00:07 公開日:2024-10-31
# 不均一・非定常クライアント利用に対する効果的なフェデレーション学習

Efficient Federated Learning against Heterogeneous and Non-stationary Client Unavailability ( http://arxiv.org/abs/2409.17446v2 )

ライセンス: Link先を確認
Ming Xiang, Stratis Ioannidis, Edmund Yeh, Carlee Joe-Wong, Lili Su, (参考訳) 間欠的なクライアント可用性に対処することは、フェデレートされた学習アルゴリズムの現実的な展開に不可欠である。 ほとんどの以前の作業は、クライアントの非可用性のダイナミクスの潜在的な非定常性を見落としているか、あるいはかなりのメモリ/計算オーバーヘッドを必要としている。 デプロイ環境が不確実であったり,クライアントがモバイルであったりした場合に発生するような,異種および非定常的なクライアント可用性の存在下での連合学習について検討する。 最も広く採用されているフェデレーション学習アルゴリズムであるFedAvgを用いることで、不均一性と非定常性がクライアントの不使用性に与える影響が明らかになる。 我々は,新しいアルゴリズム構造を含むFedAPMを提案する。 (i)標準のFedAvgに対するO(1)$追加メモリと計算量だけでは利用不可能な計算を補うこと。 (2)非定常力学に非依存であるにもかかわらず,暗黙のゴシップを通じて,連合学習システム内の局所的な更新を均等に拡散させる。 我々は,FedAPMが望まれる線形スピードアップ特性を達成しつつ,非凸目標の定常点に収束することを示す。 実世界のデータセット上での多様なクライアント不可用性のダイナミクスに対する数値実験と解析の相関関係を考察する。

Addressing intermittent client availability is critical for the real-world deployment of federated learning algorithms. Most prior work either overlooks the potential non-stationarity in the dynamics of client unavailability or requires substantial memory/computation overhead. We study federated learning in the presence of heterogeneous and non-stationary client availability, which may occur when the deployment environments are uncertain, or the clients are mobile. The impacts of heterogeneity and non-stationarity on client unavailability can be significant, as we illustrate using FedAvg, the most widely adopted federated learning algorithm. We propose FedAPM, which includes novel algorithmic structures that (i) compensate for missed computations due to unavailability with only $O(1)$ additional memory and computation with respect to standard FedAvg, and (ii) evenly diffuse local updates within the federated learning system through implicit gossiping, despite being agnostic to non-stationary dynamics. We show that FedAPM converges to a stationary point of even non-convex objectives while achieving the desired linear speedup property. We corroborate our analysis with numerical experiments over diversified client unavailability dynamics on real-world data sets.
翻訳日:2024-11-06 16:30:51 公開日:2024-10-31
# MathDSL: プログラム合成による簡潔な数学的解のためのドメイン特化言語

MathDSL: A Domain-Specific Language for Concise Mathematical Solutions Via Program Synthesis ( http://arxiv.org/abs/2409.17490v2 )

ライセンス: Link先を確認
Sagnik Anupam, Maddy Bowers, Omar Costilla-Reyes, Armando Solar-Lezama, (参考訳) 数式解析のためのドメイン特化言語(DSL)であるMathDSLを,プログラム合成モデルに展開すると,最先端の強化学習法より優れる。 また,数理解の簡潔さを測定するための定量的な測定基準を導入し,他の方法と比較して,生成した解の品質向上を実証する。 本研究では,MathDSLを用いたプログラム合成システム(DreamCoder)が,強化学習システムよりも高精度かつ簡潔に線形方程式を解くプログラムを生成することを示す。 さらに、従来の強化学習システムのアクション空間をDSLとして使う場合、MathDSLはアクション空間DSLよりも優れています。 私たちはDreamCoderを使って、プログラムライブラリの学習抽象化として方程式解決戦略を格納し、MathDSLを使用することで、数学的教育に応用可能な人間解釈可能なソリューション戦略に変換できることを実証します。

We present MathDSL, a Domain-Specific Language (DSL) for mathematical equation solving, which, when deployed in program synthesis models, outperforms state-of-the-art reinforcement-learning-based methods. We also introduce a quantitative metric for measuring the conciseness of a mathematical solution and demonstrate the improvement in the quality of generated solutions compared to other methods. Our system demonstrates that a program synthesis system (DreamCoder) using MathDSL can generate programs that solve linear equations with greater accuracy and conciseness than using reinforcement learning systems. Additionally, we demonstrate that if we use the action spaces of previous reinforcement learning systems as DSLs, MathDSL outperforms the action-space-DSLs. We use DreamCoder to store equation-solving strategies as learned abstractions in its program library and demonstrate that by using MathDSL, these can be converted into human-interpretable solution strategies that could have applications in mathematical education.
翻訳日:2024-11-06 16:30:51 公開日:2024-10-31
# MIO:マルチモーダルトークンの基礎モデル

MIO: A Foundation Model on Multimodal Tokens ( http://arxiv.org/abs/2409.17692v2 )

ライセンス: Link先を確認
Zekun Wang, King Zhu, Chunpu Xu, Wangchunshu Zhou, Jiaheng Liu, Yibo Zhang, Jiashuo Wang, Ning Shi, Siyu Li, Yizhi Li, Haoran Que, Zhaoxiang Zhang, Yuanxing Zhang, Ge Zhang, Ke Xu, Jie Fu, Wenhao Huang, (参考訳) 本稿では,マルチモーダルトークン上に構築された新しい基礎モデルであるMIOを紹介し,音声,テキスト,画像,動画をエンドツーエンドで自動回帰的に理解し,生成する。 大規模言語モデル(LLM)とマルチモーダル・大規模言語モデル(MM-LLM)の出現は、汎用能力を通じて人工知能の進歩を促進するが、それでも真にあらゆる理解と生成を欠いている。 近年,GPT-4o のリリースにより,複雑な実世界のタスクに対して,任意の LLM の驚くべきポテンシャルが示され,画像,音声,テキスト間の一方向入力と出力が可能になった。 しかし、それはクローズドソースであり、マルチモーダルなインターリーブシーケンスの生成をサポートしていない。 因果マルチモーダルモデリングを用いて,4つのモードにまたがる離散トークンを混合したMIOを提案する。 MIOは,(1)アライメント・プレトレーニング,(2)インターリーブド・プレトレーニング,(3)スピーチ・エンハンスド・プレトレーニング,(4)テキスト・ビジュアル・音声タスクの総合的な微調整を行う。 実験の結果,MIOは従来の2つのモードベースライン,任意のモデルベースライン,さらにはモダリティ固有のベースラインと比較して,競争力があり,性能が優れていることが示唆された。 さらに、MIOは、インターリーブドビデオテキスト生成、チェーンオブビジュアル推論、ビジュアルガイドライン生成、インストラクショナル画像編集など、あらゆる機能に固有の高度な機能を示している。

In this paper, we introduce MIO, a novel foundation model built on multimodal tokens, capable of understanding and generating speech, text, images, and videos in an end-to-end, autoregressive manner. While the emergence of large language models (LLMs) and multimodal large language models (MM-LLMs) propels advancements in artificial general intelligence through their versatile capabilities, they still lack true any-to-any understanding and generation. Recently, the release of GPT-4o has showcased the remarkable potential of any-to-any LLMs for complex real-world tasks, enabling omnidirectional input and output across images, speech, and text. However, it is closed-source and does not support the generation of multimodal interleaved sequences. To address this gap, we present MIO, which is trained on a mixture of discrete tokens across four modalities using causal multimodal modeling. MIO undergoes a four-stage training process: (1) alignment pre-training, (2) interleaved pre-training, (3) speech-enhanced pre-training, and (4) comprehensive supervised fine-tuning on diverse textual, visual, and speech tasks. Our experimental results indicate that MIO exhibits competitive, and in some cases superior, performance compared to previous dual-modal baselines, any-to-any model baselines, and even modality-specific baselines. Moreover, MIO demonstrates advanced capabilities inherent to its any-to-any feature, such as interleaved video-text generation, chain-of-visual-thought reasoning, visual guideline generation, instructional image editing, etc.
翻訳日:2024-11-06 16:10:55 公開日:2024-10-31
# 分割正規化を実装したリカレントニューラルネットワークの無条件安定性

Unconditional stability of a recurrent neural circuit implementing divisive normalization ( http://arxiv.org/abs/2409.18946v2 )

ライセンス: Link先を確認
Shivang Rawat, David J. Heeger, Stefano Martiniani, (参考訳) リカレントニューラルネットワークの安定性は、特にシームレスに訓練できる生物学的にもっともらしい神経力学モデルの開発において、大きな課題となる。 従来の皮質回路モデルは、力学系の膨張する非線形性のために訓練が難しいことで知られており、非線形安定性の制約を課すのが難しい最適化問題となっている。 逆に、リカレントニューラルネットワーク(RNN)は、シーケンシャルなデータを含むタスクでは優れているが、生物学的な妥当性と解釈性に欠ける。 本研究では,動的分割正規化(DN)とORGaNICsの安定性を結合することにより,これらの課題に対処する。 リアプノフの間接法を用いて、リカレント重み行列が恒等式であるとき、任意の次元ORGaNICs回路の非条件局所安定性の顕著な特性を証明した。 これにより、回路のエネルギー関数を導出し、回路と個々のニューロンが達成しようとしていることの規範的原理を提供する。 さらに、2次元モデルの安定性を実証し、より高次元における安定性を実証する。 最後に、ORGaNICsは、その固有の安定性と、爆発、消滅、発振勾配の問題に対処する適応時間定数のおかげで、勾配のクリッピング/スケーリングなしで時間的後方伝播によって訓練できることを示す。 RNNベンチマークでモデルの性能を評価することにより、ORGaNICsは静的画像分類タスクにおいて代替の神経力学モデルより優れ、シーケンシャルタスクではLSTMと相容れない性能を示すことがわかった。

Stability in recurrent neural models poses a significant challenge, particularly in developing biologically plausible neurodynamical models that can be seamlessly trained. Traditional cortical circuit models are notoriously difficult to train due to expansive nonlinearities in the dynamical system, leading to an optimization problem with nonlinear stability constraints that are difficult to impose. Conversely, recurrent neural networks (RNNs) excel in tasks involving sequential data but lack biological plausibility and interpretability. In this work, we address these challenges by linking dynamic divisive normalization (DN) to the stability of ORGaNICs, a biologically plausible recurrent cortical circuit model that dynamically achieves DN and that has been shown to simulate a wide range of neurophysiological phenomena. By using the indirect method of Lyapunov, we prove the remarkable property of unconditional local stability for an arbitrary-dimensional ORGaNICs circuit when the recurrent weight matrix is the identity. We thus connect ORGaNICs to a system of coupled damped harmonic oscillators, which enables us to derive the circuit's energy function, providing a normative principle of what the circuit, and individual neurons, aim to accomplish. Further, for a generic recurrent weight matrix, we prove the stability of the 2D model and demonstrate empirically that stability holds in higher dimensions. Finally, we show that ORGaNICs can be trained by backpropagation through time without gradient clipping/scaling, thanks to its intrinsic stability property and adaptive time constants, which address the problems of exploding, vanishing, and oscillating gradients. By evaluating the model's performance on RNN benchmarks, we find that ORGaNICs outperform alternative neurodynamical models on static image classification tasks and perform comparably to LSTMs on sequential tasks.
翻訳日:2024-11-06 05:22:52 公開日:2024-10-31
# MambaEviScrib: Mamba and Evidence-Guided Consistency Make CNN work Robustly for Scribble-based Weakly Supervised Ultrasound Image Segmentation

MambaEviScrib: Mamba and Evidence-Guided Consistency Make CNN Work Robustly for Scribble-Based Weakly Supervised Ultrasound Image Segmentation ( http://arxiv.org/abs/2409.19370v1 )

ライセンス: Link先を確認
Xiaoxiang Han, Xinyu Li, Jiang Shang, Yiman Liu, Keyan Chen, Qiaohong Liu, Qi Zhang, (参考訳) 超音波画像からの解剖学的構造と病変の分離は、疾患の評価、診断、治療に寄与する。 スパースアノテーションに基づく弱教師付き学習(WSL)は、性能向上を実現し、アノテーションのコスト削減の可能性を示した。 しかし、超音波画像はコントラストの低さ、縁の不明瞭さ、大きさや病変の位置などの問題に悩まされることが多い。 これにより、局所的な受容場を持つ畳み込みネットワークが、スクリブルアノテーションによって提供されるスパース情報からグローバルな形態的特徴を抽出することが困難になる。 近年、状態空間列モデル(SSM)に基づく視覚的マンバは、トランスフォーマーと比較して長距離依存を確実にしながら、計算複雑性を著しく低減している。 その結果,超音波画像セグメント化にスクリブルベースWSLを初めて適用し,新しいハイブリッドCNN-Mambaフレームワークを提案する。 さらに、超音波画像の特徴や監視信号の不十分さにより、既存の整合性正規化はしばしば決定境界付近の予測をフィルタリングし、エッジの不安定な予測に繋がる。 そこで我々は,高密度領域付近で発生する可能性のある高エビデンス予測を利用して,最適化のための決定境界付近に存在する可能性のある低エビデンス予測を導出するEvidence-Guided Consistency(EGC)戦略を考案するための証拠のDST(Dempster-Shafer理論)を導入する。 トレーニング中、提案フレームワークにおけるCNNブランチとMambaブランチのコラボレーションは、ECC戦略に基づいて互いにインスピレーションを得ている。 二つのクラスと複数クラスのセグメンテーションのための4つの超音波公開データセットに対する大規模な実験は,提案手法の競争力を示している。 scribbleアノテーション付きデータセットとコードはhttps://github.com/GtLinyer/MambaEviScribで利用可能になる。

Segmenting anatomical structures and lesions from ultrasound images contributes to disease assessment, diagnosis, and treatment. Weakly supervised learning (WSL) based on sparse annotation has achieved encouraging performance and demonstrated the potential to reduce annotation costs. However, ultrasound images often suffer from issues such as poor contrast, unclear edges, as well as varying sizes and locations of lesions. This makes it challenging for convolutional networks with local receptive fields to extract global morphological features from the sparse information provided by scribble annotations. Recently, the visual Mamba based on state space sequence models (SSMs) has significantly reduced computational complexity while ensuring long-range dependencies compared to Transformers. Consequently, for the first time, we apply scribble-based WSL to ultrasound image segmentation and propose a novel hybrid CNN-Mamba framework. Furthermore, due to the characteristics of ultrasound images and insufficient supervision signals, existing consistency regularization often filters out predictions near decision boundaries, leading to unstable predictions of edges. Hence, we introduce the Dempster-Shafer theory (DST) of evidence to devise an Evidence-Guided Consistency (EGC) strategy, which leverages high-evidence predictions more likely to occur near high-density regions to guide low-evidence predictions potentially present near decision boundaries for optimization. During training, the collaboration between the CNN branch and the Mamba branch in the proposed framework draws inspiration from each other based on the EGC strategy. Extensive experiments on four ultrasound public datasets for binary-class and multi-class segmentation demonstrate the competitiveness of the proposed method. The scribble-annotated dataset and code will be made available on https://github.com/GtLinyer/MambaEviScrib.
翻訳日:2024-11-05 23:48:39 公開日:2024-10-31
# MambaEviScrib: Mamba and Evidence-Guided Consistency Enhance CNN Robustness for Scribble-based Weakly Supervised Ultrasound Image Segmentation

MambaEviScrib: Mamba and Evidence-Guided Consistency Enhance CNN Robustness for Scribble-Based Weakly Supervised Ultrasound Image Segmentation ( http://arxiv.org/abs/2409.19370v2 )

ライセンス: Link先を確認
Xiaoxiang Han, Xinyu Li, Jiang Shang, Yiman Liu, Keyan Chen, Shugong Xu, Qiaohong Liu, Qi Zhang, (参考訳) 超音波画像からの解剖学的構造と病変の分離は疾患評価に寄与する。 スパースアノテーションに基づく弱教師付き学習 (WSL) は, 性能向上を実現し, アノテーションのコスト削減の可能性を示した。 本研究は,超音波画像分割作業におけるスクリブルベースWSLの導入を試みる。 しかし、超音波画像は低コントラストと不明瞭なエッジに悩まされ、エッジの監視信号が不十分で、エッジ予測に課題が生じる。 不確実性モデリングは、これらの問題に対処する際のモデルを容易にすることが証明されている。 それでも、既存の不確実性推定パラダイムは十分に堅牢ではなく、しばしば決定境界付近で予測をフィルタリングし、不安定なエッジ予測をもたらす。 そこで本研究では,意思決定境界付近の予測を効果的に活用することを提案する。 具体的には、Evidence-Guided Consistency戦略を設計するための証拠のDST(Dempster-Shafer Theory)を紹介する。 この戦略は、高密度領域付近で起こりやすい高エビデンス予測を利用して、決定境界付近に現れる可能性のある低エビデンス予測の最適化を導く。 さらに、超音波画像における病変の大きさや位置の多様性は、グローバルな情報のモデル化に苦慮しているため、局所受容野を持つCNNにとって課題となる。 そこで我々は,線形計算複雑性を伴う長距離依存性を実現する構造化状態空間列モデルに基づくVisual Mambaを導入し,新しいハイブリッドCNN-Mambaフレームワークを構築した。 トレーニング中、提案フレームワークにおけるCNNブランチとMambaブランチのコラボレーションは、ECC戦略に基づいて互いにインスピレーションを得ている。 提案手法の競争性を示す実験を行った。 データセットとコードはhttps://github.com/GtLinyer/MambaEviScrib.comで入手できる。

Segmenting anatomical structures and lesions from ultrasound images contributes to disease assessment. Weakly supervised learning (WSL) based on sparse annotation has achieved encouraging performance and demonstrated the potential to reduce annotation costs. This study attempts to introduce scribble-based WSL into ultrasound image segmentation tasks. However, ultrasound images often suffer from poor contrast and unclear edges, coupled with insufficient supervison signals for edges, posing challenges to edge prediction. Uncertainty modeling has been proven to facilitate models in dealing with these issues. Nevertheless, existing uncertainty estimation paradigms are not robust enough and often filter out predictions near decision boundaries, resulting in unstable edge predictions. Therefore, we propose leveraging predictions near decision boundaries effectively. Specifically, we introduce Dempster-Shafer Theory (DST) of evidence to design an Evidence-Guided Consistency strategy. This strategy utilizes high-evidence predictions, which are more likely to occur near high-density regions, to guide the optimization of low-evidence predictions that may appear near decision boundaries. Furthermore, the diverse sizes and locations of lesions in ultrasound images pose a challenge for CNNs with local receptive fields, as they struggle to model global information. Therefore, we introduce Visual Mamba based on structured state space sequence models, which achieves long-range dependency with linear computational complexity, and we construct a novel hybrid CNN-Mamba framework. During training, the collaboration between the CNN branch and the Mamba branch in the proposed framework draws inspiration from each other based on the EGC strategy. Experiments demonstrate the competitiveness of the proposed method. Dataset and code will be available on https://github.com/GtLinyer/MambaEviScrib.
翻訳日:2024-11-05 23:48:39 公開日:2024-10-31
# 知識協調型統合型マルチモーダル編集を目指して

Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration ( http://arxiv.org/abs/2409.19872v1 )

ライセンス: Link先を確認
Kaihang Pan, Zhaoyu Fan, Juncheng Li, Qifan Yu, Hao Fei, Siliang Tang, Richang Hong, Hanwang Zhang, Qianru Sun, (参考訳) MLLM(Multimodal LLMs)の急速な進歩は、効果的な知識編集に重要な課題をもたらす。 内在的知識の編集や外部知識の活用を含む現在の手法は、それぞれ強度と弱点を持ち、MLLMに適用された場合の信頼性、一般性、局所性の望ましい特性のバランスをとるのに苦労している。 そこで本稿では,本研究では,本質的な知識編集と外部知識活用のための統一的な視点とパラダイムを確立する,新しいマルチモーダル編集手法UniKEを提案する。 どちらの種類の知識もベクトル化キーバリューメモリとして概念化され、対応する編集プロセスは同じ意味レベルで行われる人間の認知の同化と調節のフェーズに類似している。 このような統合された枠組みの中では、知識表現を意味的および真理性空間に切り離すことにより、知識協調をさらに促進する。 本手法の有効性を総合的に検証し,編集後MLLMが優れた信頼性,汎用性,局所性を同時に維持することを保証する。 UniKEのコードは \url{https://github.com/beepkh/UniKE} で入手できる。

The swift advancement in Multimodal LLMs (MLLMs) also presents significant challenges for effective knowledge editing. Current methods, including intrinsic knowledge editing and external knowledge resorting, each possess strengths and weaknesses, struggling to balance the desired properties of reliability, generality, and locality when applied to MLLMs. In this paper, we propose UniKE, a novel multimodal editing method that establishes a unified perspective and paradigm for intrinsic knowledge editing and external knowledge resorting. Both types of knowledge are conceptualized as vectorized key-value memories, with the corresponding editing processes resembling the assimilation and accommodation phases of human cognition, conducted at the same semantic levels. Within such a unified framework, we further promote knowledge collaboration by disentangling the knowledge representations into the semantic and truthfulness spaces. Extensive experiments validate the effectiveness of our method, which ensures that the post-edit MLLM simultaneously maintains excellent reliability, generality, and locality. The code for UniKE will be available at \url{https://github.com/beepkh/UniKE}.
翻訳日:2024-11-05 17:09:32 公開日:2024-10-31
# 知識協調型統合型マルチモーダル編集を目指して

Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration ( http://arxiv.org/abs/2409.19872v2 )

ライセンス: Link先を確認
Kaihang Pan, Zhaoyu Fan, Juncheng Li, Qifan Yu, Hao Fei, Siliang Tang, Richang Hong, Hanwang Zhang, Qianru Sun, (参考訳) MLLM(Multimodal LLMs)の急速な進歩は、効果的な知識編集に重要な課題をもたらす。 内在的知識の編集や外部知識の活用を含む現在の手法は、それぞれ強度と弱点を持ち、MLLMに適用された場合の信頼性、一般性、局所性の望ましい特性のバランスをとるのに苦労している。 そこで本稿では,本研究では,本質的な知識編集と外部知識活用のための統一的な視点とパラダイムを確立する,新しいマルチモーダル編集手法UniKEを提案する。 どちらの種類の知識もベクトル化キーバリューメモリとして概念化され、対応する編集プロセスは同じ意味レベルで行われる人間の認知の同化と調節のフェーズに類似している。 このような統合された枠組みの中では、知識表現を意味的および真理性空間に切り離すことにより、知識協調をさらに促進する。 本手法の有効性を総合的に検証し,編集後MLLMが優れた信頼性,汎用性,局所性を同時に維持することを保証する。 UniKEのコードは \url{https://github.com/beepkh/UniKE} で入手できる。

The swift advancement in Multimodal LLMs (MLLMs) also presents significant challenges for effective knowledge editing. Current methods, including intrinsic knowledge editing and external knowledge resorting, each possess strengths and weaknesses, struggling to balance the desired properties of reliability, generality, and locality when applied to MLLMs. In this paper, we propose UniKE, a novel multimodal editing method that establishes a unified perspective and paradigm for intrinsic knowledge editing and external knowledge resorting. Both types of knowledge are conceptualized as vectorized key-value memories, with the corresponding editing processes resembling the assimilation and accommodation phases of human cognition, conducted at the same semantic levels. Within such a unified framework, we further promote knowledge collaboration by disentangling the knowledge representations into the semantic and truthfulness spaces. Extensive experiments validate the effectiveness of our method, which ensures that the post-edit MLLM simultaneously maintains excellent reliability, generality, and locality. The code for UniKE will be available at \url{https://github.com/beepkh/UniKE}.
翻訳日:2024-11-05 17:09:32 公開日:2024-10-31
# 知識協調型統合型マルチモーダル編集を目指して

Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration ( http://arxiv.org/abs/2409.19872v3 )

ライセンス: Link先を確認
Kaihang Pan, Zhaoyu Fan, Juncheng Li, Qifan Yu, Hao Fei, Siliang Tang, Richang Hong, Hanwang Zhang, Qianru Sun, (参考訳) MLLM(Multimodal LLMs)の急速な進歩は、効果的な知識編集に重要な課題をもたらす。 内在的知識の編集や外部知識の活用を含む現在の手法は、それぞれ強度と弱点を持ち、MLLMに適用された場合の信頼性、一般性、局所性の望ましい特性のバランスをとるのに苦労している。 そこで本稿では,本研究では,本質的な知識編集と外部知識活用のための統一的な視点とパラダイムを確立する,新しいマルチモーダル編集手法UniKEを提案する。 どちらの種類の知識もベクトル化キーバリューメモリとして概念化され、対応する編集プロセスは同じ意味レベルで行われる人間の認知の同化と調節のフェーズに類似している。 このような統合された枠組みの中では、知識表現を意味的および真理性空間に切り離すことにより、知識協調をさらに促進する。 本手法の有効性を総合的に検証し,編集後MLLMが優れた信頼性,汎用性,局所性を同時に維持することを保証する。 UniKEのコードは \url{https://github.com/beepkh/UniKE} で公開されている。

The swift advancement in Multimodal LLMs (MLLMs) also presents significant challenges for effective knowledge editing. Current methods, including intrinsic knowledge editing and external knowledge resorting, each possess strengths and weaknesses, struggling to balance the desired properties of reliability, generality, and locality when applied to MLLMs. In this paper, we propose UniKE, a novel multimodal editing method that establishes a unified perspective and paradigm for intrinsic knowledge editing and external knowledge resorting. Both types of knowledge are conceptualized as vectorized key-value memories, with the corresponding editing processes resembling the assimilation and accommodation phases of human cognition, conducted at the same semantic levels. Within such a unified framework, we further promote knowledge collaboration by disentangling the knowledge representations into the semantic and truthfulness spaces. Extensive experiments validate the effectiveness of our method, which ensures that the post-edit MLLM simultaneously maintains excellent reliability, generality, and locality. The code for UniKE is available at \url{https://github.com/beepkh/UniKE}.
翻訳日:2024-11-05 17:09:32 公開日:2024-10-31
# インスタンス適応型ゼロショットチェーン・オブ・サート・プロンプティング

Instance-adaptive Zero-shot Chain-of-Thought Prompting ( http://arxiv.org/abs/2409.20441v3 )

ライセンス: Link先を確認
Xiaosong Yuan, Chen Shen, Shaotian Yan, Xiaofeng Zhang, Liang Xie, Wenxiao Wang, Renchu Guan, Ying Wang, Jieping Ye, (参考訳) Zero-shot Chain-of-Thought (CoT) は,実世界の推論タスクにおける大規模言語モデル(LLM)の性能向上のための,シンプルかつ効果的な戦略として出現する。 それでも、単一のタスクレベルのプロンプトがインスタンス全体に一様に適用されることは、本質的に制限されている。 この研究は、良いプロンプトと悪いプロンプトを適応的に微分することで、代替のゼロショットCoT推論スキームとして、インスタンス適応プロンプトアルゴリズムを導入する。 具体的には、まず情報フローのレンズを通してLCMの分析を用い、ゼロショットCoT推論のメカニズムを検出する。 より優れたゼロショットCoT推論では、質問から意味情報を取得するためのプロンプトが必要であることに気付く。 それとは対照的に、これらのいずれかが欠落すると、おそらく悪い結果がもたらされるだろう。 そこから、ゼロショットCoT推論のためのインスタンス適応的プロンプト戦略(IAP)をさらに提案する。 LLaMA-2, LLaMA-3, Qwenで行った数学・論理・コモンセンス推論タスク(例えば、GSM8K, MMLU, Causal Judgement)の実験では、インスタンス適応型ゼロショットCoTプロンプトは、いくつかのプロンプトや高度な手順で他のタスクレベルメソッドよりも優れた性能を示し、ゼロショットCoT推論機構における我々の発見の重要性を示している。

Zero-shot Chain-of-Thought (CoT) prompting emerges as a simple and effective strategy for enhancing the performance of large language models (LLMs) in real-world reasoning tasks. Nonetheless, the efficacy of a singular, task-level prompt uniformly applied across the whole of instances is inherently limited since one prompt cannot be a good partner for all, a more appropriate approach should consider the interaction between the prompt and each instance meticulously. This work introduces an instance-adaptive prompting algorithm as an alternative zero-shot CoT reasoning scheme by adaptively differentiating good and bad prompts. Concretely, we first employ analysis on LLMs through the lens of information flow to detect the mechanism under zero-shot CoT reasoning, in which we discover that information flows from question to prompt and question to rationale jointly influence the reasoning results most. We notice that a better zero-shot CoT reasoning needs the prompt to obtain semantic information from the question then the rationale aggregates sufficient information from the question directly and via the prompt indirectly. On the contrary, lacking any of those would probably lead to a bad one. Stem from that, we further propose an instance-adaptive prompting strategy (IAP) for zero-shot CoT reasoning. Experiments conducted with LLaMA-2, LLaMA-3, and Qwen on math, logic, and commonsense reasoning tasks (e.g., GSM8K, MMLU, Causal Judgement) obtain consistent improvement, demonstrating that the instance-adaptive zero-shot CoT prompting performs better than other task-level methods with some curated prompts or sophisticated procedures, showing the significance of our findings in the zero-shot CoT reasoning mechanism.
翻訳日:2024-11-05 15:48:47 公開日:2024-10-31
# Maia-2: チェスにおけるAIアライメントの統一モデル

Maia-2: A Unified Model for Human-AI Alignment in Chess ( http://arxiv.org/abs/2409.20553v2 )

ライセンス: Link先を確認
Zhenwei Tang, Difan Jiao, Reid McIlroy-Young, Jon Kleinberg, Siddhartha Sen, Ashton Anderson, (参考訳) 人工知能(AI)システムが人間の能力を超え、人間の行動を正確にモデル化するドメインが増えている。 これにより、より関連性の高いAIパートナと、人間の意思決定に関する深い洞察を通じて、これらの領域におけるアルゴリズムによるインフォームド教育の可能性が導入される。 しかし、この目標を達成するためには、さまざまなスキルレベルでの人間の行動のコヒーレントなモデリングが不可欠である。 Chessはこの種の人間-AIアライメントの研究を行うための理想的なモデルシステムであり、その豊富な歴史はAI研究の重要なテストベッド、AlphaZeroのような成熟した超人AIシステム、チェスのレーティングシステムによるスキルの正確な測定などである。 チェスにおける人間の意思決定をモデル化する以前の作業では、完全に独立したモデルを使用して、異なるスキルレベルで人間のスタイルをキャプチャしている。 本研究では,チェスにおける人間-AIアライメントの統一的モデリング手法を提案する。 人間の学習の複雑で非線形的な性質を認識し,プレイヤーの強みをエンコードしたチェス位置と動的に統合する,スキル認識型アテンション機構を導入し,プレイヤーのスキルの進化に敏感なモデルを実現する。 我々の実験結果によると、この統合されたフレームワークは、AIと人間のプレーヤーの連携を、さまざまな専門知識レベルにわたって大幅に強化し、人間の意思決定とAI指導の教育ツールに関する深い洞察を得るための道を開いた。

There are an increasing number of domains in which artificial intelligence (AI) systems both surpass human ability and accurately model human behavior. This introduces the possibility of algorithmically-informed teaching in these domains through more relatable AI partners and deeper insights into human decision-making. Critical to achieving this goal, however, is coherently modeling human behavior at various skill levels. Chess is an ideal model system for conducting research into this kind of human-AI alignment, with its rich history as a pivotal testbed for AI research, mature superhuman AI systems like AlphaZero, and precise measurements of skill via chess rating systems. Previous work in modeling human decision-making in chess uses completely independent models to capture human style at different skill levels, meaning they lack coherence in their ability to adapt to the full spectrum of human improvement and are ultimately limited in their effectiveness as AI partners and teaching tools. In this work, we propose a unified modeling approach for human-AI alignment in chess that coherently captures human style across different skill levels and directly captures how people improve. Recognizing the complex, non-linear nature of human learning, we introduce a skill-aware attention mechanism to dynamically integrate players' strengths with encoded chess positions, enabling our model to be sensitive to evolving player skill. Our experimental results demonstrate that this unified framework significantly enhances the alignment between AI and human players across a diverse range of expertise levels, paving the way for deeper insights into human decision-making and AI-guided teaching tools.
翻訳日:2024-11-05 15:38:59 公開日:2024-10-31
# 知識に基づく言語モデルの提案

Probing Language Models on Their Knowledge Source ( http://arxiv.org/abs/2410.05817v2 )

ライセンス: Link先を確認
Zineddine Tighidet, Andrea Mogini, Jiali Mei, Benjamin Piwowarski, Patrick Gallinari, (参考訳) 大規模言語モデル(LLM)は、しばしば、学習された、内部(パラメトリック知識、PK)と推論中に提供される外部知識(コンテキスト知識、CK)の衝突に遭遇する。 LLMモデルが一方の知識ソースを他方よりも優先する方法を理解することは、依然として課題である。 本稿では,LLMにおけるPKとCKの選択を規定するメカニズムを探索する新しい探索フレームワークを提案する。 モデルPKと矛盾するように設計された制御されたプロンプトを用いて、特定のモデルのアクティベーションが採用した知識源の指標であることを実証する。 このフレームワークは,異なる大きさのLLM上で評価され,特に入力の関連性に関連する中層活性化が,知識源の選択を予測し,知識の衝突を効果的に処理できる信頼性の高いモデルへの道を開く上で重要であることを示す。

Large Language Models (LLMs) often encounter conflicts between their learned, internal (parametric knowledge, PK) and external knowledge provided during inference (contextual knowledge, CK). Understanding how LLMs models prioritize one knowledge source over the other remains a challenge. In this paper, we propose a novel probing framework to explore the mechanisms governing the selection between PK and CK in LLMs. Using controlled prompts designed to contradict the model's PK, we demonstrate that specific model activations are indicative of the knowledge source employed. We evaluate this framework on various LLMs of different sizes and demonstrate that mid-layer activations, particularly those related to relations in the input, are crucial in predicting knowledge source selection, paving the way for more reliable models capable of handling knowledge conflicts effectively.
翻訳日:2024-11-04 14:45:01 公開日:2024-10-31
# LucidGrasp:6次元空間推定による透明度が異なる実験装置の自動操作のためのロボットフレームワーク

LucidGrasp: Robotic Framework for Autonomous Manipulation of Laboratory Equipment with Different Degrees of Transparency via 6D Pose Estimation ( http://arxiv.org/abs/2410.07801v3 )

ライセンス: Link先を確認
Maria Makarova, Daria Trinitatova, Qian Liu, Dzmitry Tsetserukou, (参考訳) 現代のロボットシステムの多くは自律的に動作するが、環境を正確に分析し、外部条件に適応する能力が欠けていることが多い。 実験室自動化の分野では、自動化プロセスの数が増加しているが、通常は特定のタスクを実行するために開発されている。 さらに、この分野で使用される多くのオブジェクトは透明であり、視覚チャネルを用いてそれらを解析することは困難である。 この研究の貢献は、複雑なポーズの組み合わせで透明度が異なる液体で満たされた物体を操作するための自律モードのロボットフレームワークの開発である。 実験により, 自律的操作のための物体の姿勢を正確に推定する設計された視覚知覚システムの頑健さを実証し, 液体の排出などの厳密な操作におけるアルゴリズムの性能を確認した。 提案するロボット・フレームワークは、透明度や液体レベルの異なる物体のポーズを解析することで、非自明な操作作業を行う問題を解くことができ、精度と再現性が要求されるため、実験室の自動化に応用できる。

Many modern robotic systems operate autonomously, however they often lack the ability to accurately analyze the environment and adapt to changing external conditions, while teleoperation systems often require special operator skills. In the field of laboratory automation, the number of automated processes is growing, however such systems are usually developed to perform specific tasks. In addition, many of the objects used in this field are transparent, making it difficult to analyze them using visual channels. The contributions of this work include the development of a robotic framework with autonomous mode for manipulating liquid-filled objects with different degrees of transparency in complex pose combinations. The conducted experiments demonstrated the robustness of the designed visual perception system to accurately estimate object poses for autonomous manipulation, and confirmed the performance of the algorithms in dexterous operations such as liquid dispensing. The proposed robotic framework can be applied for laboratory automation, since it allows solving the problem of performing non-trivial manipulation tasks with the analysis of object poses of varying degrees of transparency and liquid levels, requiring high accuracy and repeatability.
翻訳日:2024-11-04 14:45:01 公開日:2024-10-31
# 生成拡散モデルを用いた行動関連・遠方性ニューラルダイナミクスの探索

Exploring Behavior-Relevant and Disentangled Neural Dynamics with Generative Diffusion Models ( http://arxiv.org/abs/2410.09614v2 )

ライセンス: Link先を確認
Yule Wang, Chengrui Li, Weihan Li, Anqi Wu, (参考訳) 行動の神経基盤を理解することは神経科学の基本的な目標である。 大規模神経行動データ分析の現在の研究は、しばしばデコードモデルに依存しており、神経データの行動情報を定量化するが、行動符号化の詳細を欠いている。 行動タスクにおける神経表現の詳細な探索を可能にし、行動に関連した解釈可能な神経力学を明らかにすることは、どのようにして可能か? しかし、異なる脳領域にまたがる多様な行動符号化と集団レベルでの混合選択性のため、この問題に対処することは困難である。 この制限に対処するため、我々のアプローチである `BeNeDiff' はまず、振る舞いインフォームド潜在変数モデルを用いて、きめ細やかで非絡み合ったニューラル部分空間を同定する。 次に、最先端の生成拡散モデルを使用して、各潜伏因子の神経力学を解釈する行動ビデオを合成する。 背側大脳皮質を横断する広視野カルシウムイメージング記録を含むマルチセッションデータセットについて,本手法の有効性を検証した。 拡散モデルを用いて個々の潜伏因子を活性化させることにより、非絡み合ったニューラル部分空間における潜伏因子のニューラルダイナミクスが、関心の行動の解釈可能な定量化をもたらすことを検証した。 同時に、BeNeDiffの神経サブスペースは、高い絡み合いと神経再構成の品質を示す。

Understanding the neural basis of behavior is a fundamental goal in neuroscience. Current research in large-scale neuro-behavioral data analysis often relies on decoding models, which quantify behavioral information in neural data but lack details on behavior encoding. This raises an intriguing scientific question: ``how can we enable in-depth exploration of neural representations in behavioral tasks, revealing interpretable neural dynamics associated with behaviors''. However, addressing this issue is challenging due to the varied behavioral encoding across different brain regions and mixed selectivity at the population level. To tackle this limitation, our approach, named ``BeNeDiff'', first identifies a fine-grained and disentangled neural subspace using a behavior-informed latent variable model. It then employs state-of-the-art generative diffusion models to synthesize behavior videos that interpret the neural dynamics of each latent factor. We validate the method on multi-session datasets containing widefield calcium imaging recordings across the dorsal cortex. Through guiding the diffusion model to activate individual latent factors, we verify that the neural dynamics of latent factors in the disentangled neural subspace provide interpretable quantifications of the behaviors of interest. At the same time, the neural subspace in BeNeDiff demonstrates high disentanglement and neural reconstruction quality.
翻訳日:2024-11-04 14:45:01 公開日:2024-10-31
# 自己回帰型タブラル変圧器を用いた事象予測のための簡易ベースライン

A Simple Baseline for Predicting Events with Auto-Regressive Tabular Transformers ( http://arxiv.org/abs/2410.10648v3 )

ライセンス: Link先を確認
Alex Stein, Samuel Sharpe, Doron Bergman, Senthil Kumar, C. Bayan Bruss, John Dickerson, Tom Goldstein, Micah Goldblum, (参考訳) 例えば、クレジットカード取引が不正であるか、顧客が小売プラットフォームに商品を割り当てる格付けがあるかなどである。 イベント予測への既存のアプローチには、コスト、脆性、タイムアウェアな位置埋め込み、学習行とフィールドエンコーディング、クラス不均衡に対処するオーバーサンプリングメソッドなど、アプリケーションに依存した技術がある。 さらに、これらのアプローチは、例えば、すべての歴史的なイベントのラベルを知っている、あるいは、データの特徴自体ではなく、事前に指定されたラベルだけを予測する、といった特定のユースケースを前提としています。 本研究では,基本的な位置埋め込みと因果言語モデリングの目的を有する標準自己回帰型LPM型トランスフォーマを用いた,単純だが柔軟なベースラインを提案する。 私たちのベースラインは、一般的なデータセットで既存のアプローチよりも優れており、さまざまなユースケースに使用することができます。 我々は、同じモデルがラベルを予測したり、欠落した値をインプットしたり、イベントシーケンスをモデル化できることを示した。

Many real-world applications of tabular data involve using historic events to predict properties of new ones, for example whether a credit card transaction is fraudulent or what rating a customer will assign a product on a retail platform. Existing approaches to event prediction include costly, brittle, and application-dependent techniques such as time-aware positional embeddings, learned row and field encodings, and oversampling methods for addressing class imbalance. Moreover, these approaches often assume specific use-cases, for example that we know the labels of all historic events or that we only predict a pre-specified label and not the data's features themselves. In this work, we propose a simple but flexible baseline using standard autoregressive LLM-style transformers with elementary positional embeddings and a causal language modeling objective. Our baseline outperforms existing approaches across popular datasets and can be employed for various use-cases. We demonstrate that the same model can predict labels, impute missing values, or model event sequences.
翻訳日:2024-11-04 14:45:01 公開日:2024-10-31
# 心理言語学におけるトークン化の適正処理について

On the Proper Treatment of Tokenization in Psycholinguistics ( http://arxiv.org/abs/2410.02691v1 )

ライセンス: Link先を確認
Mario Giulianelli, Luca Malagutti, Juan Luis Gastaldi, Brian DuSell, Tim Vieira, Ryan Cotterell, (参考訳) 言語モデルは、例えば、その領域を視線で見ることによって、言語モデルの下での関心領域(文字のサブストリング)の負の対数確率(副次的)と、読者が経験する認知的コストとを関連付ける理論をテストするために、計算心理学において広く用いられている。 しかし、近代言語モデルの心理言語学研究への応用は、モデルの訓練の中間段階としてトークン化を用いるプラクティスによって複雑である。 結果として、文字列の1つではなく、トークン文字列の1つが言語モデルになる。 興味深いことに、興味のある領域は一般的にこれらのトークン文字列と不一致である。 この論文は、トークンレベルの言語モデルは、ある関心領域の次数を計算するために心理言語学研究で使われる前に、(ほぼ)文字レベルの言語モデルにマージするべきであると論じている。 トークンレベルモデルを文字レベルにマージするという提案は、トークン化スキームとは無関係に、このミスアライメント問題を解決する。 実験により,興味領域自体のサブプライムよりも心理学的予測が優れている様々な焦点領域が発見された。

Language models are widely used in computational psycholinguistics to test theories that relate the negative log probability (the surprisal) of a region of interest (a substring of characters) under a language model to its cognitive cost experienced by readers, as operationalized, for example, by gaze duration on the region. However, the application of modern language models to psycholinguistic studies is complicated by the practice of using tokenization as an intermediate step in training a model. Doing so results in a language model over token strings rather than one over character strings. Vexingly, regions of interest are generally misaligned with these token strings. The paper argues that token-level language models should be (approximately) marginalized into character-level language models before they are used in psycholinguistic studies to compute the surprisal of a region of interest; then, the marginalized character-level language model can be used to compute the surprisal of an arbitrary character substring, which we term a focal area, that the experimenter may wish to use as a predictor. Our proposal of marginalizing a token-level model into a character-level one solves this misalignment issue independently of the tokenization scheme. Empirically, we discover various focal areas whose surprisal is a better psychometric predictor than the surprisal of the region of interest itself.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-31
# 心理言語学におけるトークン化の適正処理について

On the Proper Treatment of Tokenization in Psycholinguistics ( http://arxiv.org/abs/2410.02691v2 )

ライセンス: Link先を確認
Mario Giulianelli, Luca Malagutti, Juan Luis Gastaldi, Brian DuSell, Tim Vieira, Ryan Cotterell, (参考訳) 言語モデルは、例えば、その領域を視線で見ることによって、言語モデルの下での関心領域(文字のサブストリング)の負の対数確率(副次的)と、読者が経験する認知的コストとを関連付ける理論をテストするために、計算心理学において広く用いられている。 しかし、近代言語モデルの心理言語学研究への応用は、モデルの訓練の中間段階としてトークン化を用いるプラクティスによって複雑である。 結果として、文字列の1つではなく、トークン文字列の1つが言語モデルになる。 興味深いことに、興味のある領域は一般的にこれらのトークン文字列と不一致である。 この論文は、トークンレベルの言語モデルは、ある関心領域の次数を計算するために心理言語学研究で使われる前に、(ほぼ)文字レベルの言語モデルにマージするべきであると論じている。 トークンレベルモデルを文字レベルにマージするという提案は、トークン化スキームとは無関係に、このミスアライメント問題を解決する。 実験により,興味領域自体のサブプライムよりも心理学的予測が優れている様々な焦点領域が発見された。

Language models are widely used in computational psycholinguistics to test theories that relate the negative log probability (the surprisal) of a region of interest (a substring of characters) under a language model to its cognitive cost experienced by readers, as operationalized, for example, by gaze duration on the region. However, the application of modern language models to psycholinguistic studies is complicated by the practice of using tokenization as an intermediate step in training a model. Doing so results in a language model over token strings rather than one over character strings. Vexingly, regions of interest are generally misaligned with these token strings. The paper argues that token-level language models should be (approximately) marginalized into character-level language models before they are used in psycholinguistic studies to compute the surprisal of a region of interest; then, the marginalized character-level language model can be used to compute the surprisal of an arbitrary character substring, which we term a focal area, that the experimenter may wish to use as a predictor. Our proposal of marginalizing a token-level model into a character-level one solves this misalignment issue independently of the tokenization scheme. Empirically, we discover various focal areas whose surprisal is a better psychometric predictor than the surprisal of the region of interest itself.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-31
# Dessie: 3D馬の形状と画像からのポス推定のためのアンタングルメント

Dessie: Disentanglement for Articulated 3D Horse Shape and Pose Estimation from Images ( http://arxiv.org/abs/2410.03438v1 )

ライセンス: Link先を確認
Ci Li, Yi Yang, Zehang Weng, Elin Hernlund, Silvia Zuffi, Hedvig Kjellström, (参考訳) 近年,画像や映像から3次元形状やポーズを推定するための3次元パラメトリック動物モデルが開発されている。 人間にとって進歩はあったものの、注釈付きデータが限られているため、動物にとってはより困難です。 そこで本研究では,合成データ生成とゆがみを用いた3次元形状の復元とポーズの学習について紹介する。 馬に焦点をあてて、テキストベースのテクスチャ生成と合成データパイプラインを使用して、さまざまな形状、ポーズ、外観を作成し、絡み合った空間を学習する。 我々の方法であるDessieは、既存の3D馬の復元方法を超え、シマウマ、ウシ、シカといった他の大型動物に一般化する。 プロジェクトのWebサイトは: \url{https://celiali.github.io/Dessie/} を参照してください。

In recent years, 3D parametric animal models have been developed to aid in estimating 3D shape and pose from images and video. While progress has been made for humans, it's more challenging for animals due to limited annotated data. To address this, we introduce the first method using synthetic data generation and disentanglement to learn to regress 3D shape and pose. Focusing on horses, we use text-based texture generation and a synthetic data pipeline to create varied shapes, poses, and appearances, learning disentangled spaces. Our method, Dessie, surpasses existing 3D horse reconstruction methods and generalizes to other large animals like zebras, cows, and deer. See the project website at: \url{https://celiali.github.io/Dessie/}.
翻訳日:2024-11-02 22:19:23 公開日:2024-10-31
# Dessie: 3D馬の形状と画像からのポス推定のためのアンタングルメント

Dessie: Disentanglement for Articulated 3D Horse Shape and Pose Estimation from Images ( http://arxiv.org/abs/2410.03438v2 )

ライセンス: Link先を確認
Ci Li, Yi Yang, Zehang Weng, Elin Hernlund, Silvia Zuffi, Hedvig Kjellström, (参考訳) 近年,画像や映像から3次元形状やポーズを推定するための3次元パラメトリック動物モデルが開発されている。 人間にとって進歩はあったものの、注釈付きデータが限られているため、動物にとってはより困難です。 そこで本研究では,合成データ生成とゆがみを用いた3次元形状の復元とポーズの学習について紹介する。 馬に焦点をあてて、テキストベースのテクスチャ生成と合成データパイプラインを使用して、さまざまな形状、ポーズ、外観を作成し、絡み合った空間を学習する。 我々の方法であるDessieは、既存の3D馬の復元方法を超え、シマウマ、ウシ、シカといった他の大型動物に一般化する。 プロジェクトのWebサイトは: \url{https://celiali.github.io/Dessie/} を参照してください。

In recent years, 3D parametric animal models have been developed to aid in estimating 3D shape and pose from images and video. While progress has been made for humans, it's more challenging for animals due to limited annotated data. To address this, we introduce the first method using synthetic data generation and disentanglement to learn to regress 3D shape and pose. Focusing on horses, we use text-based texture generation and a synthetic data pipeline to create varied shapes, poses, and appearances, learning disentangled spaces. Our method, Dessie, surpasses existing 3D horse reconstruction methods and generalizes to other large animals like zebras, cows, and deer. See the project website at: \url{https://celiali.github.io/Dessie/}.
翻訳日:2024-11-02 22:19:23 公開日:2024-10-31
# 火星:オープンワールド環境における帰納的推論

Mars: Situated Inductive Reasoning in an Open-World Environment ( http://arxiv.org/abs/2410.08126v2 )

ライセンス: Link先を確認
Xiaojuan Tang, Jiaqi Li, Yitao Liang, Song-chun Zhu, Muhan Zhang, Zilong Zheng, (参考訳) 大規模コーパスで訓練された大規模言語モデル(LLM)は、知識集約的なタスクにおいて顕著な成功を収めている。 しかし、そのほとんどは事前の知識に依存している。 特定の環境から新しい一般知識を誘導し、獲得した知識 -- \textit{situated inductive reasoning} -- で推論を行うことは、マシンインテリジェンスにとって不可欠で難しい。 本稿では,位置帰納的推論のために考案された対話型環境であるMarsを設計する。 特定の原則に固執しながら、地形、生存設定、タスク依存を変更することで、反常識的なゲームメカニズムを導入する。 火星では、エージェントは周囲と積極的に対話し、有用なルールを導き、特定の状況下で意思決定タスクを実行する必要がある。 我々は様々なRL法およびLLM法を用いて実験を行い、それらがすべて、この挑戦的な位置帰納的推論ベンチマークで苦労していることを発見した。 さらに, エージェントに対して, 履歴軌跡からの帰納的推論を行うよう指示する。 優れた性能は火星における帰納的推論の重要性を強調している。 火星を通じ、我々は、位置のある帰納的推論の進歩を高揚させ、適応的で文脈に敏感な方法で推論できる次世代AIシステムを開発するためのステージを定めようとしている。

Large Language Models (LLMs) trained on massive corpora have shown remarkable success in knowledge-intensive tasks. Yet, most of them rely on pre-stored knowledge. Inducing new general knowledge from a specific environment and performing reasoning with the acquired knowledge -- \textit{situated inductive reasoning}, is crucial and challenging for machine intelligence. In this paper, we design Mars, an interactive environment devised for situated inductive reasoning. It introduces counter-commonsense game mechanisms by modifying terrain, survival setting and task dependency while adhering to certain principles. In Mars, agents need to actively interact with their surroundings, derive useful rules and perform decision-making tasks in specific contexts. We conduct experiments on various RL-based and LLM-based methods, finding that they all struggle on this challenging situated inductive reasoning benchmark. Furthermore, we explore \textit{Induction from Reflection}, where we instruct agents to perform inductive reasoning from history trajectory. The superior performance underscores the importance of inductive reasoning in Mars. Through Mars, we aim to galvanize advancements in situated inductive reasoning and set the stage for developing the next generation of AI systems that can reason in an adaptive and context-sensitive way.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-31
# FINALLY:スタジオ的品質による高速で普遍的な音声強調

FINALLY: fast and universal speech enhancement with studio-like quality ( http://arxiv.org/abs/2410.05920v3 )

ライセンス: Link先を確認
Nicholas Babaev, Kirill Tamogashev, Azat Saginbaev, Ivan Shchekotov, Hanbin Bae, Hosang Sung, WonJun Lee, Hoon-Young Cho, Pavel Andreev, (参考訳) 本稿では,背景雑音,残響,マイクロホンアーティファクトなどの様々な歪みを含む実世界の録音における音声強調の課題に対処する。 音声強調のためのGAN(Generative Adversarial Networks)の使用を再検討し、GANが条件付きクリーン音声分布における最大密度を求めることを理論的に示す。 本研究では, 対人訓練の安定性を高めるために, 知覚喪失のための様々な特徴抽出器について検討し, 特徴空間の構造を探索するための方法論を開発した。 これにより、WavLMベースの知覚損失をMS-STFT逆行訓練パイプラインに統合し、音声強調モデルの効果的で安定した訓練手順を作成する。 FINALLYと呼ばれる結果の音声強調モデルは、HiFi++アーキテクチャの上に構築され、WavLMエンコーダと新しいトレーニングパイプラインが組み込まれている。 各種データセットにおける実験結果から,48kHzで明瞭で高品質な音声を生成できることが確認できた。 デモページ:https://samsunglabs.github.io/FINALLY-page

In this paper, we address the challenge of speech enhancement in real-world recordings, which often contain various forms of distortion, such as background noise, reverberation, and microphone artifacts. We revisit the use of Generative Adversarial Networks (GANs) for speech enhancement and theoretically show that GANs are naturally inclined to seek the point of maximum density within the conditional clean speech distribution, which, as we argue, is essential for the speech enhancement task. We study various feature extractors for perceptual loss to facilitate the stability of adversarial training, developing a methodology for probing the structure of the feature space. This leads us to integrate WavLM-based perceptual loss into MS-STFT adversarial training pipeline, creating an effective and stable training procedure for the speech enhancement model. The resulting speech enhancement model, which we refer to as FINALLY, builds upon the HiFi++ architecture, augmented with a WavLM encoder and a novel training pipeline. Empirical results on various datasets confirm our model's ability to produce clear, high-quality speech at 48 kHz, achieving state-of-the-art performance in the field of speech enhancement. Demo page: https://samsunglabs.github.io/FINALLY-page
翻訳日:2024-11-01 17:09:37 公開日:2024-10-31
# 超線形アンシラを用いたQAC0の計算パワーについて

On the Computational Power of QAC0 with Barely Superlinear Ancillae ( http://arxiv.org/abs/2410.06499v2 )

ライセンス: Link先を確認
Anurag Anshu, Yangjing Dong, Fengning Ou, Penghui Yao, (参考訳) $\mathrm{QAC}^0$ は、任意の単一キュービットユニタリとマルチキュービットトフォリゲートからなる定数深さ多項式サイズの量子回路の族である。 ムーア (arXiv: 9903046) によって$\mathrm{AC}^0$ の量子対として導入され、$\mathrm{QAC}^0$ 回路がPARITYを計算できないという予想とともに導入された。 この研究において、我々はこの長年の予想を前進させる: 深さ-d$$\mathrm{QAC}^0$回路は、近似次数$\Theta(n)$で関数を計算するために$n^{1+3^{-d}}$ ancillaeを必要とし、PARITY、MAJORITY、$\mathrm{MOD}_k$を含む。 さらに、量子状態合成と量子チャネル合成の超線形下界を確立する。 これは超線型サイズ $\mathrm{QAC}^0$ 上の最初の超線型下界である。 PARITY については、ancillae のサイズを $n^{1+\exp(-o(d))}$ に改善すると、PARITY $\not\in$ QAC0 となる。 これらの下界は、$\mathrm{QAC}^0$回路に低次近似を与えることによって導かれる。 低次作用素に適用すると、d$$$$\mathrm{QAC}^0$回路がスペクトルノルムの次数$(n+a)^{1-3^{-d}}$多項式近似を持つことを示す。 これは、線型サイズ $\mathrm{QAC}^0$ に対応するクラス $\mathrm{QLC}^0$ が近似次数 $o(n)$ を持つことを意味する。 これは、$\mathrm{LC}^0$ 回路が、Bun, Robin, Thaler [SODA 2019] による近似次数 $o(n)$ を持つという結果の量子一般化である。 我々の結果は、$\mathrm{QLC}^0\neq\mathrm{NC}^1$であることを意味する。

$\mathrm{QAC}^0$ is the family of constant-depth polynomial-size quantum circuits consisting of arbitrary single qubit unitaries and multi-qubit Toffoli gates. It was introduced by Moore [arXiv: 9903046] as a quantum counterpart of $\mathrm{AC}^0$, along with the conjecture that $\mathrm{QAC}^0$ circuits can not compute PARITY. In this work we make progress on this longstanding conjecture: we show that any depth-$d$ $\mathrm{QAC}^0$ circuit requires $n^{1+3^{-d}}$ ancillae to compute a function with approximate degree $\Theta(n)$, which includes PARITY, MAJORITY and $\mathrm{MOD}_k$. We further establish superlinear lower bounds on quantum state synthesis and quantum channel synthesis. This is the first superlinear lower bound on the super-linear sized $\mathrm{QAC}^0$. Regarding PARITY, we show that any further improvement on the size of ancillae to $n^{1+\exp(-o(d))}$ would imply that PARITY $\not\in$ QAC0. These lower bounds are derived by giving low-degree approximations to $\mathrm{QAC}^0$ circuits. We show that a depth-$d$ $\mathrm{QAC}^0$ circuit with $a$ ancillae, when applied to low-degree operators, has a degree $(n+a)^{1-3^{-d}}$ polynomial approximation in the spectral norm. This implies that the class $\mathrm{QLC}^0$, corresponding to linear size $\mathrm{QAC}^0$ circuits, has approximate degree $o(n)$. This is a quantum generalization of the result that $\mathrm{LC}^0$ circuits have approximate degree $o(n)$ by Bun, Robin, and Thaler [SODA 2019]. Our result also implies that $\mathrm{QLC}^0\neq\mathrm{NC}^1$.
翻訳日:2024-11-01 17:09:37 公開日:2024-10-31
# ニオブ酸化物の結晶性:ニオブ3次元共振器における二層系欠陥の量子的応用

Crystallinity in Niobium oxides: A pathway to mitigate Two-Level System Defects in Niobium 3D Resonator for quantum applications ( http://arxiv.org/abs/2410.06805v2 )

ライセンス: Link先を確認
Y. Kalboussi, I. Curci, F. Miserque, D. Troadec, N. Brun, M. Walls, G. Jullien, F. Eozenou, M. Baudrier, L. Maurice, Q. Bertrand, P. Sahuquet, T. Proslier, (参考訳) ニオブ系超伝導量子回路の材料欠陥、特に2レベル系(TLS)欠陥はデコヒーレンスの主要な原因であり、究極的には量子計算とセンシングの性能を制限している。 したがって、これらのデバイスにおけるTLS欠陥の微視的起源を特定し、それらを取り除くための戦略を開発することが、超伝導量子ビット性能改善の鍵となる。 本稿では,650{\deg}Cでの10時間高真空(HV)加熱処理による3次元超伝導ニオブ共振器の2レベル系損失の低減効果を示す。 X線光電子分光法 (XPS) と高分解能走査透過電子顕微鏡 (STEM) を用いて, この熱処理がニオブ試料に及ぼす影響を調べたところ, 大気暴露とHPR後に生長したネイティブオキシド組成の変化とナノスケールの結晶性酸化物領域の形成が, 1.3GHzニオブ共振器の低磁場における10倍品質係数の増大と相関していることがわかった。

Materials imperfections in Nniobium based superconducting quantum circuits, in particular, two-level-system (TLS) defects, are a major source of decoherence, ultimately limiting the performance of quantum computation and sensing. Thus, identifying and understanding the microscopic origin of possible TLS defects in these devices and developing strategies to eliminate them is key to superconducting qubit performance improvement. In this paper, we demonstrate the reduction of two-level system losses in three-dimensional superconducting radio frequency (SRF) niobium resonators by a 10-hour high vacuum (HV) heat treatment at 650{\deg}C, even after exposure to air and high pressure rinsing (HPR). By probing the effect of this annealing on niobium samples using X-ray photoelectron spectroscopy (XPS) and high-resolution scanning transmission electron microscopy (STEM), we witness an alteration of the native oxide composition re-grown after air exposure and HPR and the creation of nano-scale crystalline oxide regions, which correlates with the measured tenfold quality factor enhancement at low fields of the 1.3 GHz niobium resonator.
翻訳日:2024-11-01 17:09:37 公開日:2024-10-31
# Flex-MoE:Flexible Mixture-of-Expertsによる任意モード結合のモデリング

Flex-MoE: Modeling Arbitrary Modality Combination via the Flexible Mixture-of-Experts ( http://arxiv.org/abs/2410.08245v2 )

ライセンス: Link先を確認
Sukwon Yun, Inyoung Choi, Jie Peng, Yangfan Wu, Jingxuan Bao, Qiyiwen Zhang, Jiayi Xin, Qi Long, Tianlong Chen, (参考訳) マルチモーダル学習は、画像、テキスト、パーソナライズドレコードなどの様々なソースからのデータを統合する機能を提供し、医療領域で頻繁に見られるようにして、様々な分野において重要性を高めている。 しかしながら、いくつかのモダリティが欠落しているシナリオでは、多くの既存のフレームワークは任意のモダリティの組み合わせを許容するのに苦労し、しばしば単一のモダリティや完全なデータに大きく依存する。 この潜在的なモダリティの組み合わせの監視は、現実の状況における適用性を制限している。 この課題に対処するため,Flex-MoE (Flexible Mixture-of-Experts) を提案する。 Flex-MoEの中核となる考え方は、新しい欠落したモダリティバンクを使用して、最初に欠落したモダリティに対処することである。 次に、ユニークな設計のSparse MoEフレームワークが続く。 具体的には、Flex-MoEは、すべてのモダリティを持つサンプルを使用して、一般化ルータ(\mathcal{G}$-Router)を介して一般化された知識を注入する専門家を訓練する。 次に$\mathcal{S}$-Routerは、観測されたモダリティの組み合わせに対応する専門家にトップ-1ゲートを割り当てることで、より少ないモダリティの組み合わせを扱うことを専門とする。 アルツハイマー病領域の4つのモードを含むADNIデータセットとMIMIC-IVデータセットを用いてFlex-MoEを評価する。 結果としてFlex-MoEの有効性が示され、様々なモダリティシナリオにおいて任意のモダリティの組み合わせをモデル化する能力を強調した。 コードはhttps://github.com/UNITES-Lab/flex-moe.comで入手できる。

Multimodal learning has gained increasing importance across various fields, offering the ability to integrate data from diverse sources such as images, text, and personalized records, which are frequently observed in medical domains. However, in scenarios where some modalities are missing, many existing frameworks struggle to accommodate arbitrary modality combinations, often relying heavily on a single modality or complete data. This oversight of potential modality combinations limits their applicability in real-world situations. To address this challenge, we propose Flex-MoE (Flexible Mixture-of-Experts), a new framework designed to flexibly incorporate arbitrary modality combinations while maintaining robustness to missing data. The core idea of Flex-MoE is to first address missing modalities using a new missing modality bank that integrates observed modality combinations with the corresponding missing ones. This is followed by a uniquely designed Sparse MoE framework. Specifically, Flex-MoE first trains experts using samples with all modalities to inject generalized knowledge through the generalized router ($\mathcal{G}$-Router). The $\mathcal{S}$-Router then specializes in handling fewer modality combinations by assigning the top-1 gate to the expert corresponding to the observed modality combination. We evaluate Flex-MoE on the ADNI dataset, which encompasses four modalities in the Alzheimer's Disease domain, as well as on the MIMIC-IV dataset. The results demonstrate the effectiveness of Flex-MoE highlighting its ability to model arbitrary modality combinations in diverse missing modality scenarios. Code is available at https://github.com/UNITES-Lab/flex-moe.
翻訳日:2024-11-01 17:09:37 公開日:2024-10-31
# インコンテクスト学習は本当にアウト・オブ・ディストリビューション・タスクに一般化できるのか?

Can In-context Learning Really Generalize to Out-of-distribution Tasks? ( http://arxiv.org/abs/2410.09695v2 )

ライセンス: Link先を確認
Qixun Wang, Yifei Wang, Yisen Wang, Xianghua Ying, (参考訳) 本研究は,トレーニング中に遭遇しなかったアウト・オブ・ディストリビューション(OOD)タスクに対する,イン・コンテクスト・ラーニング(ICL)のメカニズムについて検討する。 そこで我々は, GPT-2 モデルを用いて ICL を用いて OOD の数学的関数を学習することを目的とした合成実験を行った。 我々は、トランスフォーマーがICLを通してOODタスク機能を学ぶのに苦労していることを明らかにする。 特に、ICLのパフォーマンスは、事前学習された仮説空間内で関数を実装し、コンテキスト内の例に基づいて勾配降下を最適化するのに似ている。 さらに,ICLが理解できない抽象ラベルを文脈で学習する能力について検討した。 このような能力は分布シフトのないシナリオにのみ現れるため、新しいタスク学習能力の証拠にはならない。 さらに、モデルが複数のタスクで事前訓練された場合、OODタスク上でのICLの性能を評価する。 実証的および理論的解析は、ICLの \textbf{low-test-error preference} の存在を示し、テストコンテキストにおいて低いテストエラーをもたらす事前学習関数を実装する傾向がある。 数値実験により検証する。 この新たな理論的結果と経験的知見を組み合わせることで,OODタスクに対処するICLのメカニズムが解明される。

In this work, we explore the mechanism of in-context learning (ICL) on out-of-distribution (OOD) tasks that were not encountered during training. To achieve this, we conduct synthetic experiments where the objective is to learn OOD mathematical functions through ICL using a GPT-2 model. We reveal that Transformers may struggle to learn OOD task functions through ICL. Specifically, ICL performance resembles implementing a function within the pretraining hypothesis space and optimizing it with gradient descent based on the in-context examples. Additionally, we investigate ICL's well-documented ability to learn unseen abstract labels in context. We demonstrate that such ability only manifests in the scenarios without distributional shifts and, therefore, may not serve as evidence of new-task-learning ability. Furthermore, we assess ICL's performance on OOD tasks when the model is pretrained on multiple tasks. Both empirical and theoretical analyses demonstrate the existence of the \textbf{low-test-error preference} of ICL, where it tends to implement the pretraining function that yields low test error in the testing context. We validate this through numerical experiments. This new theoretical result, combined with our empirical findings, elucidates the mechanism of ICL in addressing OOD tasks.
翻訳日:2024-11-01 17:09:37 公開日:2024-10-31
# FasterDiT: アーキテクチャを変更することなく、より高速な拡散変換器のトレーニングを目指す

FasterDiT: Towards Faster Diffusion Transformers Training without Architecture Modification ( http://arxiv.org/abs/2410.10356v2 )

ライセンス: Link先を確認
Jingfeng Yao, Wang Cheng, Wenyu Liu, Xinggang Wang, (参考訳) 拡散変換器 (DiT) は研究において大きな注目を集めている。 しかし、彼らは緩やかな収束率に悩まされている。 本稿では,アーキテクチャの変更を伴わずにDiTトレーニングを高速化することを目的としている。 まず、特定のトレーニング戦略は、異なるデータに対して一貫してうまく機能しない。 第二に、特定の時点における監督の有効性は限られている。 そこで我々は,(1)戦略の失敗を解釈する新たな視点を導入する。 具体的には、SNR(Signal-to-Noise Ratio)の定義を少し拡張し、SNRの確率密度関数(PDF)を観察して、戦略のデータロバスト性の本質を理解することを提案する。 2)実験を多数実施し,実験結果を100以上報告し,PDFの観点から統一的な加速戦略を実証的に要約した。 (3)DiTのトレーニングプロセスをさらに促進する新たな監督手法を開発する。 そこで本研究では,極めてシンプルで実践可能な設計戦略であるFasterDiTを提案する。 数行のコード修正で、1000kの繰り返しでImageNet 256の2.30 FIDを達成し、DiT(2.27 FID)に匹敵するが、トレーニングでは7倍高速である。

Diffusion Transformers (DiT) have attracted significant attention in research. However, they suffer from a slow convergence rate. In this paper, we aim to accelerate DiT training without any architectural modification. We identify the following issues in the training process: firstly, certain training strategies do not consistently perform well across different data. Secondly, the effectiveness of supervision at specific timesteps is limited. In response, we propose the following contributions: (1) We introduce a new perspective for interpreting the failure of the strategies. Specifically, we slightly extend the definition of Signal-to-Noise Ratio (SNR) and suggest observing the Probability Density Function (PDF) of SNR to understand the essence of the data robustness of the strategy. (2) We conduct numerous experiments and report over one hundred experimental results to empirically summarize a unified accelerating strategy from the perspective of PDF. (3) We develop a new supervision method that further accelerates the training process of DiT. Based on them, we propose FasterDiT, an exceedingly simple and practicable design strategy. With few lines of code modifications, it achieves 2.30 FID on ImageNet 256 resolution at 1000k iterations, which is comparable to DiT (2.27 FID) but 7 times faster in training.
翻訳日:2024-11-01 17:09:37 公開日:2024-10-31
# LLMはテンポラルリレーショナル分類においてエンコーダのみのモデルを置き換えるか?

Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification? ( http://arxiv.org/abs/2410.10476v2 )

ライセンス: Link先を確認
Gabriel Roccabruna, Massimo Rizzoli, Giuseppe Riccardi, (参考訳) イベント間の時間関係の自動検出は,RoBERTaのようなエンコーダのみのモデルで主に研究されている。 大規模言語モデル(LLM)は、最近、時間的質問応答のような時間的推論タスクにおいて、有望なパフォーマンスを示している。 しかし、近年の研究では、閉ソースモデルの時間的関係のみを検出し、それらの解釈可能性を制限するためにLLMの性能を検証している。 本研究では,時間関係分類タスクにおけるLLMの性能と決定過程について検討する。 まず,コンテクスト内学習と軽量微調整手法を用いて,オープンでクローズドな7つのLLMの性能評価を行った。 結果,テキスト内学習を用いたLLMは,RoBERTaに基づくエンコーダのみのモデルでは著しく性能が劣ることがわかった。 そして、説明可能な方法を適用することによって、このギャップの考えられる理由を掘り下げる。 この結果は、自己回帰的な性質のため、このタスクにおけるLSMの制限が示され、配列の最後の部分にのみ焦点をあてることになる。 さらに、これらの2つのモデルの単語埋め込みを評価し、事前学習の違いをよりよく理解する。 コードと微調整されたモデルはそれぞれGitHubにある。

The automatic detection of temporal relations among events has been mainly investigated with encoder-only models such as RoBERTa. Large Language Models (LLM) have recently shown promising performance in temporal reasoning tasks such as temporal question answering. Nevertheless, recent studies have tested the LLMs' performance in detecting temporal relations of closed-source models only, limiting the interpretability of those results. In this work, we investigate LLMs' performance and decision process in the Temporal Relation Classification task. First, we assess the performance of seven open and closed-sourced LLMs experimenting with in-context learning and lightweight fine-tuning approaches. Results show that LLMs with in-context learning significantly underperform smaller encoder-only models based on RoBERTa. Then, we delve into the possible reasons for this gap by applying explainable methods. The outcome suggests a limitation of LLMs in this task due to their autoregressive nature, which causes them to focus only on the last part of the sequence. Additionally, we evaluate the word embeddings of these two models to better understand their pre-training differences. The code and the fine-tuned models can be found respectively on GitHub.
翻訳日:2024-11-01 17:09:37 公開日:2024-10-31
# FINALLY:スタジオ的品質による高速で普遍的な音声強調

FINALLY: fast and universal speech enhancement with studio-like quality ( http://arxiv.org/abs/2410.05920v1 )

ライセンス: Link先を確認
Nicholas Babaev, Kirill Tamogashev, Azat Saginbaev, Ivan Shchekotov, Hanbin Bae, Hosang Sung, WonJun Lee, Hoon-Young Cho, Pavel Andreev, (参考訳) 本稿では,背景雑音,残響,マイクロホンアーティファクトなどの様々な歪みを含む実世界の録音における音声強調の課題に対処する。 音声強調のためのGAN(Generative Adversarial Networks)の使用を再検討し、GANが条件付きクリーン音声分布における最大密度を求めることを理論的に示す。 本研究では, 対人訓練の安定性を高めるために, 知覚喪失のための様々な特徴抽出器について検討し, 特徴空間の構造を探索するための方法論を開発した。 これにより、WavLMベースの知覚損失をMS-STFT逆行訓練パイプラインに統合し、音声強調モデルの効果的で安定した訓練手順を作成する。 FINALLYと呼ばれる結果の音声強調モデルは、HiFi++アーキテクチャの上に構築され、WavLMエンコーダと新しいトレーニングパイプラインが組み込まれている。 各種データセットにおける実験結果から,48kHzで明瞭で高品質な音声を生成できることが確認できた。

In this paper, we address the challenge of speech enhancement in real-world recordings, which often contain various forms of distortion, such as background noise, reverberation, and microphone artifacts. We revisit the use of Generative Adversarial Networks (GANs) for speech enhancement and theoretically show that GANs are naturally inclined to seek the point of maximum density within the conditional clean speech distribution, which, as we argue, is essential for the speech enhancement task. We study various feature extractors for perceptual loss to facilitate the stability of adversarial training, developing a methodology for probing the structure of the feature space. This leads us to integrate WavLM-based perceptual loss into MS-STFT adversarial training pipeline, creating an effective and stable training procedure for the speech enhancement model. The resulting speech enhancement model, which we refer to as FINALLY, builds upon the HiFi++ architecture, augmented with a WavLM encoder and a novel training pipeline. Empirical results on various datasets confirm our model's ability to produce clear, high-quality speech at 48 kHz, achieving state-of-the-art performance in the field of speech enhancement.
翻訳日:2024-11-01 12:10:29 公開日:2024-10-31
# FINALLY:スタジオ的品質による高速で普遍的な音声強調

FINALLY: fast and universal speech enhancement with studio-like quality ( http://arxiv.org/abs/2410.05920v2 )

ライセンス: Link先を確認
Nicholas Babaev, Kirill Tamogashev, Azat Saginbaev, Ivan Shchekotov, Hanbin Bae, Hosang Sung, WonJun Lee, Hoon-Young Cho, Pavel Andreev, (参考訳) 本稿では,背景雑音,残響,マイクロホンアーティファクトなどの様々な歪みを含む実世界の録音における音声強調の課題に対処する。 音声強調のためのGAN(Generative Adversarial Networks)の使用を再検討し、GANが条件付きクリーン音声分布における最大密度を求めることを理論的に示す。 本研究では, 対人訓練の安定性を高めるために, 知覚喪失のための様々な特徴抽出器について検討し, 特徴空間の構造を探索するための方法論を開発した。 これにより、WavLMベースの知覚損失をMS-STFT逆行訓練パイプラインに統合し、音声強調モデルの効果的で安定した訓練手順を作成する。 FINALLYと呼ばれる結果の音声強調モデルは、HiFi++アーキテクチャの上に構築され、WavLMエンコーダと新しいトレーニングパイプラインが組み込まれている。 各種データセットにおける実験結果から,48kHzで明瞭で高品質な音声を生成できることが確認できた。 デモページ:https://samsunglabs.github.io/FINALLY-page

In this paper, we address the challenge of speech enhancement in real-world recordings, which often contain various forms of distortion, such as background noise, reverberation, and microphone artifacts. We revisit the use of Generative Adversarial Networks (GANs) for speech enhancement and theoretically show that GANs are naturally inclined to seek the point of maximum density within the conditional clean speech distribution, which, as we argue, is essential for the speech enhancement task. We study various feature extractors for perceptual loss to facilitate the stability of adversarial training, developing a methodology for probing the structure of the feature space. This leads us to integrate WavLM-based perceptual loss into MS-STFT adversarial training pipeline, creating an effective and stable training procedure for the speech enhancement model. The resulting speech enhancement model, which we refer to as FINALLY, builds upon the HiFi++ architecture, augmented with a WavLM encoder and a novel training pipeline. Empirical results on various datasets confirm our model's ability to produce clear, high-quality speech at 48 kHz, achieving state-of-the-art performance in the field of speech enhancement. Demo page: https://samsunglabs.github.io/FINALLY-page
翻訳日:2024-11-01 12:10:29 公開日:2024-10-31